new and corrected docs for 2.2 release
[jalview.git] / help / html / calculations / pca.html
1 <html>
2 <head><title>Principal Component Analysis</title></head>
3 <body>
4 <p><strong>Principal Component Analysis</strong></p>
5 <p>This calculation creates a spatial representation of the
6 similarities within a selected group, or all of the sequences in
7 an alignment. After the calculation finishes, a 3D viewer displays the
8 set of sequences as points in 'similarity space', and similar
9 sequences tend to lie near each other in the space.</p>
10 <p>Note: The calculation is computationally expensive, and may fail for very large sets of sequences -
11  usually because the JVM has run out of memory. A future release of
12  Jalview will be able to avoid this by executing the calculation via a web service.</p>
13 <p>Principal components analysis is a technique for examining the
14 structure of complex data sets. The components are a set of dimensions
15 formed from the measured values in the data set, and the principle
16 component is the one with the greatest magnitude, or length. The
17 sets of measurements that differ the most should lie at either end of
18 this principle axis, and the other axes correspond to less extreme
19 patterns of variation in the data set.
20 </p>
21
22 <p>In this case, the components are generated by an eigenvector
23 decomposition of the matrix formed from the sum of BLOSUM scores at
24 each aligned position between each pair of sequences. The basic method
25 is described in the paper by G. Casari, C. Sander and
26 A. Valencia. Structural Biology volume 2, no. 2, February 1995 (<a
27 href="http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=pubmed&dopt=Abstract&list_uids=7749921">pubmed</a>)
28  and implemented at the SeqSpace server at the EBI.
29 </p>
30
31 <p><strong>The PCA Viewer</strong></p>
32 <p>This is an interactive display of the sequences positioned within
33   the similarity space. The colour of each sequence point is the same
34   as the sequence group colours, white if no colour has been
35   defined for the sequence, and green if the sequence is part of a
36   the currently selected group.
37 </p>
38   <p>The 3d view can be rotated by dragging the mouse with the
39   <strong>left mouse button</strong> pressed. The view can also be
40   zoomed in and out with the up and down <strong>arrow
41   keys</strong> (and the roll bar of the mouse if present). Labels
42   will be shown for each sequence if the entry in the View menu is
43   checked, and the plot background colour changed from the
44   View&#8594;Background Colour.. dialog box. The File menu allows the
45   view to be saved (File&#8594;Save submenu) as an EPS or PNG image or
46   printed, and the original alignment data and matrix resulting from
47   its PCA analysis to be retrieved.
48 </p>
49  </p>
50 <p>A tool tip gives the sequence ID corresponding to a point in the
51   space, and clicking a point toggles the selection of the
52   corresponding sequence in the alignment window. Rectangular region
53   based selection is also possible, by holding the 'S' key whilst
54   left-clicking and dragging the mouse over the display.
55 </p>
56 <p>Initially, the display shows the first three components of the
57   similarity space, but any eigenvector can be used by changing the selected
58   dimension for the x, y, or z axis through each ones menu located
59   below the 3d display.
60 </p>
61 <p>
62
63 </body>
64 </html>