2.2 documentation
[jalview.git] / help / html / calculations / pca.html
1 <html>
2 <head>
3 <title>Principal Component Analysis</title>
4 </head>
5 <body>
6 <p><strong>Principal Component Analysis</strong></p>
7 <p>This calculation creates a spatial representation of the
8 similarities within a selected group, or all of the sequences in an
9 alignment. After the calculation finishes, a 3D viewer displays the set
10 of sequences as points in 'similarity space', and similar sequences tend
11 to lie near each other in the space.</p>
12 <p>Note: The calculation is computationally expensive, and may fail
13 for very large sets of sequences - usually because the JVM has run out
14 of memory. A future release of Jalview will be able to avoid this by
15 executing the calculation via a web service.</p>
16 <p>Principal components analysis is a technique for examining the
17 structure of complex data sets. The components are a set of dimensions
18 formed from the measured values in the data set, and the principle
19 component is the one with the greatest magnitude, or length. The sets of
20 measurements that differ the most should lie at either end of this
21 principle axis, and the other axes correspond to less extreme patterns
22 of variation in the data set.</p>
23
24 <p>In this case, the components are generated by an eigenvector
25 decomposition of the matrix formed from the sum of BLOSUM scores at each
26 aligned position between each pair of sequences. The basic method is
27 described in the paper by G. Casari, C. Sander and A. Valencia.
28 Structural Biology volume 2, no. 2, February 1995 (<a
29         href="http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=pubmed&dopt=Abstract&list_uids=7749921">pubmed</a>)
30 and implemented at the SeqSpace server at the EBI.</p>
31
32 <p><strong>The PCA Viewer</strong></p>
33 <p>This is an interactive display of the sequences positioned within
34 the similarity space, as points in a rotateable 3D scatterplot. The
35 colour of each sequence point is the same as the sequence group colours,
36 white if no colour has been defined for the sequence, and green if the
37 sequence is part of a the currently selected group.</p>
38 <p>The 3d view can be rotated by dragging the mouse with the <strong>left
39 mouse button</strong> pressed. The view can also be zoomed in and out with the up
40 and down <strong>arrow keys</strong> (and the roll bar of the mouse if
41 present). Labels will be shown for each sequence if the entry in the
42 View menu is checked, and the plot background colour changed from the
43 View&#8594;Background Colour.. dialog box. The File menu allows the view
44 to be saved (<strong>File&#8594;Save</strong> submenu) as an EPS or PNG
45 image or printed, and the original alignment data and matrix resulting
46 from its PCA analysis to be retrieved.</p>
47 <p>A tool tip gives the sequence ID corresponding to a point in the
48 space, and clicking a point toggles the selection of the corresponding
49 sequence in the associated alignment window views. Rectangular region
50 based selection is also possible, by holding the 'S' key whilst
51 left-clicking and dragging the mouse over the display. By default,
52 points are only associated with the alignment view from which the PCA
53 was calculated, but this may be changed via the <strong>Associate
54 Nodes</strong> sub-menu.</p>
55 <p>Initially, the display shows the first three components of the
56 similarity space, but any eigenvector can be used by changing the
57 selected dimension for the x, y, or z axis through each ones menu
58 located below the 3d display.</p>
59 <p>
60 </body>
61 </html>