JAL-2418 JAL-1632 JAL-2416 calculations dialog documentation page and release notes
[jalview.git] / help / html / calculations / pca.html
1 <html>
2 <!--
3  * Jalview - A Sequence Alignment Editor and Viewer ($$Version-Rel$$)
4  * Copyright (C) $$Year-Rel$$ The Jalview Authors
5  * 
6  * This file is part of Jalview.
7  * 
8  * Jalview is free software: you can redistribute it and/or
9  * modify it under the terms of the GNU General Public License 
10  * as published by the Free Software Foundation, either version 3
11  * of the License, or (at your option) any later version.
12  *  
13  * Jalview is distributed in the hope that it will be useful, but 
14  * WITHOUT ANY WARRANTY; without even the implied warranty 
15  * of MERCHANTABILITY or FITNESS FOR A PARTICULAR 
16  * PURPOSE.  See the GNU General Public License for more details.
17  * 
18  * You should have received a copy of the GNU General Public License
19  * along with Jalview.  If not, see <http://www.gnu.org/licenses/>.
20  * The Jalview Authors are detailed in the 'AUTHORS' file.
21  -->
22 <head>
23 <title>Principal Component Analysis</title>
24 </head>
25 <body>
26   <p>
27     <strong>Principal Component Analysis</strong>
28   </p>
29   <p>A principal component analysis can be performed via the 
30   <a href="calculations.html">calculations dialog</a> which is accessed by selecting <strong>Calculate&#8594;Calculate
31       Tree or PCA...</strong>.</p>
32   <p>This calculation creates a spatial representation of the
33     similarities within a selected group, or all of the sequences in an
34     alignment. After the calculation finishes, a 3D viewer displays the
35     set of sequences as points in 'similarity space', and similar
36     sequences tend to lie near each other in the space.</p>
37   <p>
38     <em>Caveats</em><br />The calculation can be computationally
39     expensive, and may fail for very large sets of sequences - usually
40     because the JVM has run out of memory. However, the PCA
41     implementation in Jalview 2.10.2 employs more memory efficient
42     matrix storage structures, allowing larger PCAs to be performed.
43   </p>
44
45   <p>
46     <strong>About PCA</strong>
47   </p>
48   <p>Principal components analysis is a technique for examining the
49     structure of complex data sets. The components are a set of
50     dimensions formed from the measured values in the data set, and the
51     principal component is the one with the greatest magnitude, or
52     length. The sets of measurements that differ the most should lie at
53     either end of this principal axis, and the other axes correspond to
54     less extreme patterns of variation in the data set.</p>
55
56   <p>
57     <em>Calculating PCAs for aligned sequences</em><br />Jalview can
58     perform PCA analysis on both proteins and nucleotide sequence
59     alignments. In both cases, components are generated by an
60     eigenvector decomposition of the matrix formed from the sum of
61     substitution matrix scores at each aligned position between each
62     pair of sequences - computed with one of the available score
63     matrices, such as <a href="scorematrices.html#blosum62">BLOSUM62</a>,
64     <a href="scorematrices.html#pam250">PAM250</a>, or the <a
65       href="scorematrices.html#simplenucleotide">simple single
66       nucleotide substitution matrix</a>. The options available for
67     calculation are given in the <strong><em>Change
68         Parameters</em></strong> menu.
69   </p>
70   <p>
71     <em>PCA Calculation modes</em><br /> The default Jalview
72     calculation mode (indicated when <em><strong>Jalview
73         PCA Calculation</strong></em> is ticked in the <strong><em>Change
74         Parameters</em></strong> menu) is to perform a PCA on a matrix where elements
75     in the upper diagonal give the sum of scores for mutating in one
76     direction, and the lower diagonal is the sum of scores for mutating
77     in the other. For protein substitution models like BLOSUM62, this
78     gives an asymmetric matrix, and a different PCA to a matrix produced
79     with the method described in the paper by G. Casari, C. Sander and
80     A. Valencia. Structural Biology volume 2, no. 2, February 1995 (<a
81       href="http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=pubmed&dopt=Abstract&list_uids=7749921">pubmed</a>)
82     and implemented at the SeqSpace server at the EBI. This method
83     preconditions the matrix by multiplying it with its transpose, and
84     can be employed in the PCA viewer by unchecking the <strong><em>Jalview
85         PCA Calculation</em></strong> option in the <strong><em>Change
86         Parameters</em></strong> menu.
87   </p>
88   <img src="pcaviewer.gif">
89   <p>
90     <strong>The PCA Viewer</strong>
91   </p>
92   <p>This is an interactive display of the sequences positioned
93     within the similarity space, as points in a rotateable 3D
94     scatterplot. The colour of each sequence point is the same as the
95     sequence group colours, white if no colour has been defined for the
96     sequence, and green if the sequence is part of a the currently
97     selected group.</p>
98   <p>
99     The 3d view can be rotated by dragging the mouse with the <strong>left
100       mouse button</strong> pressed. The view can also be zoomed in and out with
101     the up and down <strong>arrow keys</strong> (and the roll bar of the
102     mouse if present). Labels will be shown for each sequence if the
103     entry in the View menu is checked, and the plot background colour
104     changed from the View&#8594;Background Colour.. dialog box. The File
105     menu allows the view to be saved (<strong>File&#8594;Save</strong>
106     submenu) as an EPS or PNG image or printed, and the original
107     alignment data and matrix resulting from its PCA analysis to be
108     retrieved. The coordinates for the whole PCA space, or just the
109     current view may also be exported as CSV files for visualization in
110     another program or further analysis.
111   <p>
112   <p>Options for coordinates export are:</p>
113   <ul>
114     <li>Output Values - complete dump of analysis (TxT* matrix
115       computed from sum of scores for all pairs of aligned residues from
116       from i->j and j->i, conditioned matrix to be diagonalised,
117       tridiagonal form, major eigenvalues found)</li>
118     <li>Output Points - The eigenvector matrix - rows correspond to
119       sequences, columns correspond to each dimension in the PCA</li>
120     <li>Transformed Points - The 3D coordinates for each sequence
121       as shown in the PCA plot</li>
122   </ul>
123
124   <p>
125     A tool tip gives the sequence ID corresponding to a point in the
126     space, and clicking a point toggles the selection of the
127     corresponding sequence in the associated alignment window views.
128     <!-- Rectangular region
129 based selection is also possible, by holding the 'S' key whilst
130 left-clicking and dragging the mouse over the display. -->
131     By default, points are only associated with the alignment view from
132     which the PCA was calculated, but this may be changed via the <strong>View&#8594;Associate
133       Nodes</strong> sub-menu.
134   </p>
135   <p>
136     Initially, the display shows the first three components of the
137     similarity space, but any eigenvector can be used by changing the
138     selected dimension for the x, y, or z axis through each ones menu
139     located below the 3d display. The <strong><em>Reset</em></strong>
140     button will reset axis and rotation settings to their defaults.
141   </p>
142   <p>
143   <p>
144     <em>The output of points and transformed point coordinates was
145       added to the Jalview desktop in v2.7.</em> <em>The Reset button
146       and Change Parameters menu were added in Jalview 2.8.</em> <em>Support
147       for PAM250 based PCA was added in Jalview 2.8.1.</em>
148 </body>
149 </html>