JavaHelp files added
[jalview.git] / help / html / menus / calculateMenu.html
1 <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">\r
2 <html>\r
3 <head>\r
4 <title>Untitled Document</title>\r
5 <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">\r
6 </head>\r
7 \r
8 <body>\r
9 Calculate menu<br>\r
10 Consensus sequence <br>\r
11 Sorting sequence by pairwise identity to consensus <br>\r
12 Sorting by tree order <br>\r
13 Sorting by group order <br>\r
14 Removing redundancy of sequences <br>\r
15 Smith-Waterman pairwise alignment <br>\r
16 Principal component analysis <br>\r
17 UPGMA tree using percentage identity distances <br>\r
18 Neighbour joining tree using percentage identity distances <br>\r
19 Conservation <br>\r
20 <br>\r
21 Consensus sequence<br>\r
22 Each residue in the consensus sequence is the most frequent residue in each column \r
23 of the alignment excluding gap residues ' ','-' and '.' . You can't access the \r
24 consensus sequence directly but it is used in the PID colour scheme. <br>\r
25 When the editor first starts up the consensus sequence is automatically calculated \r
26 using all the sequences in the alignment and the PID colour scheme is used as \r
27 default. If the consensus option is selected again only the currently selected \r
28 sequences are used to calculate it and all sequences in the alignment are coloured \r
29 according to that consensus. <br>\r
30 <p>Sorting sequences<br>\r
31   Once a consensus calculation has been done selecting this option will sort the \r
32   selected sequences by their percentage identity to the consensus sequence. The \r
33   most similar sequence is put at the top. If no sequences are selected then redundancy \r
34   is removed from the whole alignment. <br>\r
35   Sorting by tree order<br>\r
36   If a UPGMA tree or a neighbour joining tree has been displayed then the main \r
37   alignment window displays the sequences in the same order as they appear in \r
38   the tree. This makes for easier comparison of the tree and the alignment. <br>\r
39   <br>\r
40   Sorting by group order<br>\r
41   If the sequences have been grouped either by hand or by selecting a point on \r
42   the tree then this option will reorder the alignment so all sequences in the \r
43   same group are together. The largest group is shown at the top of the alignment \r
44   and the smallest at the bottom. <br>\r
45   Removing redundancy<br>\r
46   Selecting this option brings up a window asking you to select a threshold. If \r
47   the percentage identity between two sequences exceeds this value one of the \r
48   sequences (the shorter) is discarded. The redundancy calculation is done when \r
49   the Apply button is pressed. For large numbers of sequences this can take a \r
50   long time as all pairs have to be compared. <br>\r
51   Pairwise alignment (Proteins only)<br>\r
52   This calculation is performed on the selected sequences only. Java is not the \r
53   fastest language in the world and aligning more than a handful of sequences \r
54   will take a fair amount of time. <br>\r
55   For each pair of sequences the best global alignment is found using BLOSUM62 \r
56   as the scoring matrix. The scores reported are the raw scores. The sequences \r
57   are aligned using a dynamic programming technique and using the following gap \r
58   penalties : </p>\r
59 <p>Gap open : 12 <br>\r
60   Gap extend : 2 </p>\r
61 <p>When you select the pairwise alignment option a new window will come up which \r
62   will display the alignments in a text format as they are calculated. Also displayed \r
63   is information about the alignment such as alignment score, length and percentage \r
64   identity between the sequences. </p>\r
65 <p>If you want to save that pairwise alignment (it's not in any known format I'm \r
66   afraid) you can cut and paste it from the text window with the mouse. You can \r
67   also press the 'View in alignment editor' button to bring up another editor \r
68   window. <br>\r
69 </p>\r
70 <p>Principal Component Analysis<br>\r
71   This is a method of clustering sequences based on the method developed by G. \r
72   Casari, C. Sander and A. Valencia. Structural Biology volume 2, no. 2, February \r
73   1995 . Extra information can also be found at the SeqSpace server at the EBI. \r
74   <br>\r
75   The version implemented here only looks at the clustering of whole sequences \r
76   and not individual positions in the alignment to help identify functional residues. \r
77   For large alignments plans are afoot to use the CORBA server written by Chris \r
78   Dodge to do this 'residue space' PCA remotely. </p>\r
79 <p>When the Calculate-&gt;Principal component analysis option is selected all \r
80   the sequences (not just the selected ones) are used in the calculation and for \r
81   large numbers of sequences this could take quite a time. When the calculation \r
82   is finished a new window is displayed showing the projections of the sequences \r
83   along the 2nd, 3rd and 4th vectors giving a 3dimensional view of how the sequences \r
84   cluster. </p>\r
85 <p>This 3d view can be rotated by holding the left mouse button down in the PCA \r
86   window and moving it. The user can also zoom in and out by using the up and \r
87   down arrow keys. </p>\r
88 <p>Individual points can be selected using the mouse and selected sequences show \r
89   up green in the PCA window and the usual grey background/white text in the alignment \r
90   and tree windows. </p>\r
91 <p>Different eigenvectors can be used to do the projection by changing the selected \r
92   dimensions in the 3 menus underneath the 3d window. <br>\r
93 </p>\r
94 <p>UPGMA tree<br>\r
95   If this option is selected from the Calculate menu then all sequences are used \r
96   to generate a UPGMA tree. The pairwise distances used to cluster the sequences \r
97   are the percentage mismatch between two sequences. For a reliable phylogenetic \r
98   tree I recommend other programs (phylowin, phylip) should be used as they have \r
99   the speed to use better distance methods and bootstrapping. Again, plans are \r
100   afoot for a server to do this and to be able to read in tree files generated \r
101   by other programs. <br>\r
102   When the tree has been calculated a new window is displayed showing the tree \r
103   with labels on the leaves showing the sequence ids. The user can select the \r
104   ids with the mouse and the selected sequences will also be selected in the alignment \r
105   window and the PCA window if that analysis has been calculated. </p>\r
106 <p>Selecting the 'show distances' checkbox will put branch lengths on the branches. \r
107   These branch lengths are the percentage mismatch between two nodes. </p>\r
108 <p>Postscript output can be generated for this tree and mailed to you by clicking \r
109   the Output button. This will bring up a window asking you for your email address \r
110   and you can set font options and the page orientation. Clicking the Apply button \r
111   will generate the postscript and send the email. <br>\r
112 </p>\r
113 <p>Neighbour Joining tree<br>\r
114   The distances between sequences for this tree are generated in the same way \r
115   as for the UPGMA tree. The method of clustering is the neighbour joining method \r
116   which doesn't just pick the two closest leaves to cluster together but compensates \r
117   for long edges by subtracting from the distances the average distance from each \r
118   leaf to all the others. <br>\r
119   Selection and output options are the same as for the UPGMA tree.</p>\r
120 <p> Conservation<br>\r
121   This option is based on the AMAS method of multiple sequence alignment analysis \r
122   (Livingstone C.D. and Barton G.J. (1993), Protein Sequence Alignments: A Strategy \r
123   for the Hierarchical Analysis of Residue Conservation.CABIOS Vol. 9 No. 6 (745-756)). \r
124   <br>\r
125   Hierarchical analysis is based on each residue having certain physico-chemical \r
126   properties listed as follows: <br>\r
127   <br>\r
128   <br>\r
129   <br>\r
130 </p>\r
131 <p>In brief go about it like this : <br>\r
132 </p>\r
133 <p>The alignment can first be divided into groups. This is best done by first \r
134   creating an average distance tree (Calculate-&gt;Average distance tree). Selecting \r
135   a position on the tree will cluster the sequences into groups depending on the \r
136   position selected. Each group is coloured a different colour which is used for \r
137   both the ids in the tree and alignment windows and the sequences themselves. \r
138   If a PCA window is visible a visual comparison can be made between the clustering \r
139   based on the tree and the PCA. <br>\r
140   This link provides an example of the output after grouping for Pfam family rnaseH: \r
141 </p>\r
142 <p>The grouping by tree may not be satisfactory and the user may want to edit \r
143   the groups (Edit-&gt;Groups...) to put any outliers together. </p>\r
144 <p>Before selecting the conservation option change the colour scheme to something \r
145   sensible (Taylor or hydrophobicity for example). When the conservation is done \r
146   the existing colour scheme is modified so that the most conserved columns in \r
147   each group have the most intense colours and the least conserved are the palest. \r
148 </p>\r
149 <p> </p>\r
150 <p>This link shows the results of first colouring the alignment by hydrophobicity \r
151   (Colour-&gt;by hydrophobicity) then performing conservation analysis (Calculate-&gt;Conservation). \r
152   Conserved hydrophobic columns are shown with predominately red residues and \r
153   conserved hydrophilic columns with blue. The most conserved regions have the \r
154   brightest colours. <br>\r
155 </p>\r
156 <p> <br>\r
157   <br>\r
158   Here is shown the same conservation but with Taylor colours instead of hydrophobicity \r
159   (Colour-&gt;Taylor). <br>\r
160 </p>\r
161 <p>The conservation analysis is done on each sequence group. This highlights differences \r
162   and similarities in conserved residue properties between groups. </p>\r
163 <p></p>\r
164 </body>\r
165 </html>\r