apparent bug in JpredFile parser where annotation was not being removed from alignmen...
[jalview.git] / src / jalview / util / Comparison.java
1 /*\r
2  * Jalview - A Sequence Alignment Editor and Viewer\r
3  * Copyright (C) 2007 AM Waterhouse, J Procter, G Barton, M Clamp, S Searle\r
4  *\r
5  * This program is free software; you can redistribute it and/or\r
6  * modify it under the terms of the GNU General Public License\r
7  * as published by the Free Software Foundation; either version 2\r
8  * of the License, or (at your option) any later version.\r
9  *\r
10  * This program is distributed in the hope that it will be useful,\r
11  * but WITHOUT ANY WARRANTY; without even the implied warranty of\r
12  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the\r
13  * GNU General Public License for more details.\r
14  *\r
15  * You should have received a copy of the GNU General Public License\r
16  * along with this program; if not, write to the Free Software\r
17  * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA  02110-1301, USA\r
18  */\r
19 package jalview.util;\r
20 \r
21 import jalview.datamodel.*;\r
22 \r
23 /**\r
24  * DOCUMENT ME!\r
25  *\r
26  * @author $author$\r
27  * @version $Revision$\r
28  */\r
29 public class Comparison\r
30 {\r
31   /** DOCUMENT ME!! */\r
32   public static final String GapChars = " .-";\r
33 \r
34   /**\r
35    * DOCUMENT ME!\r
36    *\r
37    * @param ii DOCUMENT ME!\r
38    * @param jj DOCUMENT ME!\r
39    *\r
40    * @return DOCUMENT ME!\r
41    */\r
42   public static final float compare(SequenceI ii, SequenceI jj)\r
43   {\r
44     return Comparison.compare(ii, jj, 0, ii.getLength() - 1);\r
45   }\r
46 \r
47   /**\r
48    * this was supposed to be an ungapped pid calculation\r
49    * @param ii SequenceI\r
50    * @param jj SequenceI\r
51    * @param start int\r
52    * @param end int\r
53    * @return float\r
54    */\r
55   public static float compare(SequenceI ii, SequenceI jj, int start, int end)\r
56   {\r
57     String si = ii.getSequenceAsString();\r
58     String sj = jj.getSequenceAsString();\r
59 \r
60     int ilen = si.length() - 1;\r
61     int jlen = sj.length() - 1;\r
62 \r
63     while (jalview.util.Comparison.isGap(si.charAt(start + ilen)))\r
64     {\r
65       ilen--;\r
66     }\r
67 \r
68     while (jalview.util.Comparison.isGap(sj.charAt(start + jlen)))\r
69     {\r
70       jlen--;\r
71     }\r
72 \r
73     int count = 0;\r
74     int match = 0;\r
75     float pid = -1;\r
76 \r
77     if (ilen > jlen)\r
78     {\r
79       for (int j = 0; j < jlen; j++)\r
80       {\r
81         if (si.substring(start + j, start + j + 1).equals(sj.substring(start +\r
82             j, start + j + 1)))\r
83         {\r
84           match++;\r
85         }\r
86 \r
87         count++;\r
88       }\r
89 \r
90       pid = (float) match / (float) ilen * 100;\r
91     }\r
92     else\r
93     {\r
94       for (int j = 0; j < jlen; j++)\r
95       {\r
96         if (si.substring(start + j, start + j + 1).equals(sj.substring(start +\r
97             j, start + j + 1)))\r
98         {\r
99           match++;\r
100         }\r
101 \r
102         count++;\r
103       }\r
104 \r
105       pid = (float) match / (float) jlen * 100;\r
106     }\r
107 \r
108     return pid;\r
109   }\r
110 \r
111   /**\r
112    * this is a gapped PID calculation\r
113    *\r
114    * @param s1 SequenceI\r
115    * @param s2 SequenceI\r
116    * @return float\r
117    */\r
118   public final static float PID(String seq1, String seq2)\r
119   {\r
120     return PID(seq1, seq2, 0, seq1.length());\r
121   }\r
122 \r
123   static final int caseShift = 'a' - 'A';\r
124 \r
125   // Another pid with region specification\r
126   public final static float PID(String seq1, String seq2, int start, int end)\r
127   {\r
128 \r
129     int s1len = seq1.length();\r
130     int s2len = seq2.length();\r
131 \r
132     int len = Math.min(s1len, s2len);\r
133 \r
134     if (end < len)\r
135     {\r
136       len = end;\r
137     }\r
138 \r
139     if (len < start)\r
140     {\r
141       start = len - 1; // we just use a single residue for the difference\r
142     }\r
143 \r
144     int bad = 0;\r
145     char chr1;\r
146     char chr2;\r
147 \r
148     for (int i = start; i < len; i++)\r
149     {\r
150       chr1 = seq1.charAt(i);\r
151 \r
152       chr2 = seq2.charAt(i);\r
153 \r
154       if ('a' <= chr1 && chr1 <= 'z')\r
155       {\r
156         // TO UPPERCASE !!!\r
157         //Faster than toUpperCase\r
158         chr1 -= caseShift;\r
159       }\r
160       if ('a' <= chr2 && chr2 <= 'z')\r
161       {\r
162         // TO UPPERCASE !!!\r
163         //Faster than toUpperCase\r
164         chr2 -= caseShift;\r
165       }\r
166 \r
167       if (chr1 != chr2 && !isGap(chr1) && !isGap(chr2))\r
168       {\r
169         bad++;\r
170       }\r
171     }\r
172 \r
173     return ( (float) 100 * (len - bad)) / len;\r
174   }\r
175 \r
176   /**\r
177    * DOCUMENT ME!\r
178    *\r
179    * @param c DOCUMENT ME!\r
180    *\r
181    * @return DOCUMENT ME!\r
182    */\r
183   public static final boolean isGap(char c)\r
184   {\r
185     return (c == '-' || c == '.' || c == ' ') ? true : false;\r
186   }\r
187 \r
188   public static final boolean isNucleotide(SequenceI[] seqs)\r
189   {\r
190     int i = 0, iSize = seqs.length, j, jSize;\r
191     float nt = 0, aa = 0;\r
192     char c;\r
193     while (i < iSize)\r
194     {\r
195       jSize = seqs[i].getLength();\r
196       for (j = 0; j < jSize; j++)\r
197       {\r
198         c = seqs[i].getCharAt(j);\r
199         if ('a' <= c && c <= 'z')\r
200         {\r
201           c -= ('a' - 'A');\r
202         }\r
203 \r
204         if (c == 'A' || c == 'G' || c == 'C' || c == 'T' || c == 'U')\r
205         {\r
206           nt++;\r
207         }\r
208         else if (!jalview.util.Comparison.isGap(seqs[i].getCharAt(j)))\r
209         {\r
210           aa++;\r
211         }\r
212       }\r
213       i++;\r
214     }\r
215 \r
216     if ( (nt / (nt + aa)) > 0.85f)\r
217     {\r
218       return true;\r
219     }\r
220     else\r
221     {\r
222       return false;\r
223     }\r
224 \r
225   }\r
226 }\r