After merge
[jalview.git] / src / jalview / analysis / SeqsetUtils.java
1 /*\r
2  * Jalview - A Sequence Alignment Editor and Viewer\r
3  * Copyright (C) 2005 AM Waterhouse, J Procter, G Barton, M Clamp, S Searle\r
4  *\r
5  * This program is free software; you can redistribute it and/or\r
6  * modify it under the terms of the GNU General Public License\r
7  * as published by the Free Software Foundation; either version 2\r
8  * of the License, or (at your option) any later version.\r
9  *\r
10  * This program is distributed in the hope that it will be useful,\r
11  * but WITHOUT ANY WARRANTY; without even the implied warranty of\r
12  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the\r
13  * GNU General Public License for more details.\r
14  *\r
15  * You should have received a copy of the GNU General Public License\r
16  * along with this program; if not, write to the Free Software\r
17  * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA  02110-1301, USA\r
18  */\r
19 package jalview.analysis;\r
20 \r
21 import java.util.*;\r
22 \r
23 import jalview.datamodel.*;\r
24 \r
25 /**\r
26  * <p>Title: </p>\r
27  *\r
28  * <p>Description: </p>\r
29  *\r
30  * <p>Copyright: Copyright (c) 2004</p>\r
31  *\r
32  * <p>Company: Dundee University</p>\r
33  *\r
34  * @author not attributable\r
35  * @version 1.0\r
36  */\r
37 public class SeqsetUtils\r
38 {\r
39 \r
40   /**\r
41    * Store essential properties of a sequence in a hashtable for later recovery\r
42    *  Keys are Name, Start, End, SeqFeatures, PdbId\r
43    * @param seq SequenceI\r
44    * @return Hashtable\r
45    */\r
46   public static Hashtable SeqCharacterHash(SequenceI seq)\r
47   {\r
48     Hashtable sqinfo = new Hashtable();\r
49     sqinfo.put("Name", seq.getName());\r
50     sqinfo.put("Start", new Integer(seq.getStart()));\r
51     sqinfo.put("End", new Integer(seq.getEnd()));\r
52     sqinfo.put("SeqFeatures", (seq.getSequenceFeatures() !=null) ? seq.getSequenceFeatures() : new Vector());\r
53     sqinfo.put("PdbId",\r
54                (seq.getPDBId() != null) ? seq.getPDBId() : new Vector());\r
55     sqinfo.put("datasetSequence", (seq.getDatasetSequence() !=null) ? seq.getDatasetSequence() : new Sequence("THISISAPLACEHOLDER",""));\r
56     return sqinfo;\r
57   }\r
58 \r
59   /**\r
60    * Recover essential properties of a sequence from a hashtable\r
61    * TODO: replace these methods with something more elegant.\r
62    * @param sq SequenceI\r
63    * @param sqinfo Hashtable\r
64    * @return boolean\r
65    */\r
66   public static boolean SeqCharacterUnhash(SequenceI sq, Hashtable sqinfo)\r
67   {\r
68     boolean namePresent = true;\r
69     String oldname = (String) sqinfo.get("Name");\r
70     Integer start = (Integer) sqinfo.get("Start");\r
71     Integer end = (Integer) sqinfo.get("End");\r
72     java.util.Vector sfeatures = (java.util.Vector) sqinfo.get(\r
73         "SeqFeatures");\r
74     Vector pdbid = (Vector) sqinfo.get("PdbId");\r
75     Sequence seqds = (Sequence) sqinfo.get("datasetSequence");\r
76     if (oldname == null)\r
77     {\r
78       namePresent = false;\r
79     }\r
80     else\r
81     {\r
82       sq.setName(oldname);\r
83     }\r
84 \r
85     if (!pdbid.equals(""))\r
86     {\r
87       sq.setPDBId(pdbid);\r
88     }\r
89 \r
90     if ( (start != null) && (end != null))\r
91     {\r
92       sq.setStart(start.intValue());\r
93       sq.setEnd(end.intValue());\r
94     }\r
95 \r
96     if ((sfeatures != null) && (sfeatures.size()>0))\r
97     {\r
98       sq.setSequenceFeatures(sfeatures);\r
99     }\r
100     if ((seqds!=null) && !(seqds.getName().equals("THISISAPLACEHOLDER") && seqds.getLength()==0)) {\r
101       sq.setDatasetSequence(seqds);\r
102     }\r
103 \r
104     return namePresent;\r
105   }\r
106 \r
107   /**\r
108    * Form of the unique name used in uniquify for the i'th sequence in an ordered vector of sequences.\r
109    * @param i int\r
110    * @return String\r
111    */\r
112   public static String unique_name(int i)\r
113   {\r
114     return new String("Sequence" + i);\r
115   }\r
116 \r
117   /**\r
118    * Generates a hash of SeqCharacterHash properties for each sequence\r
119    * in a sequence set, and optionally renames the sequences to an\r
120    * unambiguous 'safe' name.\r
121    * @param sequences SequenceI[]\r
122    * @param write_names boolean set this to rename each of the sequences to its unique_name(index) name\r
123    * @return Hashtable to be passed to @see deuniquify to recover original names (and properties) for renamed sequences\r
124    */\r
125   public static Hashtable uniquify(SequenceI[] sequences, boolean write_names)\r
126   {\r
127     // Generate a safely named sequence set and a hash to recover the sequence names\r
128     Hashtable map = new Hashtable();\r
129     //String[] un_names = new String[sequences.length];\r
130 \r
131     for (int i = 0; i < sequences.length; i++)\r
132     {\r
133       String safename = unique_name(i);\r
134       map.put(safename, SeqCharacterHash(sequences[i]));\r
135 \r
136       if (write_names)\r
137       {\r
138         sequences[i].setName(safename);\r
139       }\r
140     }\r
141 \r
142 \r
143     return map;\r
144   }\r
145   /**\r
146    * recover unsafe sequence names and original properties for a sequence\r
147    * set using a map generated by @see uniquify(sequences,true)\r
148    * @param map Hashtable\r
149    * @param sequences SequenceI[]\r
150    * @return boolean\r
151    */\r
152   public static boolean deuniquify(Hashtable map, SequenceI[] sequences)\r
153   {\r
154     jalview.analysis.SequenceIdMatcher matcher = new SequenceIdMatcher(sequences);\r
155     SequenceI msq = null;\r
156     Enumeration keys = map.keys();\r
157     Vector unmatched = new Vector();\r
158     for (int i=0, j=sequences.length; i<j; i++)\r
159       unmatched.add(sequences[i]);\r
160     while (keys.hasMoreElements()) {\r
161       Object key = keys.nextElement();\r
162       if (key instanceof String) {\r
163         if ((msq = matcher.findIdMatch((String) key))!=null) {\r
164           Hashtable sqinfo = (Hashtable) map.get(key);\r
165           unmatched.remove(msq);\r
166           SeqCharacterUnhash(msq, sqinfo);\r
167         }\r
168         else\r
169         {\r
170           System.err.println("Can't find '"+((String) key)+"' in uniquified alignment");\r
171         }\r
172       }\r
173     }\r
174     if (unmatched.size()>0) {\r
175       System.err.println("Did not find matches for :");\r
176       for (Enumeration i = unmatched.elements(); i.hasMoreElements(); System.out.println(((SequenceI) i.nextElement()).getName()))\r
177            ;\r
178       return false;\r
179     }\r
180 \r
181     return true;\r
182   }\r
183   /**\r
184    * returns a subset of the sequenceI seuqences,\r
185    * including only those that contain at least one residue.\r
186    * @param sequences SequenceI[]\r
187    * @return SequenceI[]\r
188    */\r
189   public static SequenceI[] getNonEmptySequenceSet(SequenceI[] sequences) {\r
190       // Identify first row of alignment with residues for prediction\r
191       boolean ungapped[] = new boolean[sequences.length];\r
192       int msflen=0;\r
193       for (int i=0,j=sequences.length; i<j;i++) {\r
194         String tempseq = jalview.analysis.AlignSeq.extractGaps(jalview.util.Comparison.GapChars, sequences[i].getSequence());\r
195         if (tempseq.length()==0)\r
196           ungapped[i]=false;\r
197         else {\r
198           ungapped[i]=true;\r
199           msflen++;\r
200         }\r
201       }\r
202       if (msflen==0)\r
203         return null; // no minimal set\r
204       // compose minimal set\r
205       SequenceI[] mset = new SequenceI[msflen];\r
206       for (int i=0,j=sequences.length,k=0; i<j;i++) {\r
207         if (ungapped[i])\r
208           mset[k++] = sequences[i];\r
209       }\r
210       ungapped = null;\r
211       return mset;\r
212   }\r
213 }\r