76e73e4a827e27d65a797cfaf5098ea47178d7ac
[jalview.git] / src / jalview / ws / DBRefFetcher.java
1 /*\r
2  * Jalview - A Sequence Alignment Editor and Viewer (Version 2.4)\r
3  * Copyright (C) 2008 AM Waterhouse, J Procter, G Barton, M Clamp, S Searle\r
4  * \r
5  * This program is free software; you can redistribute it and/or\r
6  * modify it under the terms of the GNU General Public License\r
7  * as published by the Free Software Foundation; either version 2\r
8  * of the License, or (at your option) any later version.\r
9  * \r
10  * This program is distributed in the hope that it will be useful,\r
11  * but WITHOUT ANY WARRANTY; without even the implied warranty of\r
12  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the\r
13  * GNU General Public License for more details.\r
14  * \r
15  * You should have received a copy of the GNU General Public License\r
16  * along with this program; if not, write to the Free Software\r
17  * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA  02110-1301, USA\r
18  */\r
19 package jalview.ws;\r
20 \r
21 import java.io.*;\r
22 import java.util.*;\r
23 \r
24 import org.exolab.castor.mapping.*;\r
25 import org.exolab.castor.xml.*;\r
26 import jalview.analysis.*;\r
27 import jalview.datamodel.*;\r
28 import jalview.datamodel.Mapping;\r
29 import jalview.gui.*;\r
30 import jalview.ws.dbsources.Uniprot;\r
31 import jalview.ws.ebi.EBIFetchClient;\r
32 \r
33 /**\r
34  * Implements a runnable for validating a sequence against external databases\r
35  * and then propagating references and features onto the sequence(s)\r
36  * \r
37  * @author $author$\r
38  * @version $Revision$\r
39  */\r
40 public class DBRefFetcher implements Runnable\r
41 {\r
42   SequenceI[] dataset;\r
43 \r
44   IProgressIndicator af;\r
45 \r
46   CutAndPasteTransfer output = new CutAndPasteTransfer();\r
47 \r
48   StringBuffer sbuffer = new StringBuffer();\r
49 \r
50   boolean running = false;\r
51 \r
52   // /This will be a collection of Vectors of sequenceI refs.\r
53   // The key will be the seq name or accession id of the seq\r
54   Hashtable seqRefs;\r
55 \r
56   String[] dbSources;\r
57 \r
58   SequenceFetcher sfetcher;\r
59 \r
60   public DBRefFetcher()\r
61   {\r
62   }\r
63 \r
64   /**\r
65    * Creates a new SequenceFeatureFetcher object.\r
66    * \r
67    * @param seqs\r
68    *                fetch references for these sequences\r
69    * @param af\r
70    *                the parent alignframe for progress bar monitoring.\r
71    */\r
72   public DBRefFetcher(SequenceI[] seqs, AlignFrame af)\r
73   {\r
74     this.af = af;\r
75     SequenceI[] ds = new SequenceI[seqs.length];\r
76     for (int i = 0; i < seqs.length; i++)\r
77     {\r
78       if (seqs[i].getDatasetSequence() != null)\r
79         ds[i] = seqs[i].getDatasetSequence();\r
80       else\r
81         ds[i] = seqs[i];\r
82     }\r
83     this.dataset = ds;\r
84     // TODO Jalview 2.5 lots of this code should be in the gui package!\r
85     sfetcher = jalview.gui.SequenceFetcher.getSequenceFetcherSingleton(af);\r
86     // select appropriate databases based on alignFrame context.\r
87     if (af.getViewport().getAlignment().isNucleotide())\r
88     {\r
89       dbSources = DBRefSource.DNACODINGDBS;\r
90     }\r
91     else\r
92     {\r
93       dbSources = DBRefSource.PROTEINDBS;\r
94     }\r
95   }\r
96 \r
97   /**\r
98    * start the fetcher thread\r
99    * \r
100    * @param waitTillFinished\r
101    *                true to block until the fetcher has finished\r
102    */\r
103   public void fetchDBRefs(boolean waitTillFinished)\r
104   {\r
105     Thread thread = new Thread(this);\r
106     thread.start();\r
107     running = true;\r
108 \r
109     if (waitTillFinished)\r
110     {\r
111       while (running)\r
112       {\r
113         try\r
114         {\r
115           Thread.sleep(500);\r
116         } catch (Exception ex)\r
117         {\r
118         }\r
119       }\r
120     }\r
121   }\r
122 \r
123   /**\r
124    * The sequence will be added to a vector of sequences belonging to key which\r
125    * could be either seq name or dbref id\r
126    * \r
127    * @param seq\r
128    *                SequenceI\r
129    * @param key\r
130    *                String\r
131    */\r
132   void addSeqId(SequenceI seq, String key)\r
133   {\r
134     key = key.toUpperCase();\r
135 \r
136     Vector seqs;\r
137     if (seqRefs.containsKey(key))\r
138     {\r
139       seqs = (Vector) seqRefs.get(key);\r
140 \r
141       if (seqs != null && !seqs.contains(seq))\r
142       {\r
143         seqs.addElement(seq);\r
144       }\r
145       else if (seqs == null)\r
146       {\r
147         seqs = new Vector();\r
148         seqs.addElement(seq);\r
149       }\r
150 \r
151     }\r
152     else\r
153     {\r
154       seqs = new Vector();\r
155       seqs.addElement(seq);\r
156     }\r
157 \r
158     seqRefs.put(key, seqs);\r
159   }\r
160 \r
161   /**\r
162    * DOCUMENT ME!\r
163    */\r
164   public void run()\r
165   {\r
166     if (dbSources == null)\r
167     {\r
168       throw new Error("Implementation error. Must initialise dbSources");\r
169     }\r
170     long startTime = System.currentTimeMillis();\r
171     af.setProgressBar("Fetching db refs", startTime);\r
172     running = true;\r
173     int db = 0;\r
174     Vector sdataset = new Vector();\r
175     for (int s = 0; s < dataset.length; s++)\r
176     {\r
177       sdataset.addElement(dataset[s]);\r
178     }\r
179     while (sdataset.size() > 0 && db < dbSources.length)\r
180     {\r
181       int maxqlen = 1; // default number of queries made to at one time\r
182       System.err.println("Verifying against " + dbSources[db]);\r
183       jalview.ws.seqfetcher.DbSourceProxy dbsource = sfetcher\r
184               .getSourceProxy(dbSources[db]);\r
185       if (dbsource == null)\r
186       {\r
187         System.err.println("No proxy for " + dbSources[db]);\r
188         db++;\r
189         continue;\r
190       }\r
191       if (dbsource.getDbSourceProperties()\r
192               .containsKey(DBRefSource.MULTIACC))\r
193       {\r
194         maxqlen = ((Integer) dbsource.getDbSourceProperties().get(\r
195                 DBRefSource.MULTIACC)).intValue();\r
196       }\r
197       else\r
198       {\r
199         maxqlen = 1;\r
200       }\r
201       // iterate through db for each remaining un-verified sequence\r
202       SequenceI[] currSeqs = new SequenceI[sdataset.size()];\r
203       sdataset.copyInto(currSeqs);// seqs that are to be validated against\r
204       // dbSources[db]\r
205       Vector queries = new Vector(); // generated queries curSeq\r
206       seqRefs = new Hashtable();\r
207 \r
208       int seqIndex = 0;\r
209 \r
210       while (queries.size() > 0 || seqIndex < currSeqs.length)\r
211       {\r
212         if (queries.size() > 0)\r
213         {\r
214           // Still queries to make for current seqIndex\r
215           StringBuffer queryString = new StringBuffer("");\r
216           int nqSize = (maxqlen > queries.size()) ? queries.size()\r
217                   : maxqlen;\r
218           for (int nq = 0, numq = 0; nq < nqSize; nq++)\r
219           {\r
220             String query = (String) queries.elementAt(nq);\r
221             if (dbsource.isValidReference(query))\r
222             {\r
223               queryString.append((nq == 0) ? "" : dbsource\r
224                       .getAccessionSeparator());\r
225               queryString.append(query);\r
226               numq++;\r
227             }\r
228           }\r
229           for (int nq = 0; nq < nqSize; nq++)\r
230           {\r
231             queries.removeElementAt(0);\r
232           }\r
233           // make the queries and process the response\r
234           AlignmentI retrieved = null;\r
235           try\r
236           {\r
237             retrieved = dbsource.getSequenceRecords(queryString.toString());\r
238           } catch (Exception ex)\r
239           {\r
240             ex.printStackTrace();\r
241           } catch (OutOfMemoryError err)\r
242           {\r
243             new OOMWarning("retrieving database references ("\r
244                     + queryString.toString() + ")", err);\r
245           }\r
246           if (retrieved != null)\r
247           {\r
248             transferReferences(sdataset, dbSources[db], retrieved);\r
249           }\r
250         }\r
251         else\r
252         {\r
253           // make some more strings for use as queries\r
254           for (int i = 0; (seqIndex < dataset.length) && (i < 50); seqIndex++, i++)\r
255           {\r
256             SequenceI sequence = dataset[seqIndex];\r
257             DBRefEntry[] uprefs = jalview.util.DBRefUtils.selectRefs(\r
258                     sequence.getDBRef(), new String[]\r
259                     { dbSources[db] }); // jalview.datamodel.DBRefSource.UNIPROT\r
260             // });\r
261             // check for existing dbrefs to use\r
262             if (uprefs != null)\r
263             {\r
264               for (int j = 0; j < uprefs.length; j++)\r
265               {\r
266                 addSeqId(sequence, uprefs[j].getAccessionId());\r
267                 queries\r
268                         .addElement(uprefs[j].getAccessionId()\r
269                                 .toUpperCase());\r
270               }\r
271             }\r
272             else\r
273             {\r
274               // generate queries from sequence ID string\r
275               StringTokenizer st = new StringTokenizer(sequence.getName(),\r
276                       "|");\r
277               while (st.hasMoreTokens())\r
278               {\r
279                 String token = st.nextToken();\r
280                 addSeqId(sequence, token);\r
281                 queries.addElement(token.toUpperCase());\r
282               }\r
283             }\r
284           }\r
285         }\r
286       }\r
287       // advance to next database\r
288       db++;\r
289     } // all databases have been queries.\r
290     if (sbuffer.length() > 0)\r
291     {\r
292       output\r
293               .setText("Your sequences have been verified against known sequence databases. Some of the ids have been\n"\r
294                       + "altered, most likely the start/end residue will have been updated.\n"\r
295                       + "Save your alignment to maintain the updated id.\n\n"\r
296                       + sbuffer.toString());\r
297       Desktop.addInternalFrame(output, "Sequence names updated ", 600, 300);\r
298       // The above is the dataset, we must now find out the index\r
299       // of the viewed sequence\r
300 \r
301     }\r
302 \r
303     af.setProgressBar("DBRef search completed", startTime);\r
304     // promptBeforeBlast();\r
305 \r
306     running = false;\r
307 \r
308   }\r
309 \r
310   /**\r
311    * Verify local sequences in seqRefs against the retrieved sequence database\r
312    * records.\r
313    * \r
314    */\r
315   void transferReferences(Vector sdataset, String dbSource,\r
316           AlignmentI retrievedAl) // File\r
317   // file)\r
318   {\r
319 \r
320     if (retrievedAl == null || retrievedAl.getHeight() == 0)\r
321     {\r
322       return;\r
323     }\r
324     SequenceI[] retrieved = retrievedAl.getSequencesArray();\r
325     SequenceI sequence = null;\r
326 \r
327     // Vector entries = new Uniprot().getUniprotEntries(file);\r
328 \r
329     int i, iSize = retrieved.length; // entries == null ? 0 : entries.size();\r
330     // UniprotEntry entry;\r
331     for (i = 0; i < iSize; i++)\r
332     {\r
333       SequenceI entry = retrieved[i]; // (UniprotEntry) entries.elementAt(i);\r
334 \r
335       // Work out which sequences this sequence matches,\r
336       // taking into account all accessionIds and names in the file\r
337       Vector sequenceMatches = new Vector();\r
338       // look for corresponding accession ids\r
339       DBRefEntry[] entryRefs = jalview.util.DBRefUtils.selectRefs(entry\r
340               .getDBRef(), new String[]\r
341       { dbSource });\r
342       for (int j = 0; j < entryRefs.length; j++)\r
343       {\r
344         String accessionId = entryRefs[j].getAccessionId(); // .getAccession().elementAt(j).toString();\r
345         // match up on accessionId\r
346         if (seqRefs.containsKey(accessionId.toUpperCase()))\r
347         {\r
348           Vector seqs = (Vector) seqRefs.get(accessionId);\r
349           for (int jj = 0; jj < seqs.size(); jj++)\r
350           {\r
351             sequence = (SequenceI) seqs.elementAt(jj);\r
352             if (!sequenceMatches.contains(sequence))\r
353             {\r
354               sequenceMatches.addElement(sequence);\r
355             }\r
356           }\r
357         }\r
358       }\r
359       if (sequenceMatches.size() == 0)\r
360       {\r
361         // failed to match directly on accessionId==query so just compare all\r
362         // sequences to entry\r
363         Enumeration e = seqRefs.keys();\r
364         while (e.hasMoreElements())\r
365         {\r
366           Vector sqs = (Vector) seqRefs.get(e.nextElement());\r
367           if (sqs != null && sqs.size() > 0)\r
368           {\r
369             Enumeration sqe = sqs.elements();\r
370             while (sqe.hasMoreElements())\r
371             {\r
372               sequenceMatches.addElement(sqe.nextElement());\r
373             }\r
374           }\r
375         }\r
376       }\r
377       // look for corresponding names\r
378       // this is uniprot specific ?\r
379       // could be useful to extend this so we try to find any 'significant'\r
380       // information in common between two sequence objects.\r
381       /*\r
382        * DBRefEntry[] entryRefs =\r
383        * jalview.util.DBRefUtils.selectRefs(entry.getDBRef(), new String[] {\r
384        * dbSource }); for (int j = 0; j < entry.getName().size(); j++) { String\r
385        * name = entry.getName().elementAt(j).toString(); if\r
386        * (seqRefs.containsKey(name)) { Vector seqs = (Vector) seqRefs.get(name);\r
387        * for (int jj = 0; jj < seqs.size(); jj++) { sequence = (SequenceI)\r
388        * seqs.elementAt(jj); if (!sequenceMatches.contains(sequence)) {\r
389        * sequenceMatches.addElement(sequence); } } } }\r
390        */\r
391       // sequenceMatches now contains the set of all sequences associated with\r
392       // the returned db record\r
393       String entrySeq = entry.getSequenceAsString().toUpperCase();\r
394       for (int m = 0; m < sequenceMatches.size(); m++)\r
395       {\r
396         sequence = (SequenceI) sequenceMatches.elementAt(m);\r
397         // only update start and end positions and shift features if there are\r
398         // no existing references\r
399         // TODO: test for legacy where uniprot or EMBL refs exist but no\r
400         // mappings are made (but content matches retrieved set)\r
401         boolean updateRefFrame = sequence.getDBRef() == null\r
402                 || sequence.getDBRef().length == 0;\r
403         // verify sequence against the entry sequence\r
404 \r
405         String nonGapped = AlignSeq.extractGaps("-. ",\r
406                 sequence.getSequenceAsString()).toUpperCase();\r
407 \r
408         int absStart = entrySeq.indexOf(nonGapped);\r
409         int mapStart = entry.getStart();\r
410         jalview.datamodel.Mapping mp;\r
411 \r
412         if (absStart == -1)\r
413         {\r
414           // Is local sequence contained in dataset sequence?\r
415           absStart = nonGapped.indexOf(entrySeq);\r
416           if (absStart == -1)\r
417           { // verification failed.\r
418             sbuffer.append(sequence.getName()\r
419                     + " SEQUENCE NOT %100 MATCH \n");\r
420             continue;\r
421           }\r
422 \r
423           sbuffer.append(sequence.getName() + " HAS " + absStart\r
424                   + " PREFIXED RESIDUES COMPARED TO " + dbSource + "\n");\r
425           //\r
426           // + " - ANY SEQUENCE FEATURES"\r
427           // + " HAVE BEEN ADJUSTED ACCORDINGLY \n");\r
428           // absStart = 0;\r
429           // create valid mapping between matching region of local sequence and\r
430           // the mapped sequence\r
431           mp = new Mapping(null, new int[]\r
432           { sequence.getStart() + absStart,\r
433               sequence.getStart() + absStart + entrySeq.length() - 1 },\r
434                   new int[]\r
435                   { entry.getStart(),\r
436                       entry.getStart() + entrySeq.length() - 1 }, 1, 1);\r
437           updateRefFrame = false; // mapping is based on current start/end so\r
438           // don't modify start and end\r
439         }\r
440         else\r
441         {\r
442           // update start and end of local sequence to place it in entry's\r
443           // reference frame.\r
444           // apply identity map map from whole of local sequence to matching\r
445           // region of database\r
446           // sequence\r
447           mp = null; // Mapping.getIdentityMap();\r
448           // new Mapping(null,\r
449           // new int[] { absStart+sequence.getStart(),\r
450           // absStart+sequence.getStart()+entrySeq.length()-1},\r
451           // new int[] { entry.getStart(), entry.getEnd() }, 1, 1);\r
452           // relocate local features for updated start\r
453           if (updateRefFrame && sequence.getSequenceFeatures() != null)\r
454           {\r
455             SequenceFeature[] sf = sequence.getSequenceFeatures();\r
456             int start = sequence.getStart();\r
457             int end = sequence.getEnd();\r
458             int startShift = 1 - absStart - start; // how much the features are\r
459             // to be shifted by\r
460             for (int sfi = 0; sfi < sf.length; sfi++)\r
461             {\r
462               if (sf[sfi].getBegin() >= start && sf[sfi].getEnd() <= end)\r
463               {\r
464                 // shift feature along by absstart\r
465                 sf[sfi].setBegin(sf[sfi].getBegin() + startShift);\r
466                 sf[sfi].setEnd(sf[sfi].getEnd() + startShift);\r
467               }\r
468             }\r
469           }\r
470         }\r
471 \r
472         System.out.println("Adding dbrefs to " + sequence.getName()\r
473                 + " from " + dbSource + " sequence : " + entry.getName());\r
474         sequence.transferAnnotation(entry, mp);\r
475         // unknownSequences.remove(sequence);\r
476         int absEnd = absStart + nonGapped.length();\r
477         absStart += 1;\r
478         if (updateRefFrame)\r
479         {\r
480           // finally, update local sequence reference frame if we're allowed\r
481           sequence.setStart(absStart);\r
482           sequence.setEnd(absEnd);\r
483         }\r
484         // and remove it from the rest\r
485         // TODO: decide if we should remove annotated sequence from set\r
486         sdataset.remove(sequence);\r
487       }\r
488     }\r
489   }\r
490 }\r