sequence db fetcher and db reference validation/annotation transfer
authorjprocter <Jim Procter>
Fri, 21 Dec 2007 15:03:56 +0000 (15:03 +0000)
committerjprocter <Jim Procter>
Fri, 21 Dec 2007 15:03:56 +0000 (15:03 +0000)
src/jalview/ws/DBRefFetcher.java
src/jalview/ws/dbsources/EmblCdsSouce.java
src/jalview/ws/dbsources/EmblSource.java
src/jalview/ws/dbsources/EmblXmlSource.java
src/jalview/ws/dbsources/GeneDbSource.java [new file with mode: 0644]
src/jalview/ws/dbsources/Pdb.java
src/jalview/ws/dbsources/Pfam.java
src/jalview/ws/dbsources/Uniprot.java
src/jalview/ws/seqfetcher/DbSourceProxy.java

index 109f4b4..c2d7ad5 100644 (file)
@@ -25,77 +25,80 @@ import org.exolab.castor.mapping.*;
 import org.exolab.castor.xml.*;\r
 import jalview.analysis.*;\r
 import jalview.datamodel.*;\r
+import jalview.datamodel.Mapping;\r
 import jalview.gui.*;\r
+import jalview.ws.dbsources.Uniprot;\r
 import jalview.ws.ebi.EBIFetchClient;\r
 \r
 /**\r
  * DOCUMENT ME!\r
- *\r
+ * \r
  * @author $author$\r
  * @version $Revision$\r
  */\r
-public class DBRefFetcher\r
-    implements Runnable\r
+public class DBRefFetcher implements Runnable\r
 {\r
-  SequenceI [] dataset;\r
+  SequenceI[] dataset;\r
+\r
   AlignFrame af;\r
+\r
   CutAndPasteTransfer output = new CutAndPasteTransfer();\r
+\r
   StringBuffer sbuffer = new StringBuffer();\r
+\r
   boolean running = false;\r
 \r
-  ///This will be a collection of Vectors of sequenceI refs.\r
-  //The key will be the seq name or accession id of the seq\r
+  // /This will be a collection of Vectors of sequenceI refs.\r
+  // The key will be the seq name or accession id of the seq\r
   Hashtable seqRefs;\r
 \r
-  public DBRefFetcher()\r
-  {}\r
+  String[] dbSources;\r
 \r
-  public Vector getUniprotEntries(File file)\r
-  {\r
-    UniprotFile uni = new UniprotFile();\r
-    try\r
-    {\r
-      // 1. Load the mapping information from the file\r
-      org.exolab.castor.mapping.Mapping map = new org.exolab.castor.mapping.Mapping(uni.getClass().getClassLoader());\r
-      java.net.URL url = getClass().getResource("/uniprot_mapping.xml");\r
-      map.loadMapping(url);\r
-\r
-      // 2. Unmarshal the data\r
-      Unmarshaller unmar = new Unmarshaller(uni);\r
-      unmar.setIgnoreExtraElements(true);\r
-      unmar.setMapping(map);\r
-\r
-      uni = (UniprotFile) unmar.unmarshal(new FileReader(file));\r
-    }\r
-    catch (Exception e)\r
-    {\r
-      System.out.println("Error getUniprotEntries() " + e);\r
-    }\r
+  SequenceFetcher sfetcher;\r
 \r
-    return uni.getUniprotEntries();\r
+  public DBRefFetcher()\r
+  {\r
   }\r
 \r
   /**\r
    * Creates a new SequenceFeatureFetcher object.\r
-   *\r
-   * @param align DOCUMENT ME!\r
-   * @param ap DOCUMENT ME!\r
+   * \r
+   * @param seqs\r
+   *                fetch references for these sequences\r
+   * @param af\r
+   *                the parent alignframe for progress bar monitoring.\r
    */\r
-  public DBRefFetcher(SequenceI [] seqs, AlignFrame af)\r
+  public DBRefFetcher(SequenceI[] seqs, AlignFrame af)\r
   {\r
     this.af = af;\r
-    SequenceI [] ds = new SequenceI[seqs.length];\r
+    SequenceI[] ds = new SequenceI[seqs.length];\r
     for (int i = 0; i < seqs.length; i++)\r
     {\r
-      if(seqs[i].getDatasetSequence()!=null)\r
+      if (seqs[i].getDatasetSequence() != null)\r
         ds[i] = seqs[i].getDatasetSequence();\r
       else\r
         ds[i] = seqs[i];\r
     }\r
     this.dataset = ds;\r
+    sfetcher = new SequenceFetcher();\r
+    // select appropriate databases based on alignFrame context.\r
+    if (af.getViewport().getAlignment().isNucleotide())\r
+    {\r
+      dbSources = DBRefSource.DNACODINGDBS;\r
+    }\r
+    else\r
+    {\r
+      dbSources = DBRefSource.PROTEINDBS;\r
+    }\r
   }\r
 \r
-  public boolean fetchDBRefs(boolean waitTillFinished)\r
+  /**\r
+   * start the fetcher thread\r
+   * \r
+   * @param waitTillFinished\r
+   *                true to block until the fetcher has finished\r
+   */\r
+  public void fetchDBRefs(boolean waitTillFinished)\r
   {\r
     Thread thread = new Thread(this);\r
     thread.start();\r
@@ -108,20 +111,21 @@ public class DBRefFetcher
         try\r
         {\r
           Thread.sleep(500);\r
+        } catch (Exception ex)\r
+        {\r
         }\r
-        catch (Exception ex)\r
-        {}\r
       }\r
     }\r
-\r
-    return true;\r
   }\r
 \r
   /**\r
-   * The sequence will be added to a vector of sequences\r
-   * belonging to key which could be either seq name or dbref id\r
-   * @param seq SequenceI\r
-   * @param key String\r
+   * The sequence will be added to a vector of sequences belonging to key which\r
+   * could be either seq name or dbref id\r
+   * \r
+   * @param seq\r
+   *                SequenceI\r
+   * @param key\r
+   *                String\r
    */\r
   void addSeqId(SequenceI seq, String key)\r
   {\r
@@ -157,83 +161,129 @@ public class DBRefFetcher
    */\r
   public void run()\r
   {\r
+    if (dbSources == null)\r
+    {\r
+      throw new Error("Implementation error. Must initialise dbSources");\r
+    }\r
     long startTime = System.currentTimeMillis();\r
     af.setProgressBar("Fetching db refs", startTime);\r
     running = true;\r
-\r
-    seqRefs = new Hashtable();\r
-\r
-    try\r
+    int db = 0;\r
+    Vector sdataset = new Vector();\r
+    for (int s = 0; s < dataset.length; s++)\r
     {\r
+      sdataset.addElement(dataset[s]);\r
+    }\r
+    while (sdataset.size() > 0 && db < dbSources.length)\r
+    {\r
+      int maxqlen = 1; // default number of queries made to at one time\r
+      System.err.println("Verifying against " + dbSources[db]);\r
+      jalview.ws.seqfetcher.DbSourceProxy dbsource = sfetcher\r
+              .getSourceProxy(dbSources[db]);\r
+      if (dbsource == null)\r
+      {\r
+        System.err.println("No proxy for " + dbSources[db]);\r
+        db++;\r
+        continue;\r
+      }\r
+      if (dbsource.getDbSourceProperties()\r
+              .containsKey(DBRefSource.MULTIACC))\r
+      {\r
+        maxqlen = ((Integer) dbsource.getDbSourceProperties().get(\r
+                DBRefSource.MULTIACC)).intValue();\r
+      }\r
+      // iterate through db for each remaining un-verified sequence\r
+      SequenceI[] currSeqs = new SequenceI[sdataset.size()];\r
+      sdataset.copyInto(currSeqs);// seqs that are to be validated against\r
+      // dbSources[db]\r
+      Vector queries = new Vector(); // generated queries curSeq\r
+      seqRefs = new Hashtable();\r
+\r
       int seqIndex = 0;\r
 \r
-      while (seqIndex < dataset.length)\r
+      while (queries.size() > 0 || seqIndex < currSeqs.length)\r
       {\r
-        StringBuffer queryString = new StringBuffer("uniprot:");\r
-\r
-        for (int i = 0; (seqIndex < dataset.length) && (i < 50);\r
-             seqIndex++, i++)\r
+        if (queries.size() > 0)\r
         {\r
-          SequenceI sequence = dataset[seqIndex];\r
-          DBRefEntry[] uprefs = jalview.util.DBRefUtils.selectRefs(sequence.\r
-              getDBRef(), new String[]\r
-              {\r
-              jalview.datamodel.DBRefSource.UNIPROT});\r
-          if (uprefs != null)\r
+          // Still queries to make for current seqIndex\r
+          StringBuffer queryString = new StringBuffer("");\r
+          int nqSize = (maxqlen > queries.size()) ? queries.size()\r
+                  : maxqlen;\r
+          for (int nq = 0, numq = 0; nq < nqSize; nq++)\r
           {\r
-            if (uprefs.length + i > 50)\r
+            String query = (String) queries.elementAt(nq);\r
+            if (dbsource.isValidReference(query))\r
             {\r
-              break;\r
-            }\r
-\r
-            for (int j = 0; j < uprefs.length; j++)\r
-            {\r
-              addSeqId(sequence, uprefs[j].getAccessionId());\r
-              queryString.append(uprefs[j].getAccessionId() + ";");\r
+              queryString.append((nq == 0) ? "" : dbsource\r
+                      .getAccessionSeparator());\r
+              queryString.append(query);\r
+              numq++;\r
             }\r
           }\r
-          else\r
+          for (int nq = 0; nq < nqSize; nq++)\r
+          {\r
+            queries.removeElementAt(0);\r
+          }\r
+          // make the queries and process the response\r
+          AlignmentI retrieved = null;\r
+          try\r
+          {\r
+            retrieved = dbsource.getSequenceRecords(queryString.toString());\r
+          } catch (Exception ex)\r
+          {\r
+            ex.printStackTrace();\r
+          }\r
+          if (retrieved != null)\r
+          {\r
+            transferReferences(sdataset, dbSources[db], retrieved);\r
+          }\r
+        }\r
+        else\r
+        {\r
+          // make some more strings for use as queries\r
+          for (int i = 0; (seqIndex < dataset.length) && (i < 50); seqIndex++, i++)\r
           {\r
-            StringTokenizer st = new StringTokenizer(sequence.getName(), "|");\r
-            if (st.countTokens() + i > 50)\r
+            SequenceI sequence = dataset[seqIndex];\r
+            DBRefEntry[] uprefs = jalview.util.DBRefUtils.selectRefs(\r
+                    sequence.getDBRef(), new String[]\r
+                    { dbSources[db] }); // jalview.datamodel.DBRefSource.UNIPROT\r
+            // });\r
+            // check for existing dbrefs to use\r
+            if (uprefs != null)\r
             {\r
-              //Dont send more than 50 id strings to dbFetch!!\r
-              seqIndex--;\r
+              for (int j = 0; j < uprefs.length; j++)\r
+              {\r
+                addSeqId(sequence, uprefs[j].getAccessionId());\r
+                queries\r
+                        .addElement(uprefs[j].getAccessionId()\r
+                                .toUpperCase());\r
+              }\r
             }\r
             else\r
             {\r
+              // generate queries from sequence ID string\r
+              StringTokenizer st = new StringTokenizer(sequence.getName(),\r
+                      "|");\r
               while (st.hasMoreTokens())\r
               {\r
                 String token = st.nextToken();\r
                 addSeqId(sequence, token);\r
-                queryString.append(token + ";");\r
+                queries.addElement(token.toUpperCase());\r
               }\r
             }\r
           }\r
         }\r
-\r
-        ///////////////////////////////////\r
-        ///READ FROM EBI\r
-        EBIFetchClient ebi = new EBIFetchClient();\r
-        File file = ebi.fetchDataAsFile(queryString.toString(), "xml", "raw");\r
-        if (file != null)\r
-        {\r
-          ReadUniprotFile(file);\r
-        }\r
       }\r
-    }\r
-    catch (Exception ex)\r
-    {\r
-      ex.printStackTrace();\r
-    }\r
-\r
+      // advance to next database\r
+      db++;\r
+    } // all databases have been queries.\r
     if (sbuffer.length() > 0)\r
     {\r
-      output.setText(\r
-          "Your sequences have been matched to Uniprot. Some of the ids have been\n" +\r
-          "altered, most likely the start/end residue will have been updated.\n" +\r
-          "Save your alignment to maintain the updated id.\n\n" +\r
-          sbuffer.toString());\r
+      output\r
+              .setText("Your sequences have been verified against known sequence databases. Some of the ids have been\n"\r
+                      + "altered, most likely the start/end residue will have been updated.\n"\r
+                      + "Save your alignment to maintain the updated id.\n\n"\r
+                      + sbuffer.toString());\r
       Desktop.addInternalFrame(output, "Sequence names updated ", 600, 300);\r
       // The above is the dataset, we must now find out the index\r
       // of the viewed sequence\r
@@ -248,36 +298,42 @@ public class DBRefFetcher
   }\r
 \r
   /**\r
-   * DOCUMENT ME!\r
-   *\r
-   * @param result DOCUMENT ME!\r
-   * @param out DOCUMENT ME!\r
-   * @param align DOCUMENT ME!\r
+   * Verify local sequences in seqRefs against the retrieved sequence database\r
+   * records.\r
+   * \r
    */\r
-  void ReadUniprotFile(File file)\r
+  void transferReferences(Vector sdataset, String dbSource,\r
+          AlignmentI retrievedAl) // File\r
+  // file)\r
   {\r
-    if (!file.exists())\r
+\r
+    if (retrievedAl == null || retrievedAl.getHeight() == 0)\r
     {\r
       return;\r
     }\r
-\r
+    SequenceI[] retrieved = retrievedAl.getSequencesArray();\r
     SequenceI sequence = null;\r
 \r
-    Vector entries = getUniprotEntries(file);\r
+    // Vector entries = new Uniprot().getUniprotEntries(file);\r
 \r
-    int i, iSize = entries == null ? 0 : entries.size();\r
-    UniprotEntry entry;\r
+    int i, iSize = retrieved.length; // entries == null ? 0 : entries.size();\r
+    // UniprotEntry entry;\r
     for (i = 0; i < iSize; i++)\r
     {\r
-      entry = (UniprotEntry) entries.elementAt(i);\r
+      SequenceI entry = retrieved[i]; // (UniprotEntry) entries.elementAt(i);\r
 \r
-      //Work out which sequences this Uniprot file has matches to,\r
-      //taking into account all accessionIds and names in the file\r
+      // Work out which sequences this sequence matches,\r
+      // taking into account all accessionIds and names in the file\r
       Vector sequenceMatches = new Vector();\r
-      for (int j = 0; j < entry.getAccession().size(); j++)\r
+      // look for corresponding accession ids\r
+      DBRefEntry[] entryRefs = jalview.util.DBRefUtils.selectRefs(entry\r
+              .getDBRef(), new String[]\r
+      { dbSource });\r
+      for (int j = 0; j < entryRefs.length; j++)\r
       {\r
-        String accessionId = entry.getAccession().elementAt(j).toString();\r
-        if (seqRefs.containsKey(accessionId))\r
+        String accessionId = entryRefs[j].getAccessionId(); // .getAccession().elementAt(j).toString();\r
+        // match up on accessionId\r
+        if (seqRefs.containsKey(accessionId.toUpperCase()))\r
         {\r
           Vector seqs = (Vector) seqRefs.get(accessionId);\r
           for (int jj = 0; jj < seqs.size(); jj++)\r
@@ -290,100 +346,125 @@ public class DBRefFetcher
           }\r
         }\r
       }\r
-      for (int j = 0; j < entry.getName().size(); j++)\r
+      if (sequenceMatches.size()==0)\r
       {\r
-        String name = entry.getName().elementAt(j).toString();\r
-        if (seqRefs.containsKey(name))\r
+        // failed to match directly on accessionId==query so just compare all sequences to entry\r
+        Enumeration e = seqRefs.keys();\r
+        while (e.hasMoreElements())\r
         {\r
-          Vector seqs = (Vector) seqRefs.get(name);\r
-          for (int jj = 0; jj < seqs.size(); jj++)\r
+          Vector sqs = (Vector) seqRefs.get(e.nextElement());\r
+          if (sqs!=null && sqs.size()>0)\r
           {\r
-            sequence = (SequenceI) seqs.elementAt(jj);\r
-            if (!sequenceMatches.contains(sequence))\r
+            Enumeration sqe = sqs.elements();\r
+            while (sqe.hasMoreElements())\r
             {\r
-              sequenceMatches.addElement(sequence);\r
+              sequenceMatches.addElement(sqe.nextElement());\r
             }\r
           }\r
         }\r
       }\r
-\r
+      // look for corresponding names\r
+      // this is uniprot specific ?\r
+      // could be useful to extend this so we try to find any 'significant'\r
+      // information in common between two sequence objects.\r
+      /*\r
+       * DBRefEntry[] entryRefs =\r
+       * jalview.util.DBRefUtils.selectRefs(entry.getDBRef(), new String[] {\r
+       * dbSource }); for (int j = 0; j < entry.getName().size(); j++) { String\r
+       * name = entry.getName().elementAt(j).toString(); if\r
+       * (seqRefs.containsKey(name)) { Vector seqs = (Vector) seqRefs.get(name);\r
+       * for (int jj = 0; jj < seqs.size(); jj++) { sequence = (SequenceI)\r
+       * seqs.elementAt(jj); if (!sequenceMatches.contains(sequence)) {\r
+       * sequenceMatches.addElement(sequence); } } } }\r
+       */\r
+      // sequenceMatches now contains the set of all sequences associated with\r
+      // the returned db record\r
+      String entrySeq = entry.getSequenceAsString().toUpperCase();\r
       for (int m = 0; m < sequenceMatches.size(); m++)\r
       {\r
         sequence = (SequenceI) sequenceMatches.elementAt(m);\r
-        sequence.addDBRef(new DBRefEntry(DBRefSource.UNIPROT,\r
-                                         "0", // TODO: VERSION FROM UNIPROT\r
-                                         entry.getAccession().elementAt(0).\r
-                                         toString()));\r
-\r
-        System.out.println("Adding dbref to " + sequence.getName() + " : " +\r
-                           entry.getAccession().elementAt(0).toString());\r
+        // only update start and end positions and shift features if there are no existing references\r
+        // TODO: test for legacy where uniprot or EMBL refs exist but no mappings are made (but content matches retrieved set)\r
+        boolean updateRefFrame = sequence.getDBRef()==null || sequence.getDBRef().length==0;\r
+        // verify sequence against the entry sequence\r
 \r
         String nonGapped = AlignSeq.extractGaps("-. ",\r
-                                                sequence.getSequenceAsString()).\r
-            toUpperCase();\r
+                sequence.getSequenceAsString()).toUpperCase();\r
 \r
-        int absStart = entry.getUniprotSequence().getContent().indexOf(\r
-            nonGapped.toString());\r
+        int absStart = entrySeq.indexOf(nonGapped);\r
+        int mapStart = entry.getStart();\r
+        jalview.datamodel.Mapping mp;\r
 \r
         if (absStart == -1)\r
         {\r
-          // Is UniprotSequence contained in dataset sequence?\r
-          absStart = nonGapped.toString().indexOf(entry.getUniprotSequence().\r
-                                                  getContent());\r
+          // Is local sequence contained in dataset sequence?\r
+          absStart = nonGapped.indexOf(entrySeq);\r
           if (absStart == -1)\r
-          {\r
-            sbuffer.append(sequence.getName() + " SEQUENCE NOT %100 MATCH \n");\r
+          { // verification failed.\r
+            sbuffer.append(sequence.getName()\r
+                    + " SEQUENCE NOT %100 MATCH \n");\r
             continue;\r
           }\r
-\r
-          if (entry.getFeature() != null)\r
+          \r
+          sbuffer.append(sequence.getName() + " HAS " + absStart\r
+                + " PREFIXED RESIDUES COMPARED TO " + dbSource+"\n");\r
+          //\r
+          //      + " - ANY SEQUENCE FEATURES"\r
+          //        + " HAVE BEEN ADJUSTED ACCORDINGLY \n");\r
+          // absStart = 0;\r
+          // create valid mapping between matching region of local sequence and\r
+          // the mapped sequence\r
+          mp = new Mapping(null, new int[]\r
+          { sequence.getStart()+absStart, sequence.getStart()+absStart+entrySeq.length()-1 }, new int[]\r
+          { entry.getStart(),\r
+              entry.getStart() + entrySeq.length() - 1 }, 1, 1);\r
+          updateRefFrame=false; // mapping is based on current start/end so don't modify start and end\r
+        }\r
+        else\r
+        {\r
+          // update start and end of local sequence to place it in entry's\r
+          // reference frame.\r
+          // apply identity map map from whole of local sequence to matching\r
+          // region of database\r
+          // sequence\r
+          mp = null; // Mapping.getIdentityMap();\r
+          // new Mapping(null,\r
+          // new int[] { absStart+sequence.getStart(),\r
+          // absStart+sequence.getStart()+entrySeq.length()-1},\r
+          // new int[] { entry.getStart(), entry.getEnd() }, 1, 1);\r
+          // relocate local features for updated start\r
+          if (updateRefFrame && sequence.getSequenceFeatures() != null)\r
           {\r
-            Enumeration e = entry.getFeature().elements();\r
-            while (e.hasMoreElements())\r
+            SequenceFeature[] sf = sequence.getSequenceFeatures();\r
+            int start = sequence.getStart();\r
+            int end = sequence.getEnd();\r
+            for (int sfi = 0; sfi < sf.length; sfi++)\r
             {\r
-              SequenceFeature sf = (SequenceFeature) e.nextElement();\r
-              sf.setBegin(sf.getBegin() + absStart + 1);\r
-              sf.setEnd(sf.getEnd() + absStart + 1);\r
+              if (sf[sfi].getBegin() >= start && sf[sfi].getEnd() <= end)\r
+              {\r
+                // shift feature along by absstart\r
+                sf[sfi].setBegin(sf[sfi].getBegin() + absStart);\r
+                sf[sfi].setEnd(sf[sfi].getEnd() + absStart);\r
+              }\r
             }\r
-\r
-            sbuffer.append(sequence.getName() +\r
-                           " HAS " + absStart +\r
-                           " PREFIXED RESIDUES COMPARED TO UNIPROT - ANY SEQUENCE FEATURES"\r
-                           + " HAVE BEEN ADJUSTED ACCORDINGLY \n");\r
-            absStart = 0;\r
           }\r
-\r
         }\r
 \r
-        //unknownSequences.remove(sequence);\r
-\r
-        int absEnd = absStart + nonGapped.toString().length();\r
+        System.out.println("Adding dbrefs to " + sequence.getName()\r
+                + " from " + dbSource + " sequence : " + entry.getName());\r
+        sequence.transferAnnotation(entry, mp);\r
+        // unknownSequences.remove(sequence);\r
+        int absEnd = absStart + nonGapped.length();\r
         absStart += 1;\r
-\r
-        Enumeration e = entry.getDbReference().elements();\r
-        Vector onlyPdbEntries = new Vector();\r
-        while (e.hasMoreElements())\r
+        if (updateRefFrame)\r
         {\r
-          PDBEntry pdb = (PDBEntry) e.nextElement();\r
-          if (!pdb.getType().equals(DBRefSource.PDB))\r
-          {\r
-            DBRefEntry xref = new DBRefEntry(pdb.getType(), DBRefSource.UNIPROT, pdb.getId());\r
-            sequence.addDBRef(xref);\r
-            continue;\r
-          }\r
-          \r
-          sequence.addDBRef(new DBRefEntry(DBRefSource.PDB,\r
-                                           "0",\r
-                                           pdb.getId()));\r
-\r
-          onlyPdbEntries.addElement(pdb);\r
+          // finally, update local sequence reference frame if we're allowed\r
+          sequence.setStart(absStart);\r
+          sequence.setEnd(absEnd);\r
         }\r
-\r
-        sequence.setPDBId(onlyPdbEntries);\r
-\r
-        sequence.setStart(absStart);\r
-        sequence.setEnd(absEnd);\r
-\r
+        // and remove it from the rest\r
+        // TODO: decide if we should remove annotated sequence from set\r
+        sdataset.remove(sequence);\r
       }\r
     }\r
   }\r
index d448830..65b4e21 100644 (file)
@@ -58,5 +58,9 @@ public class EmblCdsSouce extends EmblXmlSource implements DbSourceProxy
   {\r
     return "CAA37824";\r
   }\r
+  public String getDbName()\r
+  {\r
+    return "EMBL (CDS)";\r
+  }\r
 \r
 }\r
index 5ae7a72..f245797 100644 (file)
@@ -89,4 +89,8 @@ public class EmblSource extends EmblXmlSource implements DbSourceProxy
     return "X53828";\r
   }\r
 \r
+  public String getDbName()\r
+  {\r
+    return getDbSource();\r
+  }\r
 }\r
index 68fa87c..68a2424 100644 (file)
@@ -32,9 +32,6 @@ public abstract class EmblXmlSource extends EbiFileRetrievedProxy
   public AlignmentI getEmblSequenceRecords(String emprefx, String query) throws Exception\r
   {\r
     startQuery();\r
-    SequenceI seqs[] = null;\r
-    Vector alseq = new Vector(); // the sequences that will actually be presented in the alignment\r
-    StringBuffer result = new StringBuffer();\r
     EBIFetchClient dbFetch = new EBIFetchClient();\r
     File reply; \r
     try {\r
@@ -47,6 +44,20 @@ public abstract class EmblXmlSource extends EbiFileRetrievedProxy
       stopQuery();\r
       throw new Exception("EBI EMBL XML retrieval failed on "+emprefx.toLowerCase()+":"+query.trim(),e);\r
     }\r
+    return getEmblSequenceRecords(emprefx, query, reply);\r
+  }\r
+  /**\r
+   * parse an emblxml file stored locally\r
+   * @param emprefx either EMBL or EMBLCDS strings are allowed - anything else will not retrieve emblxml\r
+   * @param query\r
+   * @param file the EMBL XML file containing the results of a query\r
+   * @return\r
+   * @throws Exception\r
+   */\r
+  public AlignmentI getEmblSequenceRecords(String emprefx, String query, File reply) throws Exception\r
+  {\r
+    SequenceI seqs[] = null;\r
+    StringBuffer result = new StringBuffer();\r
     if (reply != null && reply.exists())\r
       {\r
         efile=null;\r
diff --git a/src/jalview/ws/dbsources/GeneDbSource.java b/src/jalview/ws/dbsources/GeneDbSource.java
new file mode 100644 (file)
index 0000000..7cea532
--- /dev/null
@@ -0,0 +1,98 @@
+/**\r
+ * \r
+ */\r
+package jalview.ws.dbsources;\r
+\r
+import java.io.File;\r
+import java.util.Hashtable;\r
+import java.util.Iterator;\r
+import java.util.StringTokenizer;\r
+\r
+import com.stevesoft.pat.Regex;\r
+\r
+import jalview.datamodel.Alignment;\r
+import jalview.datamodel.AlignmentI;\r
+import jalview.datamodel.DBRefSource;\r
+import jalview.datamodel.SequenceI;\r
+import jalview.datamodel.xdb.embl.EmblEntry;\r
+import jalview.ws.ebi.EBIFetchClient;\r
+import jalview.ws.seqfetcher.DbSourceProxy;\r
+import jalview.ws.seqfetcher.DbSourceProxyImpl;\r
+\r
+/**\r
+ * @author JimP\r
+ *\r
+ */\r
+public class GeneDbSource extends EmblXmlSource implements DbSourceProxy\r
+{\r
+\r
+  public GeneDbSource() {\r
+    addDbSourceProperty(DBRefSource.DNASEQDB);\r
+    addDbSourceProperty(DBRefSource.CODINGSEQDB);\r
+  }\r
+  \r
+  /* (non-Javadoc)\r
+   * @see jalview.ws.DbSourceProxy#getAccessionSeparator()\r
+   */\r
+  public String getAccessionSeparator()\r
+  {\r
+    // TODO Auto-generated method stub\r
+    return null;\r
+  }\r
+\r
+  /* (non-Javadoc)\r
+   * @see jalview.ws.DbSourceProxy#getAccessionValidator()\r
+   */\r
+  public Regex getAccessionValidator()\r
+  {\r
+    // TODO Auto-generated method stub\r
+    return null;\r
+  }\r
+\r
+  /* (non-Javadoc)\r
+   * @see jalview.ws.DbSourceProxy#getDbSource()\r
+   */\r
+  public String getDbSource()\r
+  {\r
+    return DBRefSource.GENEDB;\r
+  }\r
+  /* (non-Javadoc)\r
+   * @see jalview.ws.DbSourceProxy#getDbVersion()\r
+   */\r
+  public String getDbVersion()\r
+  {\r
+    // TODO Auto-generated method stub\r
+    return "0";\r
+  }\r
+\r
+  /* (non-Javadoc)\r
+   * @see jalview.ws.DbSourceProxy#getSequenceRecords(java.lang.String[])\r
+   */\r
+  public AlignmentI getSequenceRecords(String queries) throws Exception\r
+  {\r
+    // query of form http://www.genedb.org/genedb/ArtemisFormHandler?id=&dest=EMBL\r
+    // \r
+    return getEmblSequenceRecords(DBRefSource.GENEDB, queries);\r
+  }\r
+  /* (non-Javadoc)\r
+   * @see jalview.ws.DbSourceProxy#isValidReference(java.lang.String)\r
+   */\r
+  public boolean isValidReference(String accession)\r
+  {\r
+    // TODO Auto-generated method stub\r
+    return false;\r
+  }\r
+\r
+  /**\r
+   * return T.Brucei Mannosyl-Transferase TbPIG-M \r
+   */\r
+  public String getTestQuery()\r
+  {\r
+    return "Tb927.6.3300";\r
+  }\r
+\r
+  public String getDbName()\r
+  {\r
+    return getDbSource();\r
+  }\r
+}\r
index 0548583..5773171 100644 (file)
@@ -50,7 +50,7 @@ public class Pdb extends EbiFileRetrievedProxy implements DbSourceProxy
    */\r
   public Regex getAccessionValidator()\r
   {\r
-    return new Regex("[1-9][0-9A-Za-z]{3}[ _A-Za-z0-9]?");\r
+    return new Regex("([1-9][0-9A-Za-z]{3}):?([ _A-Za-z0-9]?)");\r
   }\r
 \r
   /* (non-Javadoc)\r
@@ -88,9 +88,15 @@ public class Pdb extends EbiFileRetrievedProxy implements DbSourceProxy
     }\r
     if (queries.length() > 4 && chain == null)\r
     {\r
-      chain = queries.substring(4);\r
+      chain = queries.substring(4,5);\r
       id = queries.substring(0, 4);\r
     }\r
+    if (!isValidReference(id))\r
+    {\r
+      System.err.println("Ignoring invalid pdb query: '"+id+"'");\r
+      stopQuery();\r
+      return null;\r
+    }\r
     EBIFetchClient ebi = new EBIFetchClient();\r
     file = ebi.fetchDataAsFile("pdb:" + id, "pdb", "raw")\r
             .getAbsolutePath();\r
@@ -177,4 +183,9 @@ public class Pdb extends EbiFileRetrievedProxy implements DbSourceProxy
     return "1QIPA";\r
   }\r
 \r
+  public String getDbName()\r
+  {\r
+    return getDbSource();\r
+  }\r
+\r
 }\r
index 4077c51..d935db9 100644 (file)
@@ -8,6 +8,8 @@ import java.util.Hashtable;
 import com.stevesoft.pat.Regex;\r
 \r
 import jalview.datamodel.AlignmentI;\r
+import jalview.datamodel.DBRefEntry;\r
+import jalview.io.FastaFile;\r
 import jalview.ws.seqfetcher.DbSourceProxy;\r
 import jalview.ws.seqfetcher.DbSourceProxyImpl;\r
 /**\r
@@ -20,6 +22,12 @@ import jalview.ws.seqfetcher.DbSourceProxyImpl;
 public class Pfam extends DbSourceProxyImpl implements DbSourceProxy\r
 {\r
 \r
+  public Pfam()\r
+  {\r
+    super();\r
+    \r
+  }\r
+\r
   /* (non-Javadoc)\r
    * @see jalview.ws.DbSourceProxy#getAccessionSeparator()\r
    */\r
@@ -43,7 +51,6 @@ public class Pfam extends DbSourceProxyImpl implements DbSourceProxy
    */\r
   public String getDbSource()\r
   {\r
-    // TODO Auto-generated method stub\r
     return jalview.datamodel.DBRefSource.PFAM;\r
   }\r
 \r
@@ -64,22 +71,25 @@ public class Pfam extends DbSourceProxyImpl implements DbSourceProxy
     // TODO Auto-generated method stub\r
     return null;\r
   }\r
-\r
-  /* (non-Javadoc)\r
-   * @see jalview.ws.DbSourceProxy#getRawRecords()\r
-   */\r
-  public StringBuffer getRawRecords()\r
-  {\r
-    // TODO Auto-generated method stub\r
-    return null;\r
-  }\r
-\r
+  public static String PFAMURL = "http://www.sanger.ac.uk/cgi-bin/Pfam/getalignment.pl?format=fal&acc=";\r
   /* (non-Javadoc)\r
    * @see jalview.ws.DbSourceProxy#getSequenceRecords(java.lang.String[])\r
    */\r
   public AlignmentI getSequenceRecords(String queries) throws Exception\r
   {\r
-    throw new Exception("PFAM Retrieval not yet implemented - see jalview.gui.SequenceFetcher for current implementation");\r
+    // TODO: this is not a perfect implementation. We need to be able to add individual references to each sequence in each family alignment that's retrieved. \r
+    startQuery();\r
+    results = new StringBuffer();\r
+    // split queries into many little ones.\r
+    results.append(new FastaFile(\r
+                PFAMURL+queries.trim().toUpperCase(), "URL").print());\r
+    stopQuery();\r
+    AlignmentI rcds = parseResult(results.toString());\r
+    for (int s=0,sNum=rcds.getHeight(); s<sNum;s++)\r
+    {\r
+      rcds.getSequenceAt(s).addDBRef(new DBRefEntry(getDbSource(), getDbVersion(), queries.trim().toUpperCase()));\r
+    }\r
+    return rcds;\r
   }\r
 \r
   /* (non-Javadoc)\r
@@ -87,17 +97,7 @@ public class Pfam extends DbSourceProxyImpl implements DbSourceProxy
    */\r
   public boolean isValidReference(String accession)\r
   {\r
-    // TODO Auto-generated method stub\r
-    return false;\r
-  }\r
-\r
-  /* (non-Javadoc)\r
-   * @see jalview.ws.DbSourceProxy#queryInProgress()\r
-   */\r
-  public boolean queryInProgress()\r
-  {\r
-    // TODO Auto-generated method stub\r
-    return false;\r
+    return accession.indexOf("PF")==0;\r
   }\r
 \r
   public String getTestQuery()\r
@@ -105,4 +105,8 @@ public class Pfam extends DbSourceProxyImpl implements DbSourceProxy
     return "PF00535";\r
   }\r
 \r
+  public String getDbName()\r
+  {\r
+    return getDbSource();\r
+  }\r
 }\r
index 23bfbca..a889ac9 100644 (file)
@@ -4,11 +4,14 @@
 package jalview.ws.dbsources;\r
 \r
 import java.io.File;\r
+import java.io.FileReader;\r
 import java.io.IOException;\r
 import java.util.Enumeration;\r
 import java.util.Hashtable;\r
 import java.util.Vector;\r
 \r
+import org.exolab.castor.xml.Unmarshaller;\r
+\r
 import com.stevesoft.pat.Regex;\r
 \r
 import jalview.datamodel.Alignment;\r
@@ -19,6 +22,7 @@ import jalview.datamodel.PDBEntry;
 import jalview.datamodel.SequenceFeature;\r
 import jalview.datamodel.SequenceI;\r
 import jalview.datamodel.UniprotEntry;\r
+import jalview.datamodel.UniprotFile;\r
 import jalview.io.FormatAdapter;\r
 import jalview.io.IdentifyFile;\r
 import jalview.ws.DBRefFetcher;\r
@@ -36,7 +40,7 @@ public class Uniprot extends DbSourceProxyImpl implements DbSourceProxy
     super();\r
     addDbSourceProperty(DBRefSource.SEQDB, DBRefSource.SEQDB);\r
     addDbSourceProperty(DBRefSource.PROTSEQDB);\r
-    addDbSourceProperty(DBRefSource.MULTIACC);\r
+    addDbSourceProperty(DBRefSource.MULTIACC, new Integer(50));\r
   }\r
 \r
   /*\r
@@ -81,6 +85,31 @@ public class Uniprot extends DbSourceProxyImpl implements DbSourceProxy
 \r
   private EBIFetchClient ebi = null;\r
 \r
+  public Vector getUniprotEntries(File file)\r
+  {\r
+    UniprotFile uni = new UniprotFile();\r
+    try\r
+    {\r
+      // 1. Load the mapping information from the file\r
+      org.exolab.castor.mapping.Mapping map = new org.exolab.castor.mapping.Mapping(uni.getClass().getClassLoader());\r
+      java.net.URL url = getClass().getResource("/uniprot_mapping.xml");\r
+      map.loadMapping(url);\r
+\r
+      // 2. Unmarshal the data\r
+      Unmarshaller unmar = new Unmarshaller(uni);\r
+      unmar.setIgnoreExtraElements(true);\r
+      unmar.setMapping(map);\r
+\r
+      uni = (UniprotFile) unmar.unmarshal(new FileReader(file));\r
+    }\r
+    catch (Exception e)\r
+    {\r
+      System.out.println("Error getUniprotEntries() " + e);\r
+    }\r
+\r
+    return uni.getUniprotEntries();\r
+  }\r
+\r
   /*\r
    * (non-Javadoc)\r
    * \r
@@ -94,9 +123,8 @@ public class Uniprot extends DbSourceProxyImpl implements DbSourceProxy
       Alignment al=null;\r
       ebi = new EBIFetchClient();\r
       StringBuffer result=new StringBuffer();\r
-      File file = ebi.fetchDataAsFile("uniprot:" + queries, "xml", null);\r
-      DBRefFetcher dbref = new DBRefFetcher();\r
-      Vector entries = dbref.getUniprotEntries(file);\r
+      File file = ebi.fetchDataAsFile("uniprot:" + queries, "uniprotxml", null);\r
+      Vector entries = getUniprotEntries(file);\r
 \r
       if (entries != null)\r
       {\r
@@ -183,8 +211,9 @@ public class Uniprot extends DbSourceProxyImpl implements DbSourceProxy
       Enumeration en2 = entry.getAccession().elements();\r
       while (en2.hasMoreElements())\r
       {\r
+        // we always add as uniprot if we retrieved from uniprot or uniprot name\r
         sq.addDBRef(\r
-                new DBRefEntry(getDbSource(), getDbVersion(), en2.nextElement()\r
+                new DBRefEntry(DBRefSource.UNIPROT, getDbVersion(), en2.nextElement()\r
                         .toString()));\r
       }\r
       sq.setPDBId(onlyPdbEntries);\r
@@ -217,4 +246,8 @@ public class Uniprot extends DbSourceProxyImpl implements DbSourceProxy
   {\r
     return "P00340";\r
   }\r
+  public String getDbName()\r
+  {\r
+    return getDbSource();\r
+  }\r
 }\r
index 5459ae9..f0e81fa 100644 (file)
@@ -20,6 +20,12 @@ public interface DbSourceProxy
    */\r
   public String getDbSource();\r
   /**\r
+   * Short meaningful name for this data source for\r
+   * display in menus or selection boxes. \r
+   * @return String\r
+   */\r
+  public String getDbName();\r
+  /**\r
    * \r
    * @return version string for this database.\r
    */\r