JAL-2344 use ".cif" for saved mmCIF file (and refactor fetch as file)
[jalview.git] / src / jalview / ws / dbsources / EmblXmlSource.java
index 1300c65..b2fb808 100644 (file)
-package jalview.ws.dbsources;\r
-\r
-import jalview.datamodel.Alignment;\r
-import jalview.datamodel.AlignmentI;\r
-import jalview.datamodel.SequenceI;\r
-import jalview.datamodel.xdb.embl.EmblEntry;\r
-import jalview.ws.EBIFetchClient;\r
-\r
-import java.io.File;\r
-import java.util.Iterator;\r
-import java.util.Vector;\r
-\r
-public abstract class EmblXmlSource extends EbiFileRetrievedProxy\r
-{\r
-\r
-  /**\r
-   * Last properly parsed embl file.\r
-   */\r
-  public jalview.datamodel.xdb.embl.EmblFile efile = null;\r
-\r
-  public EmblXmlSource()\r
-  {\r
-    super();\r
-  }\r
-  /**\r
-   * set this to false to *not* add protein products to alignment dataset.\r
-   */\r
-  public boolean getProteinProducts=false;\r
-  /**\r
-   * retrieve and parse an emblxml file\r
-   * @param emprefx either EMBL or EMBLCDS strings are allowed - anything else will not retrieve emblxml\r
-   * @param query\r
-   * @return\r
-   * @throws Exception\r
-   */\r
-  public AlignmentI getEmblSequenceRecords(String emprefx, String query) throws Exception\r
-  {\r
-    startQuery();\r
-    SequenceI seqs[] = null;\r
-    Vector alseq = new Vector(); // the sequences that will actually be presented in the alignment\r
-    StringBuffer result = new StringBuffer();\r
-    EBIFetchClient dbFetch = new EBIFetchClient();\r
-    File reply; \r
-    try {\r
-      reply = dbFetch.fetchDataAsFile(\r
-            emprefx.toLowerCase() + ":" + query.trim(),\r
-          "emblxml",null);\r
-    }\r
-    catch (Exception e)\r
-    {\r
-      stopQuery();\r
-      throw new Exception("EBI EMBL XML retrieval failed on "+emprefx.toLowerCase()+":"+query.trim(),e);\r
-    }\r
-    if (reply != null && reply.exists())\r
-      {\r
-        file = reply.getAbsolutePath();\r
-        efile = jalview.datamodel.xdb.embl.EmblFile.getEmblFile(reply);\r
-      }\r
-      if (efile!=null) {\r
-        for (Iterator i=efile.getEntries().iterator(); i.hasNext(); ) {\r
-          EmblEntry entry = (EmblEntry) i.next();\r
-          SequenceI[] seqparts = entry.getSequences(false,!getProteinProducts, emprefx);\r
-          if (seqparts!=null) {\r
-            SequenceI[] newseqs = null;\r
-            int si=0;\r
-            if (seqs==null) {\r
-              newseqs = new SequenceI[seqparts.length];\r
-            } else {\r
-              newseqs  = new SequenceI[seqs.length+seqparts.length];\r
-  \r
-              for (;si<seqs.length; si++) {\r
-                newseqs[si] = seqs[si];\r
-                seqs[si] = null;\r
-              }\r
-            }\r
-            for (int j=0;j<seqparts.length; si++, j++) {\r
-              newseqs[si] = seqparts[j].deriveSequence(); // place DBReferences on dataset and refer\r
-            }\r
-            seqs=newseqs;\r
-  \r
-          }\r
-        }\r
-      } else {\r
-        result=null;\r
-      }\r
-    AlignmentI al =null;\r
-    if (seqs!=null && seqs.length>0)\r
-    {\r
-      al = new Alignment(seqs);\r
-      result.append("# Successfully parsed the "+emprefx+" queries into an Alignment");\r
-      results = result;\r
-    }\r
-    stopQuery();\r
-    return al;\r
-  }\r
-\r
-}
\ No newline at end of file
+/*
+ * Jalview - A Sequence Alignment Editor and Viewer ($$Version-Rel$$)
+ * Copyright (C) $$Year-Rel$$ The Jalview Authors
+ * 
+ * This file is part of Jalview.
+ * 
+ * Jalview is free software: you can redistribute it and/or
+ * modify it under the terms of the GNU General Public License 
+ * as published by the Free Software Foundation, either version 3
+ * of the License, or (at your option) any later version.
+ *  
+ * Jalview is distributed in the hope that it will be useful, but 
+ * WITHOUT ANY WARRANTY; without even the implied warranty 
+ * of MERCHANTABILITY or FITNESS FOR A PARTICULAR 
+ * PURPOSE.  See the GNU General Public License for more details.
+ * 
+ * You should have received a copy of the GNU General Public License
+ * along with Jalview.  If not, see <http://www.gnu.org/licenses/>.
+ * The Jalview Authors are detailed in the 'AUTHORS' file.
+ */
+package jalview.ws.dbsources;
+
+import jalview.datamodel.Alignment;
+import jalview.datamodel.AlignmentI;
+import jalview.datamodel.SequenceI;
+import jalview.datamodel.xdb.embl.EmblEntry;
+import jalview.datamodel.xdb.embl.EmblFile;
+import jalview.util.MessageManager;
+import jalview.ws.ebi.EBIFetchClient;
+
+import java.io.File;
+import java.util.ArrayList;
+import java.util.List;
+
+public abstract class EmblXmlSource extends EbiFileRetrievedProxy
+{
+  /*
+   * JAL-1856 Embl returns this text for query not found
+   */
+  private static final String EMBL_NOT_FOUND_REPLY = "ERROR 12 No entries found.";
+
+  public EmblXmlSource()
+  {
+    super();
+  }
+
+  /**
+   * retrieve and parse an emblxml file
+   * 
+   * @param emprefx
+   *          either EMBL or EMBLCDS strings are allowed - anything else will
+   *          not retrieve emblxml
+   * @param query
+   * @return
+   * @throws Exception
+   */
+  public AlignmentI getEmblSequenceRecords(String emprefx, String query)
+          throws Exception
+  {
+    startQuery();
+    EBIFetchClient dbFetch = new EBIFetchClient();
+    File reply;
+    try
+    {
+      reply = dbFetch.fetchDataAsFile(
+              emprefx.toLowerCase() + ":" + query.trim(), "display=xml",
+              "xml");
+    } catch (Exception e)
+    {
+      stopQuery();
+      throw new Exception(MessageManager.formatMessage(
+              "exception.ebiembl_retrieval_failed_on", new String[] {
+                  emprefx.toLowerCase(), query.trim() }), e);
+    }
+    return getEmblSequenceRecords(emprefx, query, reply);
+  }
+
+  /**
+   * parse an emblxml file stored locally
+   * 
+   * @param emprefx
+   *          either EMBL or EMBLCDS strings are allowed - anything else will
+   *          not retrieve emblxml
+   * @param query
+   * @param file
+   *          the EMBL XML file containing the results of a query
+   * @return
+   * @throws Exception
+   */
+  public AlignmentI getEmblSequenceRecords(String emprefx, String query,
+          File reply) throws Exception
+  {
+    EmblFile efile = null;
+    List<SequenceI> seqs = new ArrayList<SequenceI>();
+
+    if (reply != null && reply.exists())
+    {
+      file = reply.getAbsolutePath();
+      if (reply.length() > EMBL_NOT_FOUND_REPLY.length())
+      {
+        efile = EmblFile.getEmblFile(reply);
+      }
+    }
+
+    /*
+     * invalid accession gets a reply with no <entry> elements, text content of
+     * EmbFile reads something like (e.g.) this ungrammatical phrase
+     * Entry: <acc> display type is either not supported or entry is not found.
+     */
+    List<SequenceI> peptides = new ArrayList<SequenceI>();
+    if (efile != null && efile.getEntries() != null)
+    {
+      for (EmblEntry entry : efile.getEntries())
+      {
+        SequenceI seq = entry.getSequence(emprefx, peptides);
+        if (seq != null)
+        {
+          seqs.add(seq.deriveSequence());
+          // place DBReferences on dataset and refer
+        }
+      }
+    }
+
+    AlignmentI al = null;
+    if (!seqs.isEmpty())
+    {
+      al = new Alignment(seqs.toArray(new SequenceI[seqs.size()]));
+    }
+    stopQuery();
+    return al;
+  }
+
+  @Override
+  public boolean isDnaCoding()
+  {
+    return true;
+  }
+
+}