JAL-2089 patch broken merge to master for Release 2.10.0b1
[jalview.git] / src / jalview / io / PfamFile.java
index 3a02041..e71bb4b 100755 (executable)
-package jalview.io;\r
-\r
-import jalview.datamodel.*;\r
-import jalview.util.*;\r
-\r
-import java.io.*;\r
-import java.util.*;\r
-\r
-public class PfamFile extends AlignFile {\r
-\r
-  Vector ids;\r
-\r
-  public PfamFile()\r
-  {}\r
-\r
-  public PfamFile(String inStr) {\r
-    super(inStr);\r
-  }\r
-\r
-  public void initData() {\r
-    super.initData();\r
-    ids = new Vector();\r
-  }\r
-\r
-  public PfamFile(String inFile, String type) throws IOException {\r
-    super(inFile,type);\r
-  }\r
-\r
-  public void parse() throws IOException{\r
-    int i = 0;\r
-    String line;\r
-\r
-\r
-    Hashtable seqhash = new Hashtable();\r
-    Vector    headers = new Vector();\r
-\r
-\r
-      while ((line = nextLine()) != null)\r
-      {\r
-\r
-      if (line.indexOf(" ") != 0)\r
-      {\r
-        if (line.indexOf("#") != 0)\r
-        {\r
-\r
-          StringTokenizer str = new StringTokenizer(line," ");\r
-          String id = "";\r
-\r
-          if (str.hasMoreTokens())\r
-          {\r
-            id = str.nextToken();\r
-\r
-            StringBuffer tempseq;\r
-\r
-            if (seqhash.containsKey(id))\r
-              tempseq = (StringBuffer)seqhash.get(id);\r
-           else\r
-           {\r
-             tempseq = new StringBuffer();\r
-             seqhash.put(id,tempseq);\r
-           }\r
-\r
-            if (!(headers.contains(id)))\r
-              headers.addElement(id);\r
-\r
-\r
-            tempseq.append(str.nextToken());\r
-          }\r
-        }\r
-      }\r
-    }\r
-\r
-    this.noSeqs = headers.size();\r
-    if(noSeqs<1)\r
-      throw new IOException("No sequences found (PFAM input)");\r
-\r
-    for (i = 0; i < headers.size(); i++ ) {\r
-\r
-      if ( seqhash.get(headers.elementAt(i)) != null) {\r
-        if (maxLength <  seqhash.get(headers.elementAt(i)).toString().length() )\r
-          maxLength =  seqhash.get(headers.elementAt(i)).toString().length();\r
-\r
-        String head =  headers.elementAt(i).toString();\r
-        int start = 1;\r
-        int end =  seqhash.get(headers.elementAt(i)).toString().length();\r
-\r
-        if (head.indexOf("/") > 0 ) {\r
-          StringTokenizer st = new StringTokenizer(head,"/");\r
-          if (st.countTokens() == 2) {\r
-            ids.addElement(st.nextToken());\r
-            String tmp = st.nextToken();\r
-            st = new StringTokenizer(tmp,"-");\r
-            if (st.countTokens() == 2) {\r
-              start = Integer.valueOf(st.nextToken()).intValue();\r
-              end = Integer.valueOf(st.nextToken()).intValue();\r
-            } else\r
-            {\r
-              start = -1;\r
-              end = -1;\r
-            }\r
-          } else\r
-            ids.addElement(headers.elementAt(i));\r
-\r
-        }\r
-        else\r
-          ids.addElement(headers.elementAt(i));\r
-\r
-\r
-        Sequence newSeq = null;\r
-        if (start != -1 && end != -1)\r
-        {\r
-          newSeq = new Sequence(ids.elementAt(i).toString(),\r
-                                         seqhash.get(headers.elementAt(i).toString()).toString(),start,end);\r
-          seqs.addElement(newSeq);\r
-        }\r
-        else\r
-        {\r
-          newSeq = new Sequence(ids.elementAt(i).toString(),\r
-                                         seqhash.get(headers.elementAt(i).toString()).toString(),1,\r
-                                         seqhash.get(headers.elementAt(i).toString()).toString().length());\r
-          seqs.addElement(newSeq);\r
-        }\r
-\r
-        if(!isValidProteinSequence(newSeq.getSequence()))\r
-          throw new IOException("Not a valid protein sequence - (PFAM input)");\r
-      }\r
-      else\r
-        System.err.println("PFAM File reader: Can't find sequence for " + headers.elementAt(i));\r
-\r
-    }\r
-\r
-  }\r
-\r
-  public static String print(SequenceI[] s) {\r
-    StringBuffer out = new StringBuffer("");\r
-\r
-    int max = 0;\r
-    int maxid = 0;\r
-\r
-    int i = 0;\r
-\r
-    while (i < s.length && s[i] != null) {\r
-      String tmp = s[i].getName() + "/" + s[i].getStart()+ "-" + s[i].getEnd();\r
-\r
-      if (s[i].getSequence().length() > max) {\r
-        max = s[i].getSequence().length();\r
-      }\r
-      if (tmp.length() > maxid) {\r
-        maxid = tmp.length();\r
-      }\r
-      i++;\r
-    }\r
-\r
-    if (maxid < 15) {\r
-      maxid = 15;\r
-    }\r
-\r
-    int j = 0;\r
-    while ( j < s.length && s[j] != null) {\r
-      out.append( new Format("%-" + maxid + "s").form(s[j].getName() + "/" + s[j].getStart() + "-" + s[j].getEnd() ) + " ");\r
-\r
-      out.append(s[j].getSequence() + "\n");\r
-      j++;\r
-    }\r
-    out.append("\n");\r
-\r
-    return out.toString();\r
-  }\r
-\r
-  public String print() {\r
-    return print(getSeqsAsArray());\r
-  }\r
-}\r
+/*
+ * Jalview - A Sequence Alignment Editor and Viewer ($$Version-Rel$$)
+ * Copyright (C) $$Year-Rel$$ The Jalview Authors
+ * 
+ * This file is part of Jalview.
+ * 
+ * Jalview is free software: you can redistribute it and/or
+ * modify it under the terms of the GNU General Public License 
+ * as published by the Free Software Foundation, either version 3
+ * of the License, or (at your option) any later version.
+ *  
+ * Jalview is distributed in the hope that it will be useful, but 
+ * WITHOUT ANY WARRANTY; without even the implied warranty 
+ * of MERCHANTABILITY or FITNESS FOR A PARTICULAR 
+ * PURPOSE.  See the GNU General Public License for more details.
+ * 
+ * You should have received a copy of the GNU General Public License
+ * along with Jalview.  If not, see <http://www.gnu.org/licenses/>.
+ * The Jalview Authors are detailed in the 'AUTHORS' file.
+ */
+package jalview.io;
+
+import jalview.datamodel.Sequence;
+import jalview.datamodel.SequenceI;
+import jalview.util.Format;
+import jalview.util.MessageManager;
+
+import java.io.IOException;
+import java.util.ArrayList;
+import java.util.HashMap;
+
+public class PfamFile extends AlignFile
+{
+
+  public PfamFile()
+  {
+  }
+
+  public PfamFile(String inFile, String type) throws IOException
+  {
+    super(inFile, type);
+  }
+
+  public PfamFile(FileParse source) throws IOException
+  {
+    super(source);
+  }
+
+  @Override
+  public void initData()
+  {
+    super.initData();
+  }
+
+  @Override
+  public void parse() throws IOException
+  {
+    int i = 0;
+    String line;
+
+    HashMap<String, StringBuffer> seqhash = new HashMap<String, StringBuffer>();
+    ArrayList<String> headers = new ArrayList<String>();
+    boolean useTabs = false;
+    int spces;
+    while ((line = nextLine()) != null)
+    {
+      if (line.indexOf("#") == 0)
+      {
+        // skip comment lines
+        continue;
+      }
+      // locate first space or (if already checked), tab
+      if (useTabs)
+      {
+        spces = line.indexOf("\t");
+      }
+      else
+      {
+        spces = line.indexOf(" ");
+        // check to see if we ought to split on tabs instead.
+        if (!useTabs && spces == -1)
+        {
+          useTabs = true;
+          spces = line.indexOf("\t");
+        }
+      }
+      if (spces <= 0)
+      {
+        // no sequence data to split on
+        continue;
+      }
+      String id = line.substring(0, spces);
+      StringBuffer tempseq;
+
+      if (seqhash.containsKey(id))
+      {
+        tempseq = seqhash.get(id);
+      }
+      else
+      {
+        tempseq = new StringBuffer();
+        seqhash.put(id, tempseq);
+      }
+
+      if (!(headers.contains(id)))
+      {
+        headers.add(id);
+      }
+      if (spces + 1 < line.length())
+      {
+        tempseq.append(line.substring(spces + 1).trim());
+      }
+    }
+
+    this.noSeqs = headers.size();
+
+    if (noSeqs < 1)
+    {
+      throw new IOException(
+              MessageManager.getString("exception.pfam_no_sequences_found"));
+    }
+
+    for (i = 0; i < headers.size(); i++)
+    {
+      if (seqhash.get(headers.get(i)) != null)
+      {
+        if (maxLength < seqhash.get(headers.get(i)).toString().length())
+        {
+          maxLength = seqhash.get(headers.get(i)).toString().length();
+        }
+
+        Sequence newSeq = parseId(headers.get(i).toString());
+        newSeq.setSequence(seqhash.get(headers.get(i).toString())
+                .toString());
+        seqs.addElement(newSeq);
+      }
+      else
+      {
+        System.err.println("PFAM File reader: Can't find sequence for "
+                + headers.get(i));
+      }
+    }
+  }
+
+  public String print(SequenceI[] s)
+  {
+    StringBuffer out = new StringBuffer("");
+
+    int max = 0;
+    int maxid = 0;
+
+    int i = 0;
+
+    while ((i < s.length) && (s[i] != null))
+    {
+      String tmp = printId(s[i]);
+
+      if (s[i].getSequence().length > max)
+      {
+        max = s[i].getSequence().length;
+      }
+
+      if (tmp.length() > maxid)
+      {
+        maxid = tmp.length();
+      }
+
+      i++;
+    }
+
+    if (maxid < 15)
+    {
+      maxid = 15;
+    }
+
+    int j = 0;
+
+    while ((j < s.length) && (s[j] != null))
+    {
+      out.append(new Format("%-" + maxid + "s").form(printId(s[j]) + " "));
+
+      out.append(s[j].getSequenceAsString());
+      out.append(newline);
+      j++;
+    }
+
+    out.append(newline);
+
+    return out.toString();
+  }
+
+  @Override
+  public String print()
+  {
+    return print(getSeqsAsArray());
+  }
+}