JAL-1645 Version-Rel Version 2.9 Year-Rel 2015 Licensing glob
[jalview.git] / src / jalview / io / ClustalFile.java
index 4138a88..5dd0e40 100755 (executable)
-package jalview.io;\r
-\r
-import jalview.datamodel.*;\r
-import jalview.util.*;\r
-\r
-import java.io.*;\r
-import java.util.*;\r
-\r
-public class ClustalFile extends AlignFile {\r
-\r
-  Vector ids;\r
-\r
-  public ClustalFile()\r
-  {}\r
-\r
-  public ClustalFile(String inStr) {\r
-    super(inStr);\r
-  }\r
-\r
-\r
-  public void initData() {\r
-    super.initData();\r
-    ids = new Vector();\r
-  }\r
-\r
-  public ClustalFile(String inFile, String type) throws IOException {\r
-    super(inFile,type);\r
-  }\r
-\r
-  public void parse() {\r
-    int     i    = 0;\r
-    boolean flag = false;\r
-\r
-    Vector    headers = new Vector();\r
-    Hashtable seqhash = new Hashtable();\r
-\r
-    String line;\r
-\r
-    try {\r
-      while ((line = nextLine()) != null) {\r
-       if (line.indexOf(" ") != 0) {\r
-         StringTokenizer str = new StringTokenizer(line," ");\r
-         String id = "";\r
-\r
-         if (str.hasMoreTokens()) {\r
-           id = str.nextToken();\r
-           if (id.equals("CLUSTAL")) {\r
-             flag = true;\r
-           } else {\r
-             if (flag) {\r
-               StringBuffer tempseq;\r
-               if (seqhash.containsKey(id)) {\r
-                 tempseq = (StringBuffer)seqhash.get(id);\r
-               } else {\r
-                 tempseq = new StringBuffer();\r
-                 seqhash.put(id,tempseq);\r
-               }\r
-\r
-               if (!(headers.contains(id))) {\r
-                 headers.addElement(id);\r
-               }\r
-\r
-               tempseq.append(str.nextToken());\r
-             }\r
-           }\r
-         }\r
-       }\r
-      }\r
-    } catch (IOException e) {\r
-      System.err.println("Exception parsing clustal file " + e);\r
-      e.printStackTrace();\r
-    }\r
-\r
-    if (flag) {\r
-      this.noSeqs = headers.size();\r
-\r
-      //Add sequences to the hash\r
-      for (i = 0; i < headers.size(); i++ ) {\r
-        int start = -1;\r
-        int end   = -1;\r
-\r
-        if ( seqhash.get(headers.elementAt(i)) != null) {\r
-          if (maxLength <  seqhash.get(headers.elementAt(i)).toString().length() ) {\r
-            maxLength =  seqhash.get(headers.elementAt(i)).toString().length();\r
-          }\r
-          String head =  headers.elementAt(i).toString();\r
-          start = 1;\r
-          end   =  seqhash.get(headers.elementAt(i)).toString().length();\r
-\r
-          if (head.indexOf("/") > 0 ) {\r
-            StringTokenizer st = new StringTokenizer(head,"/");\r
-            if (st.countTokens() == 2) {\r
-\r
-              ids.addElement(st.nextToken());\r
-\r
-              String tmp = st.nextToken();\r
-              st = new StringTokenizer(tmp,"-");\r
-              if (st.countTokens() == 2) {\r
-                start = Integer.valueOf(st.nextToken()).intValue();\r
-                end = Integer.valueOf(st.nextToken()).intValue();\r
-              }\r
-            } else {\r
-              ids.addElement(headers.elementAt(i));\r
-            }\r
-          }  else {\r
-            ids.addElement(headers.elementAt(i));\r
-\r
-          }\r
-          Sequence newSeq = new Sequence(ids.elementAt(i).toString(),\r
-                                         seqhash.get(headers.elementAt(i).toString()).toString(),start,end);\r
-\r
-          seqs.addElement(newSeq);\r
-\r
-        } else {\r
-          System.err.println("Clustal File Reader: Can't find sequence for " + headers.elementAt(i));\r
-        }\r
-      }\r
-    }\r
-\r
-  }\r
-\r
-  public String print() {\r
-    return print(getSeqsAsArray());\r
-  }\r
-  public static String print(SequenceI[] s) {\r
-    StringBuffer out = new StringBuffer("CLUSTAL\n\n");\r
-\r
-    int max = 0;\r
-    int maxid = 0;\r
-\r
-    int i = 0;\r
-\r
-    while (i < s.length && s[i] != null) {\r
-      String tmp = s[i].getName() + "/" + s[i].getStart() + "-" + s[i].getEnd();\r
-\r
-      if (s[i].getSequence().length() > max) {\r
-        max = s[i].getSequence().length();\r
-      }\r
-      if (tmp.length() > maxid) {\r
-        maxid = tmp.length();\r
-      }\r
-      i++;\r
-    }\r
-\r
-    if (maxid < 15) {\r
-      maxid = 15;\r
-    }\r
-    maxid++;\r
-    int len = 60;\r
-    int nochunks =  max / len + 1;\r
-\r
-    for (i = 0; i < nochunks; i++) {\r
-      int j = 0;\r
-      while ( j < s.length && s[j] != null) {\r
-        out.append( new Format("%-" + maxid + "s").form(s[j].getName() + "/" + s[j].getStart() + "-" + s[j].getEnd()) + " ");\r
-        int start = i*len;\r
-        int end = start + len;\r
-\r
-        if (end < s[j].getSequence().length() && start < s[j].getSequence().length() ) {\r
-          out.append(s[j].getSequence().substring(start,end) + "\n");\r
-        } else {\r
-          if (start < s[j].getSequence().length()) {\r
-            out.append(s[j].getSequence().substring(start) + "\n");\r
-          }\r
-        }\r
-        j++;\r
-      }\r
-      out.append("\n");\r
-\r
-    }\r
-    return out.toString();\r
-  }\r
-\r
-\r
-}\r
+/*
+ * Jalview - A Sequence Alignment Editor and Viewer (Version 2.9)
+ * Copyright (C) 2015 The Jalview Authors
+ * 
+ * This file is part of Jalview.
+ * 
+ * Jalview is free software: you can redistribute it and/or
+ * modify it under the terms of the GNU General Public License 
+ * as published by the Free Software Foundation, either version 3
+ * of the License, or (at your option) any later version.
+ *  
+ * Jalview is distributed in the hope that it will be useful, but 
+ * WITHOUT ANY WARRANTY; without even the implied warranty 
+ * of MERCHANTABILITY or FITNESS FOR A PARTICULAR 
+ * PURPOSE.  See the GNU General Public License for more details.
+ * 
+ * You should have received a copy of the GNU General Public License
+ * along with Jalview.  If not, see <http://www.gnu.org/licenses/>.
+ * The Jalview Authors are detailed in the 'AUTHORS' file.
+ */
+package jalview.io;
+
+import jalview.datamodel.AlignmentAnnotation;
+import jalview.datamodel.Sequence;
+import jalview.datamodel.SequenceI;
+import jalview.util.Format;
+
+import java.io.IOException;
+import java.util.Hashtable;
+import java.util.StringTokenizer;
+import java.util.Vector;
+
+public class ClustalFile extends AlignFile
+{
+
+  public ClustalFile()
+  {
+  }
+
+  public ClustalFile(String inFile, String type) throws IOException
+  {
+    super(inFile, type);
+  }
+
+  public ClustalFile(FileParse source) throws IOException
+  {
+    super(source);
+  }
+
+  public void initData()
+  {
+    super.initData();
+  }
+
+  public void parse() throws IOException
+  {
+    int i = 0;
+    boolean flag = false;
+    boolean rna = false;
+    boolean top = false;
+    StringBuffer pssecstr = new StringBuffer(), consstr = new StringBuffer();
+    Vector headers = new Vector();
+    Hashtable seqhash = new Hashtable();
+    StringBuffer tempseq;
+    String line, id;
+    StringTokenizer str;
+
+    try
+    {
+      while ((line = nextLine()) != null)
+      {
+        if (line.length() == 0)
+        {
+          top = true;
+        }
+        if (line.indexOf(" ") != 0)
+        {
+          str = new StringTokenizer(line, " ");
+
+          if (str.hasMoreTokens())
+          {
+            id = str.nextToken();
+
+            if (id.equalsIgnoreCase("CLUSTAL"))
+            {
+              flag = true;
+            }
+            else
+            {
+              if (flag)
+              {
+                if (seqhash.containsKey(id))
+                {
+                  tempseq = (StringBuffer) seqhash.get(id);
+                }
+                else
+                {
+                  tempseq = new StringBuffer();
+                  seqhash.put(id, tempseq);
+                }
+
+                if (!(headers.contains(id)))
+                {
+                  headers.addElement(id);
+                }
+
+                if (str.hasMoreTokens())
+                {
+                  tempseq.append(str.nextToken());
+                }
+                top = false;
+              }
+            }
+          }
+          else
+          {
+            flag = true;
+          }
+        }
+        else
+        {
+          if (line.matches("\\s+(-|\\.|\\(|\\[|\\]|\\))+"))
+          {
+            if (top)
+            {
+              pssecstr.append(line.trim());
+            }
+            else
+            {
+              consstr.append(line.trim());
+            }
+          }
+        }
+      }
+    } catch (IOException e)
+    {
+      System.err.println("Exception parsing clustal file " + e);
+      e.printStackTrace();
+    }
+
+    if (flag)
+    {
+      this.noSeqs = headers.size();
+
+      // Add sequences to the hash
+      for (i = 0; i < headers.size(); i++)
+      {
+        if (seqhash.get(headers.elementAt(i)) != null)
+        {
+          if (maxLength < seqhash.get(headers.elementAt(i)).toString()
+                  .length())
+          {
+            maxLength = seqhash.get(headers.elementAt(i)).toString()
+                    .length();
+          }
+
+          Sequence newSeq = parseId(headers.elementAt(i).toString());
+          newSeq.setSequence(seqhash.get(headers.elementAt(i).toString())
+                  .toString());
+
+          seqs.addElement(newSeq);
+        }
+        else
+        {
+          System.err
+                  .println("Clustal File Reader: Can't find sequence for "
+                          + headers.elementAt(i));
+        }
+      }
+      AlignmentAnnotation lastssa = null;
+      if (pssecstr.length() == maxLength)
+      {
+        Vector ss = new Vector();
+        AlignmentAnnotation ssa = lastssa = StockholmFile
+                .parseAnnotationRow(ss, "secondary structure",
+                        pssecstr.toString());
+        ssa.label = "Secondary Structure";
+        annotations.addElement(ssa);
+      }
+      if (consstr.length() == maxLength)
+      {
+        Vector ss = new Vector();
+        AlignmentAnnotation ssa = StockholmFile.parseAnnotationRow(ss,
+                "secondary structure", consstr.toString());
+        ssa.label = "Consensus Secondary Structure";
+        if (lastssa == null
+                || !lastssa.getRNAStruc().equals(
+                        ssa.getRNAStruc().replace('-', '.')))
+        {
+          annotations.addElement(ssa);
+        }
+      }
+    }
+  }
+
+  public String print()
+  {
+    return print(getSeqsAsArray());
+    // TODO: locaRNA style aln output
+  }
+
+  public String print(SequenceI[] s)
+  {
+    StringBuffer out = new StringBuffer("CLUSTAL" + newline + newline);
+
+    int max = 0;
+    int maxid = 0;
+
+    int i = 0;
+
+    while ((i < s.length) && (s[i] != null))
+    {
+      String tmp = printId(s[i]);
+
+      if (s[i].getSequence().length > max)
+      {
+        max = s[i].getSequence().length;
+      }
+
+      if (tmp.length() > maxid)
+      {
+        maxid = tmp.length();
+      }
+
+      i++;
+    }
+
+    if (maxid < 15)
+    {
+      maxid = 15;
+    }
+
+    maxid++;
+
+    int len = 60;
+    int nochunks = (max / len) + 1;
+
+    for (i = 0; i < nochunks; i++)
+    {
+      int j = 0;
+
+      while ((j < s.length) && (s[j] != null))
+      {
+        out.append(new Format("%-" + maxid + "s").form(printId(s[j]) + " "));
+
+        int start = i * len;
+        int end = start + len;
+
+        if ((end < s[j].getSequence().length)
+                && (start < s[j].getSequence().length))
+        {
+          out.append(s[j].getSequenceAsString(start, end));
+        }
+        else
+        {
+          if (start < s[j].getSequence().length)
+          {
+            out.append(s[j].getSequenceAsString().substring(start));
+          }
+        }
+
+        out.append(newline);
+        j++;
+      }
+
+      out.append(newline);
+    }
+
+    return out.toString();
+  }
+}