added description of alignment quality scores and separated

[jalview.git] / src / jalview / io / FastaFile.java
diff --git a/src/jalview/io/FastaFile.java b/src/jalview/io/FastaFile.java

index 757bb57..2e203af 100755 (executable)
--- a/src/jalview/io/FastaFile.java
+++ b/src/jalview/io/FastaFile.java
@@ -18,14 +18,10 @@
  */\r
  package jalview.io;\r
  \r
-import jalview.analysis.*;\r
-\r
  import jalview.datamodel.*;\r
  \r
  import java.io.*;\r
  \r
-import java.util.*;\r
-\r
  \r
  /**\r
   * DOCUMENT ME!\r
@@ -72,154 +68,57 @@ public class FastaFile extends AlignFile
       */\r
      public void parse() throws IOException\r
      {\r
-        String id = "";\r
-        StringBuffer seq = new StringBuffer();\r
+        StringBuffer sb = new StringBuffer();\r
          int count = 0;\r
  \r
-        int sstart = 0;\r
-        int send = 0;\r
-\r
          String line;\r
+        Sequence seq = null;\r
  \r
          while ((line = nextLine()) != null)\r
          {\r
              if (line.length() > 0)\r
              {\r
-                // Do we have an id line?\r
-                // JBPNote - this code needs to be standardised to EBI/whatever for the\r
-                // >dbref/dbref/dbref|refid1|refid2|refid3 'human-readable' style of naming (should it really exist)\r
-                if (line.substring(0, 1).equals(">"))\r
+                if (line.charAt(0)=='>')\r
                  {\r
                      if (count != 0)\r
                      {\r
-                        if (sstart != 0)\r
-                        {\r
-                            seqs.addElement(new Sequence(id, seq.toString(),\r
-                                    sstart, send));\r
-                        }\r
-                        else\r
-                        {\r
-                            seqs.addElement(new Sequence(id, seq.toString(), 1,\r
-                                    seq.length()));\r
-                        }\r
+                      if (!isValidProteinSequence(sb.toString()))\r
+                      {\r
+                        throw new IOException(AppletFormatAdapter.INVALID_CHARACTERS\r
+                                              +" : "+seq.getName()\r
+                                              +" : "+invalidCharacter);\r
+                      }\r
+\r
+                       seq.setSequence(sb.toString());\r
+                       seqs.addElement(seq);\r
                      }\r
  \r
-                    count++;\r
-\r
-                    StringTokenizer str = new StringTokenizer(line, " ");\r
-\r
-                    id = str.nextToken();\r
-                    id = id.substring(1);\r
-\r
-                    com.stevesoft.pat.Regex dbId = new com.stevesoft.pat.Regex(\r
-                            "[A-Za-z-]+/?[A-Za-z-]+\\|(\\w+)\\|(.+)");\r
-\r
-                    // JBPNote At the moment - we don't get rid of the friendly names but this\r
-                    // behaviour is probably wrong in the long run.\r
-                    if (dbId.search(id))\r
-                    {\r
-                        String dbid = dbId.stringMatched(1);\r
-                        String idname = dbId.stringMatched(2);\r
-\r
-                        if ((idname.length() > 0) &&\r
-                                (idname.indexOf("_") > -1))\r
-                        {\r
-                            id = idname; // use the friendly name - apparently no dbid\r
-                        }\r
-                        else if (dbid.length() > 1)\r
-                        {\r
-                            id = dbid; // ignore the friendly name - we lose uniprot accession ID otherwise\r
-                        }\r
-                    }\r
-\r
-                    if (id.indexOf("/") > 0)\r
-                    {\r
-                        StringTokenizer st = new StringTokenizer(id, "/");\r
-\r
-                        if (st.countTokens() == 2)\r
-                        {\r
-                            id = st.nextToken();\r
-\r
-                            String tmp = st.nextToken();\r
+                    seq = parseId(line.substring(1));\r
  \r
-                            st = new StringTokenizer(tmp, "-");\r
-\r
-                            if (st.countTokens() == 2)\r
-                            {\r
-                                sstart = Integer.valueOf(st.nextToken())\r
-                                                .intValue();\r
-                                send = Integer.valueOf(st.nextToken()).intValue();\r
-                            }\r
-                        }\r
-                    }\r
-\r
-                    seq = new StringBuffer();\r
+                    count++;\r
+                    sb = new StringBuffer();\r
                  }\r
                  else\r
                  {\r
-                    seq = seq.append(line);\r
+                    sb.append(line);\r
                  }\r
              }\r
          }\r
  \r
          if (count > 0)\r
          {\r
-            if (!isValidProteinSequence(seq.toString().toUpperCase()))\r
+            if (!isValidProteinSequence(sb.toString()))\r
              {\r
-                throw new IOException("Invalid protein sequence");\r
+                throw new IOException(AppletFormatAdapter.INVALID_CHARACTERS\r
+                                      +" : "+seq.getName()\r
+                                      +" : "+invalidCharacter);\r
              }\r
  \r
-            if (sstart != 0)\r
-            {\r
-                seqs.addElement(new Sequence(id, seq.toString().toUpperCase(),\r
-                        sstart, send));\r
-            }\r
-            else\r
-            {\r
-                seqs.addElement(new Sequence(id, seq.toString().toUpperCase(),\r
-                        1, seq.length()));\r
-            }\r
+            seq.setSequence(sb.toString());\r
+            seqs.addElement(seq);\r
          }\r
      }\r
  \r
-    /**\r
-     * DOCUMENT ME!\r
-     *\r
-     * @param s DOCUMENT ME!\r
-     *\r
-     * @return DOCUMENT ME!\r
-     */\r
-    public static String print(SequenceI[] s)\r
-    {\r
-        return print(s, 72);\r
-    }\r
-\r
-    /**\r
-     * DOCUMENT ME!\r
-     *\r
-     * @param s DOCUMENT ME!\r
-     * @param len DOCUMENT ME!\r
-     *\r
-     * @return DOCUMENT ME!\r
-     */\r
-    public static String print(SequenceI[] s, int len)\r
-    {\r
-        return print(s, len, true);\r
-    }\r
-\r
-    /**\r
-     * DOCUMENT ME!\r
-     *\r
-     * @param s DOCUMENT ME!\r
-     * @param len DOCUMENT ME!\r
-     * @param gaps DOCUMENT ME!\r
-     *\r
-     * @return DOCUMENT ME!\r
-     */\r
-    public static String print(SequenceI[] s, int len, boolean gaps)\r
-    {\r
-        return print(s, len, gaps, true);\r
-    }\r
  \r
      /**\r
       * DOCUMENT ME!\r
@@ -231,43 +130,34 @@ public class FastaFile extends AlignFile
       *\r
       * @return DOCUMENT ME!\r
       */\r
-    public static String print(SequenceI[] s, int len, boolean gaps,\r
-        boolean displayId)\r
+    public String print(SequenceI[] s)\r
      {\r
+        int len = 72;\r
          StringBuffer out = new StringBuffer();\r
          int i = 0;\r
  \r
          while ((i < s.length) && (s[i] != null))\r
          {\r
-            String seq = "";\r
-\r
-            if (gaps)\r
-            {\r
-                seq = s[i].getSequence();\r
-            }\r
-            else\r
-            {\r
-                seq = AlignSeq.extractGaps("-. ", s[i].getSequence());\r
-            }\r
+            out.append(">" + printId(s[i]));\r
+            if(s[i].getDescription()!=null)\r
+              out.append(" "+s[i].getDescription());\r
  \r
-            // used to always put this here: + "/" + s[i].getStart() + "-" + s[i].getEnd() +\r
-            out.append(">" +\r
-                ((displayId) ? s[i].getDisplayId() : s[i].getName()) + "\n");\r
+            out.append("\n");\r
  \r
-            int nochunks = (seq.length() / len) + 1;\r
+            int nochunks = (s[i].getLength() / len) + 1;\r
  \r
              for (int j = 0; j < nochunks; j++)\r
              {\r
                  int start = j * len;\r
                  int end = start + len;\r
  \r
-                if (end < seq.length())\r
+                if (end < s[i].getLength())\r
                  {\r
-                    out.append(seq.substring(start, end) + "\n");\r
+                    out.append(s[i].getSequence(start, end) + "\n");\r
                  }\r
-                else if (start < seq.length())\r
+                else if (start < s[i].getLength())\r
                  {\r
-                    out.append(seq.substring(start) + "\n");\r
+                    out.append(s[i].getSequence(start, s[i].getLength()) + "\n");\r
                  }\r
              }\r
  \r