JAL-3529 preferentially output source dbrefs or principle db for sequence type before...
[jalview.git] / src / jalview / io / StockholmFile.java
index 71e369e..c3b0a69 100644 (file)
@@ -28,12 +28,14 @@ import jalview.datamodel.AlignmentAnnotation;
 import jalview.datamodel.AlignmentI;
 import jalview.datamodel.Annotation;
 import jalview.datamodel.DBRefEntry;
+import jalview.datamodel.DBRefSource;
 import jalview.datamodel.Mapping;
 import jalview.datamodel.Sequence;
 import jalview.datamodel.SequenceFeature;
 import jalview.datamodel.SequenceI;
 import jalview.schemes.ResidueProperties;
 import jalview.util.Comparison;
+import jalview.util.DBRefUtils;
 import jalview.util.Format;
 import jalview.util.MessageManager;
 
@@ -83,7 +85,13 @@ public class StockholmFile extends AlignFile
   public static final Regex DETECT_BRACKETS = new Regex(
           "(<|>|\\[|\\]|\\(|\\)|\\{|\\})");
 
-  public static final String RNASS_BRACKETS = "<>[]() {}AaBbCcDdEeFfGgHhIiJjKkLlMmNnOoPpQqRrSsTtUuVvWwXxYyZz";
+  // WUSS extended symbols. Avoid ambiguity with protein SS annotations by using NOT_RNASS first.
+  public static final String RNASS_BRACKETS = "<>[](){}AaBbCcDdEeFfGgHhIiJjKkLlMmNnOoPpQqRrSsTtUuVvWwXxYyZz";
+
+  // use the following regex to decide an annotations (whole) line is NOT an RNA
+  // SS (it contains only E,H,e,h and other non-brace/non-alpha chars)
+  private static final Regex NOT_RNASS = new Regex(
+          "^[^<>[\\](){}A-DF-Za-df-z]*$");
 
   StringBuffer out; // output buffer
 
@@ -816,12 +824,6 @@ public class StockholmFile extends AlignFile
     // convert1 = OPEN_PAREN.replaceAll(annots);
     // convert2 = CLOSE_PAREN.replaceAll(convert1);
     // annots = convert2;
-    
-    // DEBUG
-    System.out.println(
-            "*** parseAnnotationRow called with\n      annotation='"
-                    + annotation + "'\n      label='" + label
-                    + "'\n      annots='" + annots + "'");
 
     String type = label;
     if (label.contains("_cons"))
@@ -837,7 +839,9 @@ public class StockholmFile extends AlignFile
     if (type.equalsIgnoreCase("secondary structure"))
     {
       ss = true;
-      isrnass = DETECT_BRACKETS.search(annots);
+      isrnass = !NOT_RNASS.search(annots); // sorry about the double negative
+                                           // here (it's easier for dealing with
+                                           // other non-alpha-non-brace chars)
     }
     if (type.equalsIgnoreCase("posterior probability"))
     {
@@ -928,6 +932,11 @@ public class StockholmFile extends AlignFile
     return annot;
   }
 
+  private String dbref_to_ac_record(DBRefEntry ref)
+  {
+    return ref.getSource().toString() + " ; "
+            + ref.getAccessionId().toString();
+  }
   @Override
   public String print(SequenceI[] s, boolean jvSuffix)
   {
@@ -942,6 +951,7 @@ public class StockholmFile extends AlignFile
     Hashtable dataRef = null;
     while ((in < s.length) && (s[in] != null))
     {
+      boolean isAA = s[in].isProtein();
       String tmp = printId(s[in], jvSuffix);
       max = Math.max(max, s[in].getLength());
 
@@ -951,17 +961,33 @@ public class StockholmFile extends AlignFile
       }
       if (s[in].getDBRefs() != null)
       {
-        for (int idb = 0; idb < s[in].getDBRefs().length; idb++)
+        if (dataRef == null)
+        {
+          dataRef = new Hashtable();
+        }
+        List<DBRefEntry> primrefs = s[in].getPrimaryDBRefs();
+        if (primrefs.size() >= 1)
         {
-          if (dataRef == null)
+          dataRef.put(tmp, dbref_to_ac_record(primrefs.get(0)));
+        }
+        else
+        {
+          for (int idb = 0; idb < s[in].getDBRefs().length; idb++)
           {
-            dataRef = new Hashtable();
+            DBRefEntry dbref = s[in].getDBRefs()[idb];
+            dataRef.put(tmp, dbref_to_ac_record(dbref));
+            // if we put in a uniprot or EMBL record then we're done:
+            if (isAA && DBRefSource.UNIPROT
+                    .equals(DBRefUtils.getCanonicalName(dbref.getSource())))
+            {
+              break;
+            }
+            if (!isAA && DBRefSource.EMBL
+                    .equals(DBRefUtils.getCanonicalName(dbref.getSource())))
+            {
+              break;
+            }
           }
-
-          String datAs1 = s[in].getDBRefs()[idb].getSource().toString()
-                  + " ; "
-                  + s[in].getDBRefs()[idb].getAccessionId().toString();
-          dataRef.put(tmp, datAs1);
         }
       }
       in++;
@@ -1019,9 +1045,7 @@ public class StockholmFile extends AlignFile
 
           String key = type2id(alAnot[j].label);
           boolean isrna = alAnot[j].isValidStruc();
-          // bs debug
-          System.out.println("SEQUENCE " + i + "/" + s.length + " ISRNA="
-                  + isrna + ".");
+
           if (isrna)
           {
             // hardwire to secondary structure if there is RNA secondary
@@ -1043,9 +1067,6 @@ public class StockholmFile extends AlignFile
           {
             seq += outputCharacter(key, k, isrna, ann, s[i]);
           }
-          // bs debug
-          System.out.println("APPENDING SEQ: KEY=" + key + " ISRNA=" + isrna
-                  + ".\n" + "SEQ=" + seq + "\n");
           out.append(seq);
           out.append(newline);
         }
@@ -1054,8 +1075,6 @@ public class StockholmFile extends AlignFile
       out.append(new Format("%-" + maxid + "s")
               .form(printId(s[i], jvSuffix) + " "));
       out.append(s[i].getSequenceAsString());
-      // bs debug
-      System.out.println("ALSO APPENDING " + s[i].getSequenceAsString());
       out.append(newline);
       i++;
     }
@@ -1103,12 +1122,6 @@ public class StockholmFile extends AlignFile
         {
           seq += outputCharacter(key, j, isrna, aa.annotations, null);
         }
-        
-        // bs debug
-        System.out.println(
-                "PRINTING SEQ: KEY=" + key + " ISRNA=" + isrna + ".\n"
-                        + "SEQ=" + seq + "\n");
-        
         out.append(seq);
         out.append(newline);
       }
@@ -1138,7 +1151,13 @@ public class StockholmFile extends AlignFile
     String ch = (annot == null)
             ? ((sequenceI == null) ? "-"
                     : Character.toString(sequenceI.getCharAt(k)))
-            : annot.displayCharacter;
+            : (annot.displayCharacter == null
+                    ? String.valueOf(annot.secondaryStructure)
+                    : annot.displayCharacter);
+    if (ch == null)
+    {
+      ch = " ";
+    }
     if (key != null && key.equals("SS"))
     {
       char ssannotchar = ' ';
@@ -1160,11 +1179,7 @@ public class StockholmFile extends AlignFile
       }
       if (charset)
       {
-        if (ssannotchar == ' ' && isrna)
-        {
-          ssannotchar = '.';
-        }
-        return ssannotchar;
+        return (ssannotchar == ' ' && isrna) ? '.' : ssannotchar;
       }
     }