JAL-1965 refactored SeqIdName to public class, and more tests for word generation
[jalview.git] / src / jalview / analysis / SequenceIdMatcher.java
index 0fde224..c0981a1 100755 (executable)
@@ -59,7 +59,7 @@ public class SequenceIdMatcher
    * arbritrarily extended sequence id's (like portions of an aligned set of
    * repeats from one sequence)
    */
-  private static String WORD_SEP = "~. |#\\/<>!\"" + ((char) 0x00A4)
+  static String WORD_SEP = "~. |#\\/<>!\"" + ((char) 0x00A4)
           + "$%^*)}[@',?_";
 
   /**
@@ -161,7 +161,7 @@ public class SequenceIdMatcher
    * @param seq
    * @return list of split keys
    */
-  public List<SeqIdName> getWordsFor(SequenceI seq)
+  public static List<SeqIdName> getWordsFor(SequenceI seq)
   {
     ArrayList<SeqIdName> keys = new ArrayList<SeqIdName>();
     String name = seq.getName(), limits = "/" + seq.getStart() + "-"
@@ -273,18 +273,23 @@ public class SequenceIdMatcher
       // if not closer, then check if current best is actually identical in case
       // as
       // well
-      if (is_closer || (!candName.equalsCase(best.get(0).getName())))
+      if (is_closer
+              || (candName.equalsCase(cand.getName()) && !candName
+                      .equalsCase(best.get(0).getName())))
       {
         best.clear();
         match = cand;
         matchlen = candlen;
         best.add(match);
       }
-      if (q == w && candlen == matchlen)
+      else
       {
-        // equivalently good, and matches with case as well. so
-        // record any ties
-        best.add(cand);
+        if (q == w && candlen == matchlen)
+        {
+          // equivalently good, and matches with case as well. so
+          // record any ties
+          best.add(cand);
+        }
       }
     }
     if (best.size() == 0)
@@ -378,7 +383,7 @@ public class SequenceIdMatcher
    * @return SequenceI
    */
   private SequenceI findIdMatch(
-          jalview.analysis.SequenceIdMatcher.SeqIdName nam)
+          jalview.analysis.SeqIdName nam)
   {
     ArrayList<SequenceI> matches = new ArrayList<SequenceI>();
     while (names.containsKey(nam))
@@ -396,7 +401,7 @@ public class SequenceIdMatcher
    * @return SequenceI[]
    */
   private List<SequenceI> findAllIdMatches(
-          jalview.analysis.SequenceIdMatcher.SeqIdName nam)
+          jalview.analysis.SeqIdName nam)
   {
     ArrayList<SequenceI> matches = new ArrayList<SequenceI>();
     while (names.containsKey(nam))
@@ -406,147 +411,4 @@ public class SequenceIdMatcher
     List<SequenceI> r = pickbestMatches(nam, matches);
     return r;
   }
-
-  private class SeqIdName
-  {
-    String id, origid;
-
-    SeqIdName(String s)
-    {
-      if (s != null)
-      {
-        id = new String(s).toLowerCase();
-        origid = new String(s);
-      }
-      else
-      {
-        id = "";
-      }
-    }
-
-    @Override
-    public int hashCode()
-    {
-      return ((id.length() >= 4) ? id.substring(0, 4).hashCode() : id
-              .hashCode());
-    }
-
-    @Override
-    public boolean equals(Object s)
-    {
-      if (s == null)
-      {
-        return false;
-      }
-      if (s instanceof SeqIdName)
-      {
-        return this.equals((SeqIdName) s);
-      }
-      else
-      {
-        if (s instanceof String)
-        {
-          return this.equals((String) s);
-        }
-      }
-
-      return false;
-    }
-
-    /**
-     * matches if one ID properly contains another at a whitespace boundary.
-     * TODO: (JBPNote) These are not efficient. should use char[] for speed
-     * todo: (JBPNote) Set separator characters appropriately
-     * 
-     * @param s
-     *          SeqIdName
-     * @return boolean
-     */
-    public boolean equals(SeqIdName s)
-    {
-      // TODO: JAL-732 patch for cases when name includes a list of IDs, and the
-      // match contains one ID flanked
-      if (id.length() > s.id.length())
-      {
-        return check_wordmatch(id, s.id);
-      }
-      else
-      {
-        return check_wordmatch(s.id, id);
-      }
-    }
-
-    private boolean check_wordmatch(String longer, String shorter)
-    {
-      boolean elen = longer.length() == shorter.length();
-      int sp = longer.indexOf(shorter);
-      if (sp == -1)
-      {
-        return false;
-      }
-
-      if (sp == 0)
-      {
-        // end of match is word boundary
-        return elen ? true : (WORD_SEP.indexOf(longer.charAt(shorter
-                .length() + sp)) > -1);
-      }
-      if (WORD_SEP.indexOf(longer.charAt(sp - 1)) > -1)
-      {
-        if (sp + shorter.length() == longer.length())
-        {
-          return true;
-        }
-        else
-        {
-          // end of match is word boundary
-          return elen ? false
-                  : sp + shorter.length() == longer.length() ? true
-                          : (WORD_SEP.indexOf(longer.charAt(shorter
-                                  .length() + sp)) > -1);
-        }
-      }
-      else
-      {
-        // prefix of match is not a word boundary
-        return false;
-      }
-    }
-
-    public boolean equals(String s)
-    {
-      s = s.toLowerCase(); // TODO: employ faster to lower case operation
-      if (id.length() > s.length())
-      {
-        return check_wordmatch(id, s);
-      }
-      else
-      {
-        return check_wordmatch(s, id);
-      }
-    }
-
-    @Override
-    public String toString()
-    {
-      return id;
-    }
-
-    public boolean equalsCase(String s)
-    {
-      if (origid.length() > s.length())
-      {
-        return check_wordmatch(origid, s);
-      }
-      else
-      {
-        return check_wordmatch(s, origid);
-      }
-    }
-
-    public boolean equalsCase(SeqIdName sid)
-    {
-      return equalsCase(sid.origid);
-    }
-  }
 }