Merge branch 'releases/Release_2_11_1_Branch' into merge/JAL_1842+JAL-3509+releases_R...
[jalview.git] / src / jalview / analysis / Finder.java
index 3cbef6d..c545c7f 100644 (file)
@@ -23,17 +23,18 @@ package jalview.analysis;
 import jalview.api.AlignViewportI;
 import jalview.api.FinderI;
 import jalview.datamodel.AlignmentI;
-import jalview.datamodel.Range;
 import jalview.datamodel.SearchResultMatchI;
 import jalview.datamodel.SearchResults;
 import jalview.datamodel.SearchResultsI;
 import jalview.datamodel.SequenceGroup;
 import jalview.datamodel.SequenceI;
-import jalview.datamodel.VisibleContigsIterator;
 import jalview.util.Comparison;
+import jalview.util.MapList;
 
+import java.util.ArrayList;
+import java.util.Arrays;
+import java.util.Iterator;
 import java.util.List;
-import java.util.Vector;
 
 import com.stevesoft.pat.Regex;
 
@@ -50,7 +51,7 @@ public class Finder implements FinderI
   /*
    * sequences matched by id or description
    */
-  private Vector<SequenceI> idMatches;
+  private List<SequenceI> idMatches;
 
   /*
    * the viewport to search over
@@ -63,11 +64,24 @@ public class Finder implements FinderI
   private int sequenceIndex;
 
   /*
-   * column position in sequence to search from, base 0
-   * - absolute column number including any hidden columns
-   * (position after start of last match for a repeat search)
+   * position offset in sequence to search from, base 0
+   * (position after start of last match for a 'find next')
    */
-  private int columnIndex;
+  private int residueIndex;
+
+  /*
+   * the true sequence position of the start of the 
+   * last sequence searched (when 'ignore hidden regions' does not apply)
+   */
+  private int searchedSequenceStartPosition;
+
+  /*
+   * when 'ignore hidden regions' applies, this holds the mapping from
+   * the visible sequence positions (1, 2, ...) to true sequence positions
+   */
+  private MapList searchedSequenceMap;
+
+  private String seqToSearch;
 
   /**
    * Constructor for searching a viewport
@@ -78,33 +92,35 @@ public class Finder implements FinderI
   {
     this.viewport = av;
     this.sequenceIndex = 0;
-    this.columnIndex = -1;
+    this.residueIndex = -1;
   }
 
   @Override
   public void findAll(String theSearchString, boolean matchCase,
-          boolean searchDescription)
+          boolean searchDescription, boolean ignoreHidden)
   {
     /*
      * search from the start
      */
     sequenceIndex = 0;
-    columnIndex = -1;
+    residueIndex = -1;
 
-    doFind(theSearchString, matchCase, searchDescription, true);
+    doFind(theSearchString, matchCase, searchDescription, true,
+            ignoreHidden);
 
     /*
      * reset to start for next search
      */
     sequenceIndex = 0;
-    columnIndex = -1;
+    residueIndex = -1;
   }
 
   @Override
   public void findNext(String theSearchString, boolean matchCase,
-          boolean searchDescription)
+          boolean searchDescription, boolean ignoreHidden)
   {
-    doFind(theSearchString, matchCase, searchDescription, false);
+    doFind(theSearchString, matchCase, searchDescription, false,
+            ignoreHidden);
     
     if (searchResults.isEmpty() && idMatches.isEmpty())
     {
@@ -112,7 +128,7 @@ public class Finder implements FinderI
        * search failed - reset to start for next search
        */
       sequenceIndex = 0;
-      columnIndex = -1;
+      residueIndex = -1;
     }
   }
 
@@ -123,18 +139,19 @@ public class Finder implements FinderI
    * @param matchCase
    * @param searchDescription
    * @param findAll
+   * @param ignoreHidden
    */
   protected void doFind(String theSearchString, boolean matchCase,
-          boolean searchDescription, boolean findAll)
+          boolean searchDescription, boolean findAll, boolean ignoreHidden)
   {
+    searchResults = new SearchResults();
+    idMatches = new ArrayList<>();
+
     String searchString = matchCase ? theSearchString
             : theSearchString.toUpperCase();
     Regex searchPattern = new Regex(searchString);
     searchPattern.setIgnoreCase(!matchCase);
 
-    searchResults = new SearchResults();
-    idMatches = new Vector<>();
-
     SequenceGroup selection = viewport.getSelectionGroup();
     if (selection != null && selection.getSize() < 1)
     {
@@ -144,108 +161,202 @@ public class Finder implements FinderI
     AlignmentI alignment = viewport.getAlignment();
     int end = alignment.getHeight();
 
-    while (sequenceIndex < end)
+    getSequence(ignoreHidden);
+
+    boolean found = false;
+    while ((!found || findAll) && sequenceIndex < end)
     {
-      SequenceI seq = alignment.getSequenceAt(sequenceIndex);
-      boolean found = findNextMatch(seq, searchString, searchPattern,
-              searchDescription);
-      if (found && !findAll)
+      found = findNextMatch(searchString, searchPattern, searchDescription,
+              ignoreHidden);
+    }
+  }
+
+  /**
+   * Calculates and saves the sequence string to search. The string is restricted
+   * to the current selection region if there is one, and is saved with all gaps
+   * removed.
+   * <p>
+   * If there are hidden columns, and option {@ignoreHidden} is selected, then
+   * only visible positions of the sequence are included, and a mapping is also
+   * constructed from the returned string positions to the true sequence
+   * positions.
+   * <p>
+   * Note we have to do this each time {@code findNext} or {@code findAll} is
+   * called, in case the alignment, selection group or hidden columns have
+   * changed. In particular, if the sequence at offset {@code sequenceIndex} in
+   * the alignment is (no longer) in the selection group, search is advanced to
+   * the next sequence that is.
+   * <p>
+   * Sets sequence string to the empty string if there are no more sequences (in
+   * selection group if any) at or after {@code sequenceIndex}.
+   * <p>
+   * Returns true if a sequence could be found, false if end of alignment was
+   * reached
+   * 
+   * @param ignoreHidden
+   * @return
+   */
+  private boolean getSequence(boolean ignoreHidden)
+  {
+    AlignmentI alignment = viewport.getAlignment();
+    if (sequenceIndex >= alignment.getHeight())
+    {
+      seqToSearch = "";
+      return false;
+    }
+    SequenceI seq = alignment.getSequenceAt(sequenceIndex);
+    SequenceGroup selection = viewport.getSelectionGroup();
+    if (selection != null && !selection.contains(seq))
+    {
+      if (!nextSequence(ignoreHidden))
       {
-        return;
+        return false;
       }
-      if (!found)
+      seq = alignment.getSequenceAt(sequenceIndex);
+    }
+
+    String seqString = null;
+    if (ignoreHidden)
+    {
+      seqString = getVisibleSequence(seq);
+      this.searchedSequenceStartPosition = 1;
+    }
+    else
+    {
+      int startCol = 0;
+      int endCol = seq.getLength() - 1;
+      this.searchedSequenceStartPosition = seq.getStart();
+      if (selection != null)
       {
-        sequenceIndex++;
-        columnIndex = -1;
+        startCol = selection.getStartRes();
+        endCol = Math.min(endCol, selection.getEndRes());
+        this.searchedSequenceStartPosition = seq.findPosition(startCol);
       }
+      seqString = seq.getSequenceAsString(startCol, endCol + 1);
     }
+
+    /*
+     * remove gaps; note that even if this leaves an empty string, we 'search'
+     * the sequence anyway (for possible match on name or description)
+     */
+    String ungapped = AlignSeq.extractGaps(Comparison.GapChars, seqString);
+    this.seqToSearch = ungapped;
+
+    return true;
   }
 
   /**
-   * Answers the start-end column range of the visible region of
-   * <code>sequence</code> starting at or after the given <code>column</code>.
-   * If there are no hidden columns, this just returns the remaining width of
-   * the sequence. The range is restricted to the current <code>selection</code>
-   * if there is one. Answers null if there are no visible columns at or after
-   * <code>column</code>.
+   * Returns a string consisting of only the visible residues of {@code seq} from
+   * alignment column {@ fromColumn}, restricted to the current selection region
+   * if there is one.
+   * <p>
+   * As a side-effect, also computes the mapping from the true sequence positions
+   * to the positions (1, 2, ...) of the returned sequence. This is to allow
+   * search matches in the visible sequence to be converted to sequence positions.
+   * 
+   * @param seq
+   * @return
    */
-  protected Range getNextVisibleSequenceRegion(SequenceI sequence,
-          int column)
+  private String getVisibleSequence(SequenceI seq)
   {
-    int seqColStart = column;
-    int seqColEnd = sequence.getLength() - 1;
-
     /*
-     * restrict search to (next) visible column region, 
-     * in case there are hidden columns
+     * get start / end columns of sequence and convert to base 0
+     * (so as to match the visible column ranges)
      */
-    AlignmentI alignment = viewport.getAlignment();
-    VisibleContigsIterator visibleRegions = alignment.getHiddenColumns()
-            .getVisContigsIterator(column, alignment.getWidth(),
-                    false);
-    int[] visible = visibleRegions.hasNext() ? visibleRegions.next() : null;
-    if (visible == null)
-    {
-      columnIndex = seqColEnd + 1;
-      return null;
-    }
-    seqColStart = Math.max(seqColStart, visible[0]);
-    seqColEnd = Math.min(seqColEnd, visible[1]);
+    int seqStartCol = seq.findIndex(seq.getStart()) - 1;
+    int seqEndCol = seq.findIndex(seq.getStart() + seq.getLength() - 1) - 1;
+    Iterator<int[]> visibleColumns = viewport.getViewAsVisibleContigs(true);
+    StringBuilder visibleSeq = new StringBuilder(seqEndCol - seqStartCol);
+    List<int[]> fromRanges = new ArrayList<>();
 
-    /*
-     * restrict search to selected region if there is one
-     */
-    SequenceGroup selection = viewport.getSelectionGroup();
-    if (selection != null)
+    while (visibleColumns.hasNext())
     {
-      int selectionStart = selection.getStartRes();
-      int selectionEnd = selection.getEndRes();
-      if (selectionStart > seqColEnd || selectionEnd < seqColStart)
+      int[] range = visibleColumns.next();
+      if (range[0] > seqEndCol)
+      {
+        // beyond the end of the sequence
+        break;
+      }
+      if (range[1] < seqStartCol)
+      {
+        // before the start of the sequence
+        continue;
+      }
+      String subseq = seq.getSequenceAsString(range[0], range[1] + 1);
+      String ungapped = AlignSeq.extractGaps(Comparison.GapChars, subseq);
+      visibleSeq.append(ungapped);
+      if (!ungapped.isEmpty())
       {
         /*
-         * sequence region doesn't overlap selection region 
+         * visible region includes at least one non-gap character,
+         * so add the range to the mapping being constructed
          */
-        columnIndex = seqColEnd + 1;
-        return null;
+        int seqResFrom = seq.findPosition(range[0]);
+        int seqResTo = seqResFrom + ungapped.length() - 1;
+        fromRanges.add(new int[] { seqResFrom, seqResTo });
       }
-      seqColStart = Math.max(seqColStart, selectionStart);
-      seqColEnd = Math.min(seqColEnd, selectionEnd);
     }
 
-    return new Range(seqColStart, seqColEnd);
+    /*
+     * construct the mapping
+     * from: visible sequence positions 1..length
+     * to:   true residue positions of the alignment sequence
+     */
+    List<int[]> toRange = Arrays
+            .asList(new int[]
+            { 1, visibleSeq.length() });
+    searchedSequenceMap = new MapList(fromRanges, toRange, 1, 1);
+
+    return visibleSeq.toString();
   }
 
   /**
-   * Finds the next match in the given sequence, starting at column at
-   * <code>columnIndex</code>. Answers true if a match is found, else false. If
-   * a match is found, <code>columnIndex</code> is advanced to the column after
-   * the start of the matched region, ready for a search from the next position.
+   * Advances the search to the next sequence in the alignment. Sequences not in
+   * the current selection group (if there is one) are skipped. The (sub-)sequence
+   * to be searched is extracted, gaps removed, and saved, or set to null if there
+   * are no more sequences to search.
+   * <p>
+   * Returns true if a sequence could be found, false if end of alignment was
+   * reached
    * 
-   * @param seq
+   * @param ignoreHidden
+   */
+  private boolean nextSequence(boolean ignoreHidden)
+  {
+    sequenceIndex++;
+    residueIndex = -1;
+
+    return getSequence(ignoreHidden);
+  }
+
+  /**
+   * Finds the next match in the given sequence, starting at offset
+   * {@code residueIndex}. Answers true if a match is found, else false.
+   * <p>
+   * If a match is found, {@code residueIndex} is advanced to the position after
+   * the start of the matched region, ready for the next search.
+   * <p>
+   * If no match is found, {@code sequenceIndex} is advanced ready to search the
+   * next sequence.
+   * 
+   * @param seqToSearch
    * @param searchString
    * @param searchPattern
    * @param matchDescription
+   * @param ignoreHidden
    * @return
    */
-  protected boolean findNextMatch(SequenceI seq, String searchString,
-          Regex searchPattern, boolean matchDescription)
+  protected boolean findNextMatch(String searchString,
+          Regex searchPattern, boolean matchDescription,
+          boolean ignoreHidden)
   {
-    SequenceGroup selection = viewport.getSelectionGroup();
-    if (selection != null && !selection.contains(seq))
-    {
-      /*
-       * this sequence is not in the selection - advance to next sequence
-       */
-      return false;
-    }
-
-    if (columnIndex < 0)
+    if (residueIndex < 0)
     {
       /*
        * at start of sequence; try find by residue number, in sequence id,
        * or (optionally) in sequence description
        */
-      if (doNonMotifSearches(seq, searchString, searchPattern,
+      if (doNonMotifSearches(searchString, searchPattern,
               matchDescription))
       {
         return true;
@@ -255,83 +366,66 @@ public class Finder implements FinderI
     /*
      * search for next match in sequence string
      */
-    int end = seq.getLength();
-    while (columnIndex < end)
+    int end = seqToSearch.length();
+    while (residueIndex < end)
     {
-      if (searchNextVisibleRegion(seq, searchPattern))
+      boolean matched = searchPattern.searchFrom(seqToSearch, residueIndex);
+      if (matched)
       {
-        return true;
+        if (recordMatch(searchPattern, ignoreHidden))
+        {
+          return true;
+        }
+      }
+      else
+      {
+        residueIndex = Integer.MAX_VALUE;
       }
-    }
-    return false;
-  }
-
-  /**
-   * Searches the sequence, starting from <code>columnIndex</code>, and adds the
-   * next match (if any) to <code>searchResults</code>. The search is restricted
-   * to the next visible column region, and to the <code>selection</code> region
-   * if there is one. Answers true if a match is added, else false.
-   * 
-   * @param seq
-   * @param searchPattern
-   * @return
-   */
-  protected boolean searchNextVisibleRegion(SequenceI seq, Regex searchPattern)
-  {
-    Range visible = getNextVisibleSequenceRegion(seq, columnIndex);
-    if (visible == null)
-    {
-      return false;
-    }
-    String seqString = seq.getSequenceAsString(visible.start, visible.end + 1);
-    String noGaps = AlignSeq.extractGaps(Comparison.GapChars, seqString);
-
-    if (searchPattern.search(noGaps))
-    {
-      int sequenceStartPosition = seq.findPosition(visible.start);
-      recordMatch(seq, searchPattern, sequenceStartPosition);
-      return true;
-    }
-    else
-    {
-      /*
-       * no match - advance columnIndex past this visible region
-       * so the next visible region (if any) is searched next
-       */
-      columnIndex = visible.end + 1;
     }
 
+    nextSequence(ignoreHidden);
     return false;
   }
 
   /**
    * Adds the match held in the <code>searchPattern</code> Regex to the
    * <code>searchResults</code>, unless it is a subregion of the last match
-   * recorded. <code>columnIndex</code> is advanced to the position after the
+   * recorded. <code>residueIndex</code> is advanced to the position after the
    * start of the matched region, ready for the next search. Answers true if a
    * match was added, else false.
+   * <p>
+   * Matches that lie entirely within hidden regions of the alignment are not
+   * added.
    * 
-   * @param seq
    * @param searchPattern
-   * @param firstResiduePosition
+   * @param ignoreHidden
    * @return
    */
-  protected boolean recordMatch(SequenceI seq, Regex searchPattern,
-          int firstResiduePosition)
+  protected boolean recordMatch(Regex searchPattern, boolean ignoreHidden)
   {
+    SequenceI seq = viewport.getAlignment().getSequenceAt(sequenceIndex);
+
     /*
-     * get start/end of the match in sequence coordinates
+     * convert start/end of the match to sequence coordinates
      */
     int offset = searchPattern.matchedFrom();
-    int matchStartPosition = firstResiduePosition + offset;
+    int matchStartPosition = this.searchedSequenceStartPosition + offset;
     int matchEndPosition = matchStartPosition
             + searchPattern.charsMatched() - 1;
 
     /*
-     * update columnIndex to next column after the start of the match
+     * update residueIndex to next position after the start of the match
      * (findIndex returns a value base 1, columnIndex is held base 0)
      */
-    columnIndex = seq.findIndex(matchStartPosition);
+    residueIndex += offset + 1;
+
+    /*
+     * return false if the match is entirely in a hidden region
+     */
+    if (allHidden(seq, matchStartPosition, matchEndPosition))
+    {
+      return false;
+    }
 
     /*
      * check that this match is not a subset of the previous one (JAL-2302)
@@ -343,7 +437,7 @@ public class Finder implements FinderI
     if (lastMatch == null || !lastMatch.contains(seq, matchStartPosition,
             matchEndPosition))
     {
-      searchResults.addResult(seq, matchStartPosition, matchEndPosition);
+      addMatch(seq, matchStartPosition, matchEndPosition, ignoreHidden);
       return true;
     }
 
@@ -351,6 +445,60 @@ public class Finder implements FinderI
   }
 
   /**
+   * Adds one match to the stored list. If hidden residues are being skipped, then
+   * the match may need to be split into contiguous positions of the sequence (so
+   * it does not include skipped residues).
+   * 
+   * @param seq
+   * @param matchStartPosition
+   * @param matchEndPosition
+   * @param ignoreHidden
+   */
+  private void addMatch(SequenceI seq, int matchStartPosition,
+          int matchEndPosition, boolean ignoreHidden)
+  {
+    if (!ignoreHidden)
+    {
+      /*
+       * simple case
+       */
+      searchResults.addResult(seq, matchStartPosition, matchEndPosition);
+      return;
+    }
+
+    /*
+     *  get start-end contiguous ranges in underlying sequence
+     */
+    int[] truePositions = searchedSequenceMap
+            .locateInFrom(matchStartPosition, matchEndPosition);
+    searchResults.addResult(seq, truePositions);
+  }
+
+  /**
+   * Returns true if all residues are hidden, else false
+   * 
+   * @param seq
+   * @param fromPos
+   * @param toPos
+   * @return
+   */
+  private boolean allHidden(SequenceI seq, int fromPos, int toPos)
+  {
+    if (!viewport.hasHiddenColumns())
+    {
+      return false;
+    }
+    for (int res = fromPos; res <= toPos; res++)
+    {
+      if (isVisible(seq, res))
+      {
+        return false;
+      }
+    }
+    return true;
+  }
+
+  /**
    * Does searches other than for residue patterns. Currently this includes
    * <ul>
    * <li>find residue by position (if search string is a number)</li>
@@ -359,24 +507,29 @@ public class Finder implements FinderI
    * </ul>
    * Answers true if a match is found, else false.
    * 
-   * @param seq
    * @param searchString
    * @param searchPattern
    * @param includeDescription
    * @return
    */
-  protected boolean doNonMotifSearches(SequenceI seq, String searchString,
+  protected boolean doNonMotifSearches(String searchString,
           Regex searchPattern, boolean includeDescription)
   {
+    SequenceI seq = viewport.getAlignment().getSequenceAt(sequenceIndex);
+
     /*
      * position sequence search to start of sequence
      */
-    columnIndex = 0;
-
-    if (searchForResidueNumber(seq, searchString))
+    residueIndex = 0;
+    try
     {
-      return true;
+      int res = Integer.parseInt(searchString);
+      return searchForResidueNumber(seq, res);
+    } catch (NumberFormatException ex)
+    {
+      // search pattern is not a number
     }
+
     if (searchSequenceName(seq, searchPattern))
     {
       return true;
@@ -402,7 +555,7 @@ public class Finder implements FinderI
     String desc = seq.getDescription();
     if (desc != null && searchPattern.search(desc) && !idMatches.contains(seq))
     {
-      idMatches.addElement(seq);
+      idMatches.add(seq);
       return true;
     }
     return false;
@@ -421,45 +574,56 @@ public class Finder implements FinderI
   {
     if (searchPattern.search(seq.getName()) && !idMatches.contains(seq))
     {
-      idMatches.addElement(seq);
+      idMatches.add(seq);
       return true;
     }
     return false;
   }
 
   /**
-   * Tries to interpret the search string as a residue position, and if valid,
-   * adds the position to the search results and returns true, else answers
-   * false
+   * If the residue position is valid for the sequence, and in a visible column,
+   * adds the position to the search results and returns true, else answers false.
+   * 
+   * @param seq
+   * @param resNo
+   * @return
    */
-  protected boolean searchForResidueNumber(SequenceI seq, String searchString)
+  protected boolean searchForResidueNumber(SequenceI seq, int resNo)
   {
-    try
+    if (seq.getStart() <= resNo && seq.getEnd() >= resNo)
     {
-      int res = Integer.parseInt(searchString);
-      if (seq.getStart() <= res && seq.getEnd() >= res)
+      if (isVisible(seq, resNo))
       {
-        searchResults.addResult(seq, res, res);
+        searchResults.addResult(seq, resNo, resNo);
         return true;
       }
-    } catch (NumberFormatException ex)
-    {
     }
     return false;
   }
 
-  /* (non-Javadoc)
-   * @see jalview.analysis.FinderI#getIdMatch()
+  /**
+   * Returns true if the residue is in a visible column, else false
+   * 
+   * @param seq
+   * @param res
+   * @return
    */
+  private boolean isVisible(SequenceI seq, int res)
+  {
+    if (!viewport.hasHiddenColumns())
+    {
+      return true;
+    }
+    int col = seq.findIndex(res); // base 1
+    return viewport.getAlignment().getHiddenColumns().isVisible(col - 1); // base 0
+  }
+
   @Override
-  public Vector<SequenceI> getIdMatches()
+  public List<SequenceI> getIdMatches()
   {
     return idMatches;
   }
 
-  /* (non-Javadoc)
-   * @see jalview.analysis.FinderI#getSearchResults()
-   */
   @Override
   public SearchResultsI getSearchResults()
   {