JAL-3490 match count independent of contiguous matches count
[jalview.git] / src / jalview / analysis / Finder.java
1 /*
2  * Jalview - A Sequence Alignment Editor and Viewer ($$Version-Rel$$)
3  * Copyright (C) $$Year-Rel$$ The Jalview Authors
4  * 
5  * This file is part of Jalview.
6  * 
7  * Jalview is free software: you can redistribute it and/or
8  * modify it under the terms of the GNU General Public License 
9  * as published by the Free Software Foundation, either version 3
10  * of the License, or (at your option) any later version.
11  *  
12  * Jalview is distributed in the hope that it will be useful, but 
13  * WITHOUT ANY WARRANTY; without even the implied warranty 
14  * of MERCHANTABILITY or FITNESS FOR A PARTICULAR 
15  * PURPOSE.  See the GNU General Public License for more details.
16  * 
17  * You should have received a copy of the GNU General Public License
18  * along with Jalview.  If not, see <http://www.gnu.org/licenses/>.
19  * The Jalview Authors are detailed in the 'AUTHORS' file.
20  */
21 package jalview.analysis;
22
23 import jalview.api.AlignViewportI;
24 import jalview.api.FinderI;
25 import jalview.datamodel.AlignmentI;
26 import jalview.datamodel.SearchResultMatchI;
27 import jalview.datamodel.SearchResults;
28 import jalview.datamodel.SearchResultsI;
29 import jalview.datamodel.SequenceGroup;
30 import jalview.datamodel.SequenceI;
31 import jalview.util.Comparison;
32 import jalview.util.MapList;
33
34 import java.util.ArrayList;
35 import java.util.Arrays;
36 import java.util.Iterator;
37 import java.util.List;
38
39 import com.stevesoft.pat.Regex;
40
41 /**
42  * Implements the search algorithm for the Find dialog
43  */
44 public class Finder implements FinderI
45 {
46   /*
47    * matched residue locations
48    */
49   private SearchResultsI searchResults;
50
51   /*
52    * sequences matched by id or description
53    */
54   private List<SequenceI> idMatches;
55
56   /*
57    * the viewport to search over
58    */
59   private AlignViewportI viewport;
60
61   /*
62    * sequence index in alignment to search from
63    */
64   private int sequenceIndex;
65
66   /*
67    * position offset in sequence to search from, base 0
68    * (position after start of last match for a 'find next')
69    */
70   private int residueIndex;
71
72   /*
73    * the true sequence position of the start of the 
74    * last sequence searched (when 'ignore hidden regions' does not apply)
75    */
76   private int searchedSequenceStartPosition;
77
78   /*
79    * when 'ignore hidden regions' applies, this holds the mapping from
80    * the visible sequence positions (1, 2, ...) to true sequence positions
81    */
82   private MapList searchedSequenceMap;
83
84   private String seqToSearch;
85
86   /**
87    * Constructor for searching a viewport
88    * 
89    * @param av
90    */
91   public Finder(AlignViewportI av)
92   {
93     this.viewport = av;
94     this.sequenceIndex = 0;
95     this.residueIndex = -1;
96   }
97
98   @Override
99   public void findAll(String theSearchString, boolean matchCase,
100           boolean searchDescription, boolean ignoreHidden)
101   {
102     /*
103      * search from the start
104      */
105     sequenceIndex = 0;
106     residueIndex = -1;
107
108     doFind(theSearchString, matchCase, searchDescription, true,
109             ignoreHidden);
110
111     /*
112      * reset to start for next search
113      */
114     sequenceIndex = 0;
115     residueIndex = -1;
116   }
117
118   @Override
119   public void findNext(String theSearchString, boolean matchCase,
120           boolean searchDescription, boolean ignoreHidden)
121   {
122     doFind(theSearchString, matchCase, searchDescription, false,
123             ignoreHidden);
124     
125     if (searchResults.isEmpty() && idMatches.isEmpty())
126     {
127       /*
128        * search failed - reset to start for next search
129        */
130       sequenceIndex = 0;
131       residueIndex = -1;
132     }
133   }
134
135   /**
136    * Performs a 'find next' or 'find all'
137    * 
138    * @param theSearchString
139    * @param matchCase
140    * @param searchDescription
141    * @param findAll
142    * @param ignoreHidden
143    */
144   protected void doFind(String theSearchString, boolean matchCase,
145           boolean searchDescription, boolean findAll, boolean ignoreHidden)
146   {
147     searchResults = new SearchResults();
148     idMatches = new ArrayList<>();
149
150     String searchString = matchCase ? theSearchString
151             : theSearchString.toUpperCase();
152     Regex searchPattern = new Regex(searchString);
153     searchPattern.setIgnoreCase(!matchCase);
154
155     SequenceGroup selection = viewport.getSelectionGroup();
156     if (selection != null && selection.getSize() < 1)
157     {
158       selection = null; // ? ignore column-only selection
159     }
160
161     AlignmentI alignment = viewport.getAlignment();
162     int end = alignment.getHeight();
163
164     getSequence(ignoreHidden);
165
166     boolean found = false;
167     while ((!found || findAll) && sequenceIndex < end)
168     {
169       found = findNextMatch(searchString, searchPattern, searchDescription,
170               ignoreHidden);
171     }
172   }
173
174   /**
175    * Calculates and saves the sequence string to search. The string is restricted
176    * to the current selection region if there is one, and is saved with all gaps
177    * removed.
178    * <p>
179    * If there are hidden columns, and option {@ignoreHidden} is selected, then
180    * only visible positions of the sequence are included, and a mapping is also
181    * constructed from the returned string positions to the true sequence
182    * positions.
183    * <p>
184    * Note we have to do this each time {@code findNext} or {@code findAll} is
185    * called, in case the alignment, selection group or hidden columns have
186    * changed. In particular, if the sequence at offset {@code sequenceIndex} in
187    * the alignment is (no longer) in the selection group, search is advanced to
188    * the next sequence that is.
189    * <p>
190    * Sets sequence string to the empty string if there are no more sequences (in
191    * selection group if any) at or after {@code sequenceIndex}.
192    * <p>
193    * Returns true if a sequence could be found, false if end of alignment was
194    * reached
195    * 
196    * @param ignoreHidden
197    * @return
198    */
199   private boolean getSequence(boolean ignoreHidden)
200   {
201     AlignmentI alignment = viewport.getAlignment();
202     if (sequenceIndex >= alignment.getHeight())
203     {
204       seqToSearch = "";
205       return false;
206     }
207     SequenceI seq = alignment.getSequenceAt(sequenceIndex);
208     SequenceGroup selection = viewport.getSelectionGroup();
209     if (selection != null && !selection.contains(seq))
210     {
211       if (!nextSequence(ignoreHidden))
212       {
213         return false;
214       }
215       seq = alignment.getSequenceAt(sequenceIndex);
216     }
217
218     String seqString = null;
219     if (ignoreHidden)
220     {
221       seqString = getVisibleSequence(seq);
222       this.searchedSequenceStartPosition = 1;
223     }
224     else
225     {
226       int startCol = 0;
227       int endCol = seq.getLength() - 1;
228       this.searchedSequenceStartPosition = seq.getStart();
229       if (selection != null)
230       {
231         startCol = selection.getStartRes();
232         endCol = Math.min(endCol, selection.getEndRes());
233         this.searchedSequenceStartPosition = seq.findPosition(startCol);
234       }
235       seqString = seq.getSequenceAsString(startCol, endCol + 1);
236     }
237
238     /*
239      * remove gaps; note that even if this leaves an empty string, we 'search'
240      * the sequence anyway (for possible match on name or description)
241      */
242     String ungapped = AlignSeq.extractGaps(Comparison.GapChars, seqString);
243     this.seqToSearch = ungapped;
244
245     return true;
246   }
247
248   /**
249    * Returns a string consisting of only the visible residues of {@code seq} from
250    * alignment column {@ fromColumn}, restricted to the current selection region
251    * if there is one.
252    * <p>
253    * As a side-effect, also computes the mapping from the true sequence positions
254    * to the positions (1, 2, ...) of the returned sequence. This is to allow
255    * search matches in the visible sequence to be converted to sequence positions.
256    * 
257    * @param seq
258    * @return
259    */
260   private String getVisibleSequence(SequenceI seq)
261   {
262     /*
263      * get start / end columns of sequence and convert to base 0
264      * (so as to match the visible column ranges)
265      */
266     int seqStartCol = seq.findIndex(seq.getStart()) - 1;
267     int seqEndCol = seq.findIndex(seq.getStart() + seq.getLength() - 1) - 1;
268     Iterator<int[]> visibleColumns = viewport.getViewAsVisibleContigs(true);
269     StringBuilder visibleSeq = new StringBuilder(seqEndCol - seqStartCol);
270     List<int[]> fromRanges = new ArrayList<>();
271
272     while (visibleColumns.hasNext())
273     {
274       int[] range = visibleColumns.next();
275       if (range[0] > seqEndCol)
276       {
277         // beyond the end of the sequence
278         break;
279       }
280       if (range[1] < seqStartCol)
281       {
282         // before the start of the sequence
283         continue;
284       }
285       String subseq = seq.getSequenceAsString(range[0], range[1] + 1);
286       String ungapped = AlignSeq.extractGaps(Comparison.GapChars, subseq);
287       visibleSeq.append(ungapped);
288       if (!ungapped.isEmpty())
289       {
290         /*
291          * visible region includes at least one non-gap character,
292          * so add the range to the mapping being constructed
293          */
294         int seqResFrom = seq.findPosition(range[0]);
295         int seqResTo = seqResFrom + ungapped.length() - 1;
296         fromRanges.add(new int[] { seqResFrom, seqResTo });
297       }
298     }
299
300     /*
301      * construct the mapping
302      * from: visible sequence positions 1..length
303      * to:   true residue positions of the alignment sequence
304      */
305     List<int[]> toRange = Arrays
306             .asList(new int[]
307             { 1, visibleSeq.length() });
308     searchedSequenceMap = new MapList(fromRanges, toRange, 1, 1);
309
310     return visibleSeq.toString();
311   }
312
313   /**
314    * Advances the search to the next sequence in the alignment. Sequences not in
315    * the current selection group (if there is one) are skipped. The (sub-)sequence
316    * to be searched is extracted, gaps removed, and saved, or set to null if there
317    * are no more sequences to search.
318    * <p>
319    * Returns true if a sequence could be found, false if end of alignment was
320    * reached
321    * 
322    * @param ignoreHidden
323    */
324   private boolean nextSequence(boolean ignoreHidden)
325   {
326     sequenceIndex++;
327     residueIndex = -1;
328
329     return getSequence(ignoreHidden);
330   }
331
332   /**
333    * Finds the next match in the given sequence, starting at offset
334    * {@code residueIndex}. Answers true if a match is found, else false.
335    * <p>
336    * If a match is found, {@code residueIndex} is advanced to the position after
337    * the start of the matched region, ready for the next search.
338    * <p>
339    * If no match is found, {@code sequenceIndex} is advanced ready to search the
340    * next sequence.
341    * 
342    * @param seqToSearch
343    * @param searchString
344    * @param searchPattern
345    * @param matchDescription
346    * @param ignoreHidden
347    * @return
348    */
349   protected boolean findNextMatch(String searchString,
350           Regex searchPattern, boolean matchDescription,
351           boolean ignoreHidden)
352   {
353     if (residueIndex < 0)
354     {
355       /*
356        * at start of sequence; try find by residue number, in sequence id,
357        * or (optionally) in sequence description
358        */
359       if (doNonMotifSearches(searchString, searchPattern,
360               matchDescription))
361       {
362         return true;
363       }
364     }
365
366     /*
367      * search for next match in sequence string
368      */
369     int end = seqToSearch.length();
370     while (residueIndex < end)
371     {
372       boolean matched = searchPattern.searchFrom(seqToSearch, residueIndex);
373       if (matched)
374       {
375         if (recordMatch(searchPattern, ignoreHidden))
376         {
377           return true;
378         }
379       }
380       else
381       {
382         residueIndex = Integer.MAX_VALUE;
383       }
384     }
385
386     nextSequence(ignoreHidden);
387     return false;
388   }
389
390   /**
391    * Adds the match held in the <code>searchPattern</code> Regex to the
392    * <code>searchResults</code>, unless it is a subregion of the last match
393    * recorded. <code>residueIndex</code> is advanced to the position after the
394    * start of the matched region, ready for the next search. Answers true if a
395    * match was added, else false.
396    * <p>
397    * Matches that lie entirely within hidden regions of the alignment are not
398    * added.
399    * 
400    * @param searchPattern
401    * @param ignoreHidden
402    * @return
403    */
404   protected boolean recordMatch(Regex searchPattern, boolean ignoreHidden)
405   {
406     SequenceI seq = viewport.getAlignment().getSequenceAt(sequenceIndex);
407
408     /*
409      * convert start/end of the match to sequence coordinates
410      */
411     int offset = searchPattern.matchedFrom();
412     int matchStartPosition = this.searchedSequenceStartPosition + offset;
413     int matchEndPosition = matchStartPosition
414             + searchPattern.charsMatched() - 1;
415
416     /*
417      * update residueIndex to next position after the start of the match
418      * (findIndex returns a value base 1, columnIndex is held base 0)
419      */
420     residueIndex += offset + 1;
421
422     /*
423      * return false if the match is entirely in a hidden region
424      */
425     if (allHidden(seq, matchStartPosition, matchEndPosition))
426     {
427       return false;
428     }
429
430     /*
431      * check that this match is not a subset of the previous one (JAL-2302)
432      */
433     List<SearchResultMatchI> matches = searchResults.getResults();
434     SearchResultMatchI lastMatch = matches.isEmpty() ? null
435             : matches.get(matches.size() - 1);
436
437     if (lastMatch == null || !lastMatch.contains(seq, matchStartPosition,
438             matchEndPosition))
439     {
440       addMatch(seq, matchStartPosition, matchEndPosition, ignoreHidden);
441       return true;
442     }
443
444     return false;
445   }
446
447   /**
448    * Adds one match to the stored list. If hidden residues are being skipped, then
449    * the match may need to be split into contiguous positions of the sequence (so
450    * it does not include skipped residues).
451    * 
452    * @param seq
453    * @param matchStartPosition
454    * @param matchEndPosition
455    * @param ignoreHidden
456    */
457   private void addMatch(SequenceI seq, int matchStartPosition,
458           int matchEndPosition, boolean ignoreHidden)
459   {
460     if (!ignoreHidden)
461     {
462       /*
463        * simple case
464        */
465       searchResults.addResult(seq, matchStartPosition, matchEndPosition);
466       return;
467     }
468
469     /*
470      *  get start-end contiguous ranges in underlying sequence
471      */
472     int[] truePositions = searchedSequenceMap
473             .locateInFrom(matchStartPosition, matchEndPosition);
474     searchResults.addResult(seq, truePositions);
475   }
476
477   /**
478    * Returns true if all residues are hidden, else false
479    * 
480    * @param seq
481    * @param fromPos
482    * @param toPos
483    * @return
484    */
485   private boolean allHidden(SequenceI seq, int fromPos, int toPos)
486   {
487     if (!viewport.hasHiddenColumns())
488     {
489       return false;
490     }
491     for (int res = fromPos; res <= toPos; res++)
492     {
493       if (isVisible(seq, res))
494       {
495         return false;
496       }
497     }
498     return true;
499   }
500
501   /**
502    * Does searches other than for residue patterns. Currently this includes
503    * <ul>
504    * <li>find residue by position (if search string is a number)</li>
505    * <li>match search string to sequence id</li>
506    * <li>match search string to sequence description (optional)</li>
507    * </ul>
508    * Answers true if a match is found, else false.
509    * 
510    * @param searchString
511    * @param searchPattern
512    * @param includeDescription
513    * @return
514    */
515   protected boolean doNonMotifSearches(String searchString,
516           Regex searchPattern, boolean includeDescription)
517   {
518     SequenceI seq = viewport.getAlignment().getSequenceAt(sequenceIndex);
519
520     /*
521      * position sequence search to start of sequence
522      */
523     residueIndex = 0;
524     try
525     {
526       int res = Integer.parseInt(searchString);
527       return searchForResidueNumber(seq, res);
528     } catch (NumberFormatException ex)
529     {
530       // search pattern is not a number
531     }
532
533     if (searchSequenceName(seq, searchPattern))
534     {
535       return true;
536     }
537     if (includeDescription && searchSequenceDescription(seq, searchPattern))
538     {
539       return true;
540     }
541     return false;
542   }
543
544   /**
545    * Searches for a match with the sequence description, and if found, adds the
546    * sequence to the list of match ids (but not as a duplicate). Answers true if
547    * a match was added, else false.
548    * 
549    * @param seq
550    * @param searchPattern
551    * @return
552    */
553   protected boolean searchSequenceDescription(SequenceI seq, Regex searchPattern)
554   {
555     String desc = seq.getDescription();
556     if (desc != null && searchPattern.search(desc) && !idMatches.contains(seq))
557     {
558       idMatches.add(seq);
559       return true;
560     }
561     return false;
562   }
563
564   /**
565    * Searches for a match with the sequence name, and if found, adds the
566    * sequence to the list of match ids (but not as a duplicate). Answers true if
567    * a match was added, else false.
568    * 
569    * @param seq
570    * @param searchPattern
571    * @return
572    */
573   protected boolean searchSequenceName(SequenceI seq, Regex searchPattern)
574   {
575     if (searchPattern.search(seq.getName()) && !idMatches.contains(seq))
576     {
577       idMatches.add(seq);
578       return true;
579     }
580     return false;
581   }
582
583   /**
584    * If the residue position is valid for the sequence, and in a visible column,
585    * adds the position to the search results and returns true, else answers false.
586    * 
587    * @param seq
588    * @param resNo
589    * @return
590    */
591   protected boolean searchForResidueNumber(SequenceI seq, int resNo)
592   {
593     if (seq.getStart() <= resNo && seq.getEnd() >= resNo)
594     {
595       if (isVisible(seq, resNo))
596       {
597         searchResults.addResult(seq, resNo, resNo);
598         return true;
599       }
600     }
601     return false;
602   }
603
604   /**
605    * Returns true if the residue is in a visible column, else false
606    * 
607    * @param seq
608    * @param res
609    * @return
610    */
611   private boolean isVisible(SequenceI seq, int res)
612   {
613     if (!viewport.hasHiddenColumns())
614     {
615       return true;
616     }
617     int col = seq.findIndex(res); // base 1
618     return viewport.getAlignment().getHiddenColumns().isVisible(col - 1); // base 0
619   }
620
621   @Override
622   public List<SequenceI> getIdMatches()
623   {
624     return idMatches;
625   }
626
627   @Override
628   public SearchResultsI getSearchResults()
629   {
630     return searchResults;
631   }
632 }