JAL-3490 revised layout and search algorithm (more tests to be added)
[jalview.git] / src / jalview / analysis / Finder.java
1 /*
2  * Jalview - A Sequence Alignment Editor and Viewer ($$Version-Rel$$)
3  * Copyright (C) $$Year-Rel$$ The Jalview Authors
4  * 
5  * This file is part of Jalview.
6  * 
7  * Jalview is free software: you can redistribute it and/or
8  * modify it under the terms of the GNU General Public License 
9  * as published by the Free Software Foundation, either version 3
10  * of the License, or (at your option) any later version.
11  *  
12  * Jalview is distributed in the hope that it will be useful, but 
13  * WITHOUT ANY WARRANTY; without even the implied warranty 
14  * of MERCHANTABILITY or FITNESS FOR A PARTICULAR 
15  * PURPOSE.  See the GNU General Public License for more details.
16  * 
17  * You should have received a copy of the GNU General Public License
18  * along with Jalview.  If not, see <http://www.gnu.org/licenses/>.
19  * The Jalview Authors are detailed in the 'AUTHORS' file.
20  */
21 package jalview.analysis;
22
23 import jalview.api.AlignViewportI;
24 import jalview.api.FinderI;
25 import jalview.datamodel.AlignmentI;
26 import jalview.datamodel.SearchResultMatchI;
27 import jalview.datamodel.SearchResults;
28 import jalview.datamodel.SearchResultsI;
29 import jalview.datamodel.SequenceGroup;
30 import jalview.datamodel.SequenceI;
31 import jalview.util.Comparison;
32 import jalview.util.MapList;
33
34 import java.util.ArrayList;
35 import java.util.Arrays;
36 import java.util.Iterator;
37 import java.util.List;
38
39 import com.stevesoft.pat.Regex;
40
41 /**
42  * Implements the search algorithm for the Find dialog
43  */
44 public class Finder implements FinderI
45 {
46   /*
47    * matched residue locations
48    */
49   private SearchResultsI searchResults;
50
51   /*
52    * sequences matched by id or description
53    */
54   private List<SequenceI> idMatches;
55
56   /*
57    * the viewport to search over
58    */
59   private AlignViewportI viewport;
60
61   /*
62    * sequence index in alignment to search from
63    */
64   private int sequenceIndex;
65
66   /*
67    * position offset in sequence to search from, base 0
68    * (position after start of last match for a 'find next')
69    */
70   private int residueIndex;
71
72   /*
73    * the true sequence position of the start of the 
74    * last sequence searched (when 'ignore hidden regions' does not apply)
75    */
76   private int searchedSequenceStartPosition;
77
78   /*
79    * when 'ignore hidden regions' applies, this holds the mapping from
80    * the visible sequence positions (1, 2, ...) to true sequence positions
81    */
82   private MapList searchedSequenceMap;
83
84   private String seqToSearch;
85
86   /**
87    * Constructor for searching a viewport
88    * 
89    * @param av
90    */
91   public Finder(AlignViewportI av)
92   {
93     this.viewport = av;
94     this.sequenceIndex = 0;
95     this.residueIndex = -1;
96   }
97
98   @Override
99   public void findAll(String theSearchString, boolean matchCase,
100           boolean searchDescription, boolean ignoreHidden)
101   {
102     /*
103      * search from the start
104      */
105     sequenceIndex = 0;
106     residueIndex = -1;
107
108     doFind(theSearchString, matchCase, searchDescription, true,
109             ignoreHidden);
110
111     /*
112      * reset to start for next search
113      */
114     sequenceIndex = 0;
115     residueIndex = -1;
116   }
117
118   @Override
119   public void findNext(String theSearchString, boolean matchCase,
120           boolean searchDescription, boolean ignoreHidden)
121   {
122     doFind(theSearchString, matchCase, searchDescription, false,
123             ignoreHidden);
124     
125     if (searchResults.isEmpty() && idMatches.isEmpty())
126     {
127       /*
128        * search failed - reset to start for next search
129        */
130       sequenceIndex = 0;
131       residueIndex = -1;
132     }
133   }
134
135   /**
136    * Performs a 'find next' or 'find all'
137    * 
138    * @param theSearchString
139    * @param matchCase
140    * @param searchDescription
141    * @param findAll
142    * @param ignoreHidden
143    */
144   protected void doFind(String theSearchString, boolean matchCase,
145           boolean searchDescription, boolean findAll, boolean ignoreHidden)
146   {
147     searchResults = new SearchResults();
148     idMatches = new ArrayList<>();
149
150     String searchString = matchCase ? theSearchString
151             : theSearchString.toUpperCase();
152     Regex searchPattern = new Regex(searchString);
153     searchPattern.setIgnoreCase(!matchCase);
154
155     SequenceGroup selection = viewport.getSelectionGroup();
156     if (selection != null && selection.getSize() < 1)
157     {
158       selection = null; // ? ignore column-only selection
159     }
160
161     AlignmentI alignment = viewport.getAlignment();
162     int end = alignment.getHeight();
163
164     getSequence(ignoreHidden);
165
166     boolean found = false;
167     while (!found || findAll)
168     {
169       found = findNextMatch(searchString, searchPattern, searchDescription,
170               ignoreHidden);
171       if (sequenceIndex >= end)
172       {
173         break;
174       }
175     }
176   }
177
178   /**
179    * Calculates and saves the sequence string to search. The string is restricted
180    * to the current selection region if there is one, and is saved with all gaps
181    * removed.
182    * <p>
183    * If there are hidden columns, and option {@ignoreHidden} is selected, then
184    * only visible positions of the sequence are included, and a mapping is also
185    * constructed from the returned string positions to the true sequence
186    * positions.
187    * <p>
188    * Note we have to do this each time {@code findNext} or {@code findAll} is
189    * called, in case the alignment, selection group or hidden columns have
190    * changed. In particular, if the sequence at offset {@code sequenceIndex} in
191    * the alignment is (no longer) in the selection group, search is advanced to
192    * the next sequence that is.
193    * <p>
194    * Sets sequence string to the empty string if there are no more sequences (in
195    * selection group if any) at or after {@code sequenceIndex}.
196    * <p>
197    * Returns true if a sequence could be found, false if end of alignment was
198    * reached
199    * 
200    * @param ignoreHidden
201    * @return
202    */
203   private boolean getSequence(boolean ignoreHidden)
204   {
205     AlignmentI alignment = viewport.getAlignment();
206     if (sequenceIndex >= alignment.getHeight())
207     {
208       seqToSearch = "";
209       return false;
210     }
211     SequenceI seq = alignment.getSequenceAt(sequenceIndex);
212     SequenceGroup selection = viewport.getSelectionGroup();
213     if (selection != null && !selection.contains(seq))
214     {
215       if (!nextSequence(ignoreHidden))
216       {
217         return false;
218       }
219       seq = alignment.getSequenceAt(sequenceIndex);
220     }
221
222     String seqString = null;
223     if (ignoreHidden)
224     {
225       seqString = getVisibleSequence(seq);
226     }
227     else
228     {
229       int startCol = 0;
230       int endCol = seq.getLength() - 1;
231       this.searchedSequenceStartPosition = seq.getStart();
232       if (selection != null)
233       {
234         startCol = selection.getStartRes();
235         endCol = Math.min(endCol, selection.getEndRes());
236         this.searchedSequenceStartPosition = seq.findPosition(startCol);
237       }
238       seqString = seq.getSequenceAsString(startCol, endCol + 1);
239     }
240
241     /*
242      * remove gaps; note that even if this leaves an empty string, we 'search'
243      * the sequence anyway (for possible match on name or description)
244      */
245     String ungapped = AlignSeq.extractGaps(Comparison.GapChars, seqString);
246     this.seqToSearch = ungapped;
247
248     return true;
249   }
250
251   /**
252    * Returns a string consisting of only the visible residues of {@code seq} from
253    * alignment column {@ fromColumn}, restricted to the current selection region
254    * if there is one.
255    * <p>
256    * As a side-effect, also computes the mapping from the true sequence positions
257    * to the positions (1, 2, ...) of the returned sequence. This is to allow
258    * search matches in the visible sequence to be converted to sequence positions.
259    * 
260    * @param seq
261    * @return
262    */
263   private String getVisibleSequence(SequenceI seq)
264   {
265     int seqStartCol = seq.findIndex(seq.getStart());
266     int seqEndCol = seq.findIndex(seq.getStart() + seq.getLength() - 1);
267     Iterator<int[]> visibleColumns = viewport.getViewAsVisibleContigs(true);
268     StringBuilder visibleSeq = new StringBuilder(seqEndCol - seqStartCol);
269     List<int[]> fromRanges = new ArrayList<>();
270
271     while (visibleColumns.hasNext())
272     {
273       int[] range = visibleColumns.next();
274       if (range[0] > seqEndCol)
275       {
276         // beyond the end of the sequence
277         break;
278       }
279       if (range[1] < seqStartCol)
280       {
281         // before the start of the sequence
282         continue;
283       }
284       String subseq = seq.getSequenceAsString(range[0], range[1] + 1);
285       String ungapped = AlignSeq.extractGaps(Comparison.GapChars, subseq);
286       visibleSeq.append(ungapped);
287       if (!ungapped.isEmpty())
288       {
289         /*
290          * visible region includes at least one non-gap character,
291          * so add the range to the mapping being constructed
292          */
293         int seqResFrom = seq.findPosition(range[0]);
294         int seqResTo = seq.findPosition(range[1]);
295         fromRanges.add(new int[] { seqResFrom, seqResTo });
296       }
297     }
298
299     /*
300      * construct the mapping
301      * from: visible sequence positions 1..length
302      * to:   true residue positions of the alignment sequence
303      */
304     List<int[]> toRange = Arrays
305             .asList(new int[]
306             { 1, visibleSeq.length() });
307     searchedSequenceMap = new MapList(fromRanges, toRange, 1, 1);
308
309     return visibleSeq.toString();
310   }
311
312   /**
313    * Advances the search to the next sequence in the alignment. Sequences not in
314    * the current selection group (if there is one) are skipped. The (sub-)sequence
315    * to be searched is extracted, gaps removed, and saved, or set to null if there
316    * are no more sequences to search.
317    * <p>
318    * Returns true if a sequence could be found, false if end of alignment was
319    * reached
320    * 
321    * @param ignoreHidden
322    */
323   private boolean nextSequence(boolean ignoreHidden)
324   {
325     sequenceIndex++;
326     residueIndex = -1;
327
328     return getSequence(ignoreHidden);
329   }
330
331   /**
332    * Finds the next match in the given sequence, starting at offset
333    * {@code residueIndex}. Answers true if a match is found, else false.
334    * <p>
335    * If a match is found, {@code residueIndex} is advanced to the position after
336    * the start of the matched region, ready for the next search.
337    * <p>
338    * If no match is found, {@code sequenceIndex} is advanced ready to search the
339    * next sequence.
340    * 
341    * @param seqToSearch
342    * @param searchString
343    * @param searchPattern
344    * @param matchDescription
345    * @param ignoreHidden
346    * @return
347    */
348   protected boolean findNextMatch(String searchString,
349           Regex searchPattern, boolean matchDescription,
350           boolean ignoreHidden)
351   {
352     if (residueIndex < 0)
353     {
354       /*
355        * at start of sequence; try find by residue number, in sequence id,
356        * or (optionally) in sequence description
357        */
358       if (doNonMotifSearches(searchString, searchPattern,
359               matchDescription))
360       {
361         return true;
362       }
363     }
364
365     /*
366      * search for next match in sequence string
367      */
368     int end = seqToSearch.length();
369     while (residueIndex < end)
370     {
371       boolean matched = searchPattern.searchFrom(seqToSearch, residueIndex);
372       if (matched)
373       {
374         if (recordMatch(searchPattern, ignoreHidden))
375         {
376           return true;
377         }
378       }
379       else
380       {
381         residueIndex = Integer.MAX_VALUE;
382       }
383     }
384
385     nextSequence(ignoreHidden);
386     return false;
387   }
388
389   /**
390    * Adds the match held in the <code>searchPattern</code> Regex to the
391    * <code>searchResults</code>, unless it is a subregion of the last match
392    * recorded. <code>residueIndex</code> is advanced to the position after the
393    * start of the matched region, ready for the next search. Answers true if a
394    * match was added, else false.
395    * <p>
396    * Matches that lie entirely within hidden regions of the alignment are not
397    * added.
398    * 
399    * @param searchPattern
400    * @param ignoreHidden
401    * @return
402    */
403   protected boolean recordMatch(Regex searchPattern, boolean ignoreHidden)
404   {
405     SequenceI seq = viewport.getAlignment().getSequenceAt(sequenceIndex);
406
407     /*
408      * convert start/end of the match to sequence coordinates
409      */
410     int offset = searchPattern.matchedFrom();
411     int matchStartPosition = this.searchedSequenceStartPosition + offset;
412     int matchEndPosition = matchStartPosition
413             + searchPattern.charsMatched() - 1;
414
415     /*
416      * update residueIndex to next position after the start of the match
417      * (findIndex returns a value base 1, columnIndex is held base 0)
418      */
419     residueIndex += offset + 1;
420
421     /*
422      * return false if the match is entirely in a hidden region
423      */
424     if (allHidden(seq, matchStartPosition, matchEndPosition))
425     {
426       return false;
427     }
428
429     /*
430      * check that this match is not a subset of the previous one (JAL-2302)
431      */
432     List<SearchResultMatchI> matches = searchResults.getResults();
433     SearchResultMatchI lastMatch = matches.isEmpty() ? null
434             : matches.get(matches.size() - 1);
435
436     if (lastMatch == null || !lastMatch.contains(seq, matchStartPosition,
437             matchEndPosition))
438     {
439       addMatch(seq, matchStartPosition, matchEndPosition, ignoreHidden);
440       return true;
441     }
442
443     return false;
444   }
445
446   /**
447    * Adds one match to the stored list. If hidden residues are being skipped, then
448    * the match may need to be split into contiguous positions of the sequence (so
449    * it does not include skipped residues).
450    * 
451    * @param seq
452    * @param matchStartPosition
453    * @param matchEndPosition
454    * @param ignoreHidden
455    */
456   private void addMatch(SequenceI seq, int matchStartPosition,
457           int matchEndPosition, boolean ignoreHidden)
458   {
459     if (!ignoreHidden)
460     {
461       /*
462        * simple case
463        */
464       searchResults.addResult(seq, matchStartPosition, matchEndPosition);
465       return;
466     }
467
468     /*
469      *  get start-end contiguous ranges in underlying sequence
470      */
471     int[] truePositions = searchedSequenceMap
472             .locateInFrom(matchStartPosition, matchEndPosition);
473     for (int i = 0; i < truePositions.length - 1; i += 2)
474     {
475       searchResults.addResult(seq, truePositions[i], truePositions[i + 1]);
476     }
477   }
478
479   /**
480    * Returns true if all residues are hidden, else false
481    * 
482    * @param seq
483    * @param fromPos
484    * @param toPos
485    * @return
486    */
487   private boolean allHidden(SequenceI seq, int fromPos, int toPos)
488   {
489     if (!viewport.hasHiddenColumns())
490     {
491       return false;
492     }
493     for (int res = fromPos; res <= toPos; res++)
494     {
495       if (isVisible(seq, res))
496       {
497         return false;
498       }
499     }
500     return true;
501   }
502
503   /**
504    * Does searches other than for residue patterns. Currently this includes
505    * <ul>
506    * <li>find residue by position (if search string is a number)</li>
507    * <li>match search string to sequence id</li>
508    * <li>match search string to sequence description (optional)</li>
509    * </ul>
510    * Answers true if a match is found, else false.
511    * 
512    * @param searchString
513    * @param searchPattern
514    * @param includeDescription
515    * @return
516    */
517   protected boolean doNonMotifSearches(String searchString,
518           Regex searchPattern, boolean includeDescription)
519   {
520     SequenceI seq = viewport.getAlignment().getSequenceAt(sequenceIndex);
521
522     /*
523      * position sequence search to start of sequence
524      */
525     residueIndex = 0;
526     try
527     {
528       int res = Integer.parseInt(searchString);
529       return searchForResidueNumber(seq, res);
530     } catch (NumberFormatException ex)
531     {
532       // search pattern is not a number
533     }
534
535     if (searchSequenceName(seq, searchPattern))
536     {
537       return true;
538     }
539     if (includeDescription && searchSequenceDescription(seq, searchPattern))
540     {
541       return true;
542     }
543     return false;
544   }
545
546   /**
547    * Searches for a match with the sequence description, and if found, adds the
548    * sequence to the list of match ids (but not as a duplicate). Answers true if
549    * a match was added, else false.
550    * 
551    * @param seq
552    * @param searchPattern
553    * @return
554    */
555   protected boolean searchSequenceDescription(SequenceI seq, Regex searchPattern)
556   {
557     String desc = seq.getDescription();
558     if (desc != null && searchPattern.search(desc) && !idMatches.contains(seq))
559     {
560       idMatches.add(seq);
561       return true;
562     }
563     return false;
564   }
565
566   /**
567    * Searches for a match with the sequence name, and if found, adds the
568    * sequence to the list of match ids (but not as a duplicate). Answers true if
569    * a match was added, else false.
570    * 
571    * @param seq
572    * @param searchPattern
573    * @return
574    */
575   protected boolean searchSequenceName(SequenceI seq, Regex searchPattern)
576   {
577     if (searchPattern.search(seq.getName()) && !idMatches.contains(seq))
578     {
579       idMatches.add(seq);
580       return true;
581     }
582     return false;
583   }
584
585   /**
586    * If the residue position is valid for the sequence, and in a visible column,
587    * adds the position to the search results and returns true, else answers false.
588    * 
589    * @param seq
590    * @param resNo
591    * @return
592    */
593   protected boolean searchForResidueNumber(SequenceI seq, int resNo)
594   {
595     if (seq.getStart() <= resNo && seq.getEnd() >= resNo)
596     {
597       if (isVisible(seq, resNo))
598       {
599         searchResults.addResult(seq, resNo, resNo);
600         return true;
601       }
602     }
603     return false;
604   }
605
606   /**
607    * Returns true if the residue is in a visible column, else false
608    * 
609    * @param seq
610    * @param res
611    * @return
612    */
613   private boolean isVisible(SequenceI seq, int res)
614   {
615     if (!viewport.hasHiddenColumns())
616     {
617       return true;
618     }
619     int col = seq.findIndex(res); // base 1
620     return viewport.getAlignment().getHiddenColumns().isVisible(col - 1); // base 0
621   }
622
623   @Override
624   public List<SequenceI> getIdMatches()
625   {
626     return idMatches;
627   }
628
629   @Override
630   public SearchResultsI getSearchResults()
631   {
632     return searchResults;
633   }
634 }