JAL-2110 SequenceI.isProtein method
[jalview.git] / src / jalview / datamodel / SequenceI.java
index 194f144..355e271 100755 (executable)
@@ -1,34 +1,40 @@
 /*
- * Jalview - A Sequence Alignment Editor and Viewer (Version 2.7)
- * Copyright (C) 2011 J Procter, AM Waterhouse, J Engelhardt, LM Lui, G Barton, M Clamp, S Searle
+ * Jalview - A Sequence Alignment Editor and Viewer ($$Version-Rel$$)
+ * Copyright (C) $$Year-Rel$$ The Jalview Authors
  * 
  * This file is part of Jalview.
  * 
  * Jalview is free software: you can redistribute it and/or
  * modify it under the terms of the GNU General Public License 
- * as published by the Free Software Foundation, either version 3 of the License, or (at your option) any later version.
- * 
+ * as published by the Free Software Foundation, either version 3
+ * of the License, or (at your option) any later version.
+ *  
  * Jalview is distributed in the hope that it will be useful, but 
  * WITHOUT ANY WARRANTY; without even the implied warranty 
  * of MERCHANTABILITY or FITNESS FOR A PARTICULAR 
  * PURPOSE.  See the GNU General Public License for more details.
  * 
- * You should have received a copy of the GNU General Public License along with Jalview.  If not, see <http://www.gnu.org/licenses/>.
+ * You should have received a copy of the GNU General Public License
+ * along with Jalview.  If not, see <http://www.gnu.org/licenses/>.
+ * The Jalview Authors are detailed in the 'AUTHORS' file.
  */
 package jalview.datamodel;
 
+import jalview.api.DBRefEntryI;
 
+import java.util.List;
 import java.util.Vector;
 
 import fr.orsay.lri.varna.models.rna.RNA;
 
 /**
- * DOCUMENT ME!
+ * Methods for manipulating a sequence, its metadata and related annotation in
+ * an alignment or dataset.
  * 
  * @author $author$
  * @version $Revision$
  */
-public interface SequenceI
+public interface SequenceI extends ASequenceI
 {
   /**
    * Set the display name for the sequence
@@ -100,21 +106,21 @@ public interface SequenceI
   public String getSequenceAsString();
 
   /**
-   * get a range on the seuqence as a string
+   * get a range on the sequence as a string
    * 
    * @param start
-   *          DOCUMENT ME!
+   *          position relative to start of sequence including gaps (from 0)
    * @param end
-   *          DOCUMENT ME!
+   *          position relative to start of sequence including gaps (from 0)
    * 
-   * @return DOCUMENT ME!
+   * @return String containing all gap and symbols in specified range
    */
   public String getSequenceAsString(int start, int end);
 
   /**
-   * DOCUMENT ME!
+   * Get the sequence as a character array
    * 
-   * @return DOCUMENT ME!
+   * @return seqeunce and any gaps
    */
   public char[] getSequence();
 
@@ -131,23 +137,26 @@ public interface SequenceI
   public char[] getSequence(int start, int end);
 
   /**
-   * create a new sequence object from start to end of this sequence
+   * create a new sequence object with a subsequence of this one but sharing the
+   * same dataset sequence
    * 
    * @param start
-   *          int
+   *          int index for start position (base 0, inclusive)
    * @param end
-   *          int
+   *          int index for end position (base 0, exclusive)
+   * 
    * @return SequenceI
+   * @note implementations may use getSequence to get the sequence data
    */
   public SequenceI getSubSequence(int start, int end);
 
   /**
-   * DOCUMENT ME!
+   * get the i'th character in this sequence's local reference frame (ie from
+   * 0-number of characters lying from start-end)
    * 
    * @param i
-   *          DOCUMENT ME!
-   * 
-   * @return DOCUMENT ME!
+   *          index
+   * @return character or ' '
    */
   public char getCharAt(int i);
 
@@ -168,13 +177,15 @@ public interface SequenceI
 
   /**
    * Return the alignment column for a sequence position
-   *    * Return the alignment position for a sequence position
    * 
    * @param pos
    *          lying from start to end
    * 
-   * @return aligned column for residue (0 if residue is upstream from alignment, -1 if residue is downstream from alignment)
-   * note. Sequence object returns sequence.getEnd() for positions upstream currently. TODO: change sequence for assert(findIndex(seq.getEnd()+1)==-1) and fix incremental bugs
+   * @return aligned column for residue (0 if residue is upstream from
+   *         alignment, -1 if residue is downstream from alignment) note.
+   *         Sequence object returns sequence.getEnd() for positions upstream
+   *         currently. TODO: change sequence for
+   *         assert(findIndex(seq.getEnd()+1)==-1) and fix incremental bugs
    * 
    */
   public int findIndex(int pos);
@@ -183,7 +194,7 @@ public interface SequenceI
    * Returns the sequence position for an alignment position
    * 
    * @param i
-   *          column index in alignment (from 1)
+   *          column index in alignment (from 0..<length)
    * 
    * @return residue number for residue (left of and) nearest ith column
    */
@@ -208,13 +219,19 @@ public interface SequenceI
   public int[] findPositionMap();
 
   /**
+   * 
+   * @return true if sequence is composed of amino acid characters
+   */
+  public boolean isProtein();
+
+  /**
    * Delete a range of aligned sequence columns, creating a new dataset sequence
    * if necessary and adjusting start and end positions accordingly.
    * 
    * @param i
-   *          first column in range to delete
+   *          first column in range to delete (inclusive)
    * @param j
-   *          last column in range to delete
+   *          last column in range to delete (exclusive)
    */
   public void deleteChars(int i, int j);
 
@@ -231,25 +248,28 @@ public interface SequenceI
   /**
    * DOCUMENT ME!
    * 
-   * @param i
+   * @param position
    *          DOCUMENT ME!
-   * @param c
+   * @param ch
    *          DOCUMENT ME!
    */
-  public void insertCharAt(int i, int length, char c);
+  public void insertCharAt(int position, int count, char ch);
 
   /**
-   * DOCUMENT ME!
+   * Gets array holding sequence features associated with this sequence. The
+   * array may be held by the sequence's dataset sequence if that is defined.
    * 
-   * @return DOCUMENT ME!
+   * @return hard reference to array
    */
   public SequenceFeature[] getSequenceFeatures();
 
   /**
-   * DOCUMENT ME!
+   * Replaces the array of sequence features associated with this sequence with
+   * a new array reference. If this sequence has a dataset sequence, then this
+   * method will update the dataset sequence's feature array
    * 
-   * @param v
-   *          DOCUMENT ME!
+   * @param features
+   *          New array of sequence features
    */
   public void setSequenceFeatures(SequenceFeature[] features);
 
@@ -259,14 +279,14 @@ public interface SequenceI
    * @param id
    *          DOCUMENT ME!
    */
-  public void setPDBId(Vector ids);
+  public void setPDBId(Vector<PDBEntry> ids);
 
   /**
-   * DOCUMENT ME!
+   * Returns a list
    * 
    * @return DOCUMENT ME!
    */
-  public Vector getPDBId();
+  public Vector<PDBEntry> getAllPDBEntries();
 
   /**
    * add entry to the vector of PDBIds, if it isn't in the list already
@@ -287,9 +307,9 @@ public interface SequenceI
 
   public void setVamsasId(String id);
 
-  public void setDBRef(DBRefEntry[] dbs);
+  public void setDBRefs(DBRefEntry[] dbs);
 
-  public DBRefEntry[] getDBRef();
+  public DBRefEntry[] getDBRefs();
 
   /**
    * add the given entry to the list of DBRefs for this sequence, or replace a
@@ -307,8 +327,22 @@ public interface SequenceI
 
   public SequenceI getDatasetSequence();
 
+  /**
+   * Returns a new array containing this sequence's annotations, or null.
+   */
   public AlignmentAnnotation[] getAnnotation();
 
+  /**
+   * Returns true if this sequence has the given annotation (by object
+   * identity).
+   */
+  public boolean hasAnnotation(AlignmentAnnotation ann);
+
+  /**
+   * Add the given annotation, if not already added, and set its sequence ref to
+   * be this sequence. Does nothing if this sequence's annotations already
+   * include this annotation (by identical object reference).
+   */
   public void addAlignmentAnnotation(AlignmentAnnotation annotation);
 
   public void removeAlignmentAnnotation(AlignmentAnnotation annotation);
@@ -337,9 +371,21 @@ public interface SequenceI
   public AlignmentAnnotation[] getAnnotation(String label);
 
   /**
+   * Returns a (possibly empty) list of any annotations that match on given
+   * calcId (source) and label (type). Null values do not match.
+   * 
+   * @param calcId
+   * @param label
+   */
+  public List<AlignmentAnnotation> getAlignmentAnnotations(String calcId,
+          String label);
+
+  /**
    * create a new dataset sequence (if necessary) for this sequence and sets
    * this sequence to refer to it. This call will move any features or
-   * references on the sequence onto the dataset.
+   * references on the sequence onto the dataset. It will also make a duplicate
+   * of existing annotation rows for the dataset sequence, rather than relocate
+   * them in order to preserve external references (since 2.8.2).
    * 
    * @return dataset sequence for this sequence
    */
@@ -347,34 +393,69 @@ public interface SequenceI
 
   /**
    * Transfer any database references or annotation from entry under a sequence
-   * mapping.
+   * mapping. <br/>
+   * <strong>Note: DOES NOT transfer sequence associated alignment annotation
+   * </strong><br/>
    * 
    * @param entry
    * @param mp
    *          null or mapping from entry's numbering to local start/end
    */
   public void transferAnnotation(SequenceI entry, Mapping mp);
-  
+
   /**
-   * @param index The sequence index in the MSA 
+   * @param index
+   *          The sequence index in the MSA
    */
   public void setIndex(int index);
-  
+
   /**
    * @return The index of the sequence in the alignment
    */
   public int getIndex();
-  
+
   /**
    * @return The RNA of the sequence in the alignment
    */
-  
+
   public RNA getRNA();
+
   /**
-   * @param rna The RNA.
+   * @param rna
+   *          The RNA.
    */
   public void setRNA(RNA rna);
-  
 
+  /**
+   * 
+   * @return list of insertions (gap characters) in sequence
+   */
+  public List<int[]> getInsertions();
+
+  /**
+   * Given a pdbId String, return the equivalent PDBEntry if available in the
+   * given sequence
+   * 
+   * @param pdbId
+   * @return
+   */
+  public PDBEntry getPDBEntry(String pdbId);
+
+  /**
+   * Set the distinct source database, and accession number from which a
+   * sequence and its start-end data were derived from. This is very important
+   * for SIFTS mappings and must be set prior to performing SIFTS mapping.
+   * 
+   * @param dbRef
+   *          the source dbRef for the sequence
+   */
+  public void setSourceDBRef(DBRefEntryI dbRef);
+
+  /**
+   * Get the distinct source database, and accession number from which a
+   * sequence and its start-end data were derived from.
+   * 
+   * @return
+   */
+  public DBRefEntryI getSourceDBRef();
 }