JAL-845 implement alignment of protein to match cDNA alignment
[jalview.git] / src / jalview / datamodel / Mapping.java
index f2c16d0..be8fd58 100644 (file)
@@ -22,11 +22,245 @@ package jalview.datamodel;
 
 import jalview.util.MapList;
 
+import java.util.Iterator;
+import java.util.NoSuchElementException;
 import java.util.Vector;
 
 public class Mapping
 {
   /**
+   * An iterator that serves the aligned codon positions (with their protein
+   * products).
+   * 
+   * @author gmcarstairs
+   *
+   */
+  public class AlignedCodonIterator implements Iterator<AlignedCodon>
+  {
+    /*
+     * The gap character used in the aligned sequence
+     */
+    private final char gap;
+
+    /*
+     * The characters of the aligned sequence e.g. "-cGT-ACgTG-"
+     */
+    private final char[] alignedSeq;
+
+    /*
+     * Next position (base 0) in the aligned sequence
+     */
+    private int alignedColumn = 0;
+
+    /*
+     * Count of bases up to and including alignedColumn position
+     */
+    private int alignedBases = 0;
+
+    /*
+     * [start, end] from ranges (base 1)
+     */
+    private Iterator<int[]> fromRanges;
+
+    /*
+     * [start, end] to ranges (base 1)
+     */
+    private Iterator<int[]> toRanges;
+
+    /*
+     * The current [start, end] (base 1) from range
+     */
+    private int[] currentFromRange = null;
+
+    /*
+     * The current [start, end] (base 1) to range
+     */
+    private int[] currentToRange = null;
+
+    /*
+     * The next 'from' position (base 1) to process
+     */
+    private int fromPosition = 0;
+
+    /*
+     * The next 'to' position (base 1) to process
+     */
+    private int toPosition = 0;
+
+    /**
+     * Constructor
+     * 
+     * @param cs
+     *          the aligned sequence characters
+     * @param gapChar
+     */
+    public AlignedCodonIterator(char[] cs, char gapChar)
+    {
+      this.alignedSeq = cs;
+      this.gap = gapChar;
+      fromRanges = map.getFromRanges().iterator();
+      toRanges = map.getToRanges().iterator();
+      if (fromRanges.hasNext())
+      {
+        currentFromRange = fromRanges.next();
+        fromPosition = currentFromRange[0];
+      }
+      if (toRanges.hasNext())
+      {
+        currentToRange = toRanges.next();
+        toPosition = currentToRange[0];
+      }
+    }
+
+    /**
+     * Returns true unless we have already traversed the whole mapping.
+     */
+    @Override
+    public boolean hasNext()
+    {
+      if (fromRanges.hasNext())
+      {
+        return true;
+      }
+      if (currentFromRange == null || fromPosition >= currentFromRange[1])
+      {
+        return false;
+      }
+      return true;
+    }
+
+    /**
+     * Returns the next codon's aligned positions, and translated value.
+     * 
+     * @throws NoSuchElementException
+     *           if hasNext() would have returned false
+     * @throws IncompleteCodonException
+     *           if not enough mapped bases are left to make up a codon
+     */
+    @Override
+    public AlignedCodon next() throws IncompleteCodonException
+    {
+      if (!hasNext())
+      {
+        throw new NoSuchElementException();
+      }
+
+      int[] codon = getNextCodon();
+      int[] alignedCodon = getAlignedCodon(codon);
+
+      String peptide = getPeptide();
+      return new AlignedCodon(alignedCodon[0], alignedCodon[1],
+              alignedCodon[2], peptide);
+    }
+
+    /**
+     * Retrieve the translation as the 'mapped to' position in the mapped to
+     * sequence.
+     * 
+     * @return
+     */
+    private String getPeptide()
+    {
+      // TODO should ideally handle toRatio other than 1 as well...
+      // i.e. code like getNextCodon()
+      if (toPosition <= currentToRange[1]) {
+        char pep = Mapping.this.to.getSequence()[toPosition - 1];
+        toPosition++;
+        return String.valueOf(pep);
+      }
+      if (!toRanges.hasNext())
+      {
+        throw new NoSuchElementException("Ran out of peptide at position "
+                + toPosition);
+      }
+      currentToRange = toRanges.next();
+      toPosition = currentToRange[0];
+      return getPeptide();
+    }
+
+    /**
+     * Get the (base 1) dataset positions for the next codon in the mapping.
+     * 
+     * @throws IncompleteCodonException
+     *           if less than 3 remaining bases are mapped
+     */
+    private int[] getNextCodon()
+    {
+      int[] codon = new int[3];
+      int codonbase = 0;
+
+      while (codonbase < 3)
+      {
+        if (fromPosition <= currentFromRange[1])
+        {
+          /*
+           * Add next position from the current start-end range
+           */
+          codon[codonbase++] = fromPosition++;
+        }
+        else
+        {
+          /*
+           * Move to the next range - if there is one
+           */
+          if (!fromRanges.hasNext())
+          {
+            throw new IncompleteCodonException();
+          }
+          currentFromRange = fromRanges.next();
+          fromPosition = currentFromRange[0];
+        }
+      }
+      return codon;
+    }
+
+    /**
+     * Get the aligned column positions (base 0) for the given sequence
+     * positions (base 1), by counting ungapped characters in the aligned
+     * sequence.
+     * 
+     * @param codon
+     * @return
+     */
+    private int[] getAlignedCodon(int[] codon)
+    {
+      int[] aligned = new int[codon.length];
+      for (int i = 0; i < codon.length; i++)
+      {
+        aligned[i] = getAlignedColumn(codon[i]);
+      }
+      return aligned;
+    }
+
+    /**
+     * Get the aligned column position (base 0) for the given sequence position
+     * (base 1).
+     * 
+     * @param sequencePos
+     * @return
+     */
+    private int getAlignedColumn(int sequencePos)
+    {
+      while (alignedBases < sequencePos
+              && alignedColumn < alignedSeq.length)
+      {
+        if (alignedSeq[alignedColumn++] != gap)
+        {
+          alignedBases++;
+        }
+      }
+      return alignedColumn - 1;
+    }
+
+    @Override
+    public void remove()
+    {
+      // ignore
+    }
+
+  }
+
+  /**
    * Contains the start-end pairs mapping from the associated sequence to the
    * sequence in the database coordinate system. It also takes care of step
    * difference between coordinate systems.
@@ -477,4 +711,9 @@ public class Mapping
     super.finalize();
   }
 
+  public Iterator<AlignedCodon> getCodonIterator(SequenceI seq, char gapChar)
+  {
+    return new AlignedCodonIterator(seq.getSequence(), gapChar);
+  }
+
 }