JAL-845 implement alignment of protein to match cDNA alignment
[jalview.git] / src / jalview / datamodel / Alignment.java
index 7b545c4..4558d8d 100755 (executable)
@@ -1,23 +1,38 @@
 /*
- * Jalview - A Sequence Alignment Editor and Viewer (Version 2.8)
- * Copyright (C) 2012 J Procter, AM Waterhouse, LM Lui, J Engelhardt, G Barton, M Clamp, S Searle
+ * Jalview - A Sequence Alignment Editor and Viewer (Version 2.8.2)
+ * Copyright (C) 2014 The Jalview Authors
  * 
  * This file is part of Jalview.
  * 
  * Jalview is free software: you can redistribute it and/or
  * modify it under the terms of the GNU General Public License 
- * as published by the Free Software Foundation, either version 3 of the License, or (at your option) any later version.
+ * as published by the Free Software Foundation, either version 3
+ * of the License, or (at your option) any later version.
  *  
  * Jalview is distributed in the hope that it will be useful, but 
  * WITHOUT ANY WARRANTY; without even the implied warranty 
  * of MERCHANTABILITY or FITNESS FOR A PARTICULAR 
  * PURPOSE.  See the GNU General Public License for more details.
  * 
- * You should have received a copy of the GNU General Public License along with Jalview.  If not, see <http://www.gnu.org/licenses/>.
+ * You should have received a copy of the GNU General Public License
+ * along with Jalview.  If not, see <http://www.gnu.org/licenses/>.
+ * The Jalview Authors are detailed in the 'AUTHORS' file.
  */
 package jalview.datamodel;
 
-import java.util.*;
+import jalview.analysis.AlignmentUtils;
+import jalview.io.FastaFile;
+import jalview.util.MessageManager;
+
+import java.util.ArrayList;
+import java.util.Enumeration;
+import java.util.HashSet;
+import java.util.Hashtable;
+import java.util.LinkedHashSet;
+import java.util.List;
+import java.util.Map;
+import java.util.Set;
+import java.util.Vector;
 
 /**
  * Data structure to hold and manipulate a multiple sequence alignment
@@ -52,6 +67,8 @@ public class Alignment implements AlignmentI
 
   public Hashtable alignmentProperties;
 
+  private Set<AlignedCodonFrame> codonFrameList = new LinkedHashSet<AlignedCodonFrame>();
+
   private void initAlignment(SequenceI[] seqs)
   {
     int i = 0;
@@ -76,6 +93,27 @@ public class Alignment implements AlignmentI
   }
 
   /**
+   * Make a 'copy' alignment - sequences have new copies of features and
+   * annotations, but share the original dataset sequences.
+   */
+  public Alignment(AlignmentI al)
+  {
+    SequenceI[] seqs = al.getSequencesArray();
+    for (int i = 0; i < seqs.length; i++)
+    {
+      seqs[i] = new Sequence(seqs[i]);
+    }
+
+    /*
+     * Share the same dataset sequence mappings (if any). TODO: find a better
+     * place for these to live (alignment dataset?).
+     */
+    this.codonFrameList = ((Alignment) al).codonFrameList;
+
+    initAlignment(seqs);
+  }
+
+  /**
    * Make an alignment from an array of Sequences.
    * 
    * @param sequences
@@ -109,15 +147,10 @@ public class Alignment implements AlignmentI
    */
   public static AlignmentI createAlignment(CigarArray compactAlignment)
   {
-    throw new Error("Alignment(CigarArray) not yet implemented");
+    throw new Error(MessageManager.getString("error.alignment_cigararray_not_implemented"));
     // this(compactAlignment.refCigars);
   }
 
-  /**
-   * DOCUMENT ME!
-   * 
-   * @return DOCUMENT ME!
-   */
   @Override
   public List<SequenceI> getSequences()
   {
@@ -137,7 +170,9 @@ public class Alignment implements AlignmentI
   public SequenceI[] getSequencesArray()
   {
     if (sequences == null)
+    {
       return null;
+    }
     synchronized (sequences)
     {
       return sequences.toArray(new SequenceI[sequences.size()]);
@@ -145,6 +180,17 @@ public class Alignment implements AlignmentI
   }
 
   /**
+   * Returns a map of lists of sequences keyed by sequence name.
+   * 
+   * @return
+   */
+  @Override
+  public Map<String, List<SequenceI>> getSequencesByName()
+  {
+    return AlignmentUtils.getSequencesByName(this);
+  }
+
+  /**
    * DOCUMENT ME!
    * 
    * @param i
@@ -201,7 +247,9 @@ public class Alignment implements AlignmentI
       }
     }
     if (hiddenSequences != null)
+    {
       hiddenSequences.adjustHeightSequenceAdded();
+    }
   }
 
   /**
@@ -212,10 +260,9 @@ public class Alignment implements AlignmentI
   @Override
   public void setSequenceAt(int i, SequenceI snew)
   {
-    SequenceI oldseq = getSequenceAt(i);
-    deleteSequence(i);
     synchronized (sequences)
     {
+      deleteSequence(i);
       sequences.set(i, snew);
     }
   }
@@ -235,7 +282,9 @@ public class Alignment implements AlignmentI
   public void finalize()
   {
     if (getDataset() != null)
+    {
       getDataset().removeAlignmentRef();
+    }
 
     dataset = null;
     sequences = null;
@@ -282,8 +331,8 @@ public class Alignment implements AlignmentI
       synchronized (sequences)
       {
         sequences.remove(i);
+        hiddenSequences.adjustHeightSequenceDeleted(i);
       }
-      hiddenSequences.adjustHeightSequenceDeleted(i);
     }
   }
 
@@ -370,7 +419,7 @@ public class Alignment implements AlignmentI
             return;
           }
         }
-
+        sg.setContext(this);
         groups.add(sg);
       }
     }
@@ -445,6 +494,10 @@ public class Alignment implements AlignmentI
       {
         removeAnnotationForGroup(null);
       }
+      for (SequenceGroup sg : groups)
+      {
+        sg.setContext(null);
+      }
       groups.clear();
     }
   }
@@ -459,6 +512,7 @@ public class Alignment implements AlignmentI
       {
         removeAnnotationForGroup(g);
         groups.remove(g);
+        g.setContext(null);
       }
     }
   }
@@ -699,6 +753,28 @@ public class Alignment implements AlignmentI
     return true;
   }
 
+  /**
+   * Delete all annotations, including auto-calculated if the flag is set true.
+   * Returns true if at least one annotation was deleted, else false.
+   * 
+   * @param includingAutoCalculated
+   * @return
+   */
+  @Override
+  public boolean deleteAllAnnotations(boolean includingAutoCalculated)
+  {
+    boolean result = false;
+    for (AlignmentAnnotation alan : getAlignmentAnnotation())
+    {
+      if (!alan.autoCalculated || includingAutoCalculated)
+      {
+        deleteAnnotation(alan);
+        result = true;
+      }
+    }
+    return result;
+  }
+
   /*
    * (non-Javadoc)
    * 
@@ -739,7 +815,9 @@ public class Alignment implements AlignmentI
         continue;
       }
       if (tIndex < temp.length)
+      {
         temp[tIndex++] = annotations[i];
+      }
     }
 
     if (swap)
@@ -935,6 +1013,27 @@ public class Alignment implements AlignmentI
     else if (dataset == null && data != null)
     {
       dataset = data;
+      for (int i = 0; i < getHeight(); i++)
+      {
+        SequenceI currentSeq = getSequenceAt(i);
+        SequenceI dsq = currentSeq.getDatasetSequence();
+        if (dsq == null)
+        {
+          dsq = currentSeq.createDatasetSequence();
+          dataset.addSequence(dsq);
+        }
+        else
+        {
+          while (dsq.getDatasetSequence() != null)
+          {
+            dsq = dsq.getDatasetSequence();
+          }
+          if (dataset.findIndex(dsq) == -1)
+          {
+            dataset.addSequence(dsq);
+          }
+        }
+      }
     }
     dataset.addAlignmentRef();
   }
@@ -1135,7 +1234,9 @@ public class Alignment implements AlignmentI
   public void setProperty(Object key, Object value)
   {
     if (alignmentProperties == null)
+    {
       alignmentProperties = new Hashtable();
+    }
 
     alignmentProperties.put(key, value);
   }
@@ -1144,9 +1245,13 @@ public class Alignment implements AlignmentI
   public Object getProperty(Object key)
   {
     if (alignmentProperties != null)
+    {
       return alignmentProperties.get(key);
+    }
     else
+    {
       return null;
+    }
   }
 
   @Override
@@ -1155,8 +1260,6 @@ public class Alignment implements AlignmentI
     return alignmentProperties;
   }
 
-  AlignedCodonFrame[] codonFrameList = null;
-
   /*
    * (non-Javadoc)
    * 
@@ -1167,62 +1270,55 @@ public class Alignment implements AlignmentI
   @Override
   public void addCodonFrame(AlignedCodonFrame codons)
   {
-    if (codons == null)
-      return;
-    if (codonFrameList == null)
+    if (codons != null)
     {
-      codonFrameList = new AlignedCodonFrame[]
-      { codons };
-      return;
+      codonFrameList.add(codons);
     }
-    AlignedCodonFrame[] t = new AlignedCodonFrame[codonFrameList.length + 1];
-    System.arraycopy(codonFrameList, 0, t, 0, codonFrameList.length);
-    t[codonFrameList.length] = codons;
-    codonFrameList = t;
   }
 
   /*
    * (non-Javadoc)
    * 
-   * @see jalview.datamodel.AlignmentI#getCodonFrame(int)
+   * @see
+   * jalview.datamodel.AlignmentI#getCodonFrame(jalview.datamodel.SequenceI)
    */
   @Override
-  public AlignedCodonFrame getCodonFrame(int index)
+  public List<AlignedCodonFrame> getCodonFrame(SequenceI seq)
   {
-    return codonFrameList[index];
+    if (seq == null)
+    {
+      return null;
+    }
+    List<AlignedCodonFrame> cframes = new ArrayList<AlignedCodonFrame>();
+    for (AlignedCodonFrame acf : codonFrameList)
+    {
+      if (acf.involvesSequence(seq))
+      {
+        cframes.add(acf);
+      }
+    }
+    return cframes;
   }
 
-  /*
-   * (non-Javadoc)
+  /**
+   * Sets the codon frame mappings (replacing any existing mappings).
    * 
-   * @see
-   * jalview.datamodel.AlignmentI#getCodonFrame(jalview.datamodel.SequenceI)
+   * @see jalview.datamodel.AlignmentI#setCodonFrames()
    */
   @Override
-  public AlignedCodonFrame[] getCodonFrame(SequenceI seq)
+  public void setCodonFrames(Set<AlignedCodonFrame> acfs)
   {
-    if (seq == null || codonFrameList == null)
-      return null;
-    Vector cframes = new Vector();
-    for (int f = 0; f < codonFrameList.length; f++)
-    {
-      if (codonFrameList[f].involvesSequence(seq))
-        cframes.addElement(codonFrameList[f]);
-    }
-    if (cframes.size() == 0)
-      return null;
-    AlignedCodonFrame[] cfr = new AlignedCodonFrame[cframes.size()];
-    cframes.copyInto(cfr);
-    return cfr;
+    this.codonFrameList = acfs;
   }
 
-  /*
-   * (non-Javadoc)
+  /**
+   * Returns the set of codon frame mappings. Any changes to the returned set
+   * will affect the alignment.
    * 
    * @see jalview.datamodel.AlignmentI#getCodonFrames()
    */
   @Override
-  public AlignedCodonFrame[] getCodonFrames()
+  public Set<AlignedCodonFrame> getCodonFrames()
   {
     return codonFrameList;
   }
@@ -1237,27 +1333,10 @@ public class Alignment implements AlignmentI
   public boolean removeCodonFrame(AlignedCodonFrame codons)
   {
     if (codons == null || codonFrameList == null)
-      return false;
-    boolean removed = false;
-    int i = 0, iSize = codonFrameList.length;
-    while (i < iSize)
     {
-      if (codonFrameList[i] == codons)
-      {
-        removed = true;
-        if (i + 1 < iSize)
-        {
-          System.arraycopy(codonFrameList, i + 1, codonFrameList, i, iSize
-                  - i - 1);
-        }
-        iSize--;
-      }
-      else
-      {
-        i++;
-      }
+      return false;
     }
-    return removed;
+    return codonFrameList.remove(codons);
   }
 
   @Override
@@ -1302,11 +1381,9 @@ public class Alignment implements AlignmentI
     {
       addAnnotation(alan[a]);
     }
-    AlignedCodonFrame[] acod = toappend.getCodonFrames();
-    for (int a = 0; acod != null && a < acod.length; a++)
-    {
-      this.addCodonFrame(acod[a]);
-    }
+
+    this.codonFrameList.addAll(toappend.getCodonFrames());
+
     List<SequenceGroup> sg = toappend.getGroups();
     if (sg != null)
     {
@@ -1429,6 +1506,27 @@ public class Alignment implements AlignmentI
     return aa;
   }
 
+  /**
+   * Returns an iterable collection of any annotations that match on given
+   * sequence ref, calcId and label (ignoring null values).
+   */
+  @Override
+  public Iterable<AlignmentAnnotation> findAnnotations(SequenceI seq,
+          String calcId, String label)
+  {
+    ArrayList<AlignmentAnnotation> aa = new ArrayList<AlignmentAnnotation>();
+    for (AlignmentAnnotation ann : getAlignmentAnnotation())
+    {
+      if (ann.getCalcId() != null && ann.getCalcId().equals(calcId)
+              && ann.sequenceRef != null && ann.sequenceRef == seq
+              && ann.label != null && ann.label.equals(label))
+      {
+        aa.add(ann);
+      }
+    }
+    return aa;
+  }
+
   @Override
   public void moveSelectedSequencesByOne(SequenceGroup sg,
           Map<SequenceI, SequenceCollectionI> map, boolean up)
@@ -1479,13 +1577,183 @@ public class Alignment implements AlignmentI
 
     }
   }
- @Override
- public void validateAnnotation(AlignmentAnnotation alignmentAnnotation)
+
+  @Override
+  public void validateAnnotation(AlignmentAnnotation alignmentAnnotation)
+  {
+    alignmentAnnotation.validateRangeAndDisplay();
+    if (isNucleotide() && alignmentAnnotation.isValidStruc())
+    {
+      hasRNAStructure = true;
+    }
+  }
+
+
+ private SequenceI seqrep=null;
+
+ /**
+  * 
+  * @return the representative sequence for this group
+  */
+ public SequenceI getSeqrep()
+ {
+   return seqrep;
+ }
+
+ /**
+  * set the representative sequence for this group. Note - this affects the
+  * interpretation of the Hidereps attribute.
+  * 
+  * @param seqrep
+  *          the seqrep to set (null means no sequence representative)
+  */
+ public void setSeqrep(SequenceI seqrep)
+ {
+   this.seqrep = seqrep;
+ }
+
+ /**
+  * 
+  * @return true if group has a sequence representative
+  */
+ public boolean hasSeqrep()
  {
-   alignmentAnnotation.validateRangeAndDisplay();
-   if (isNucleotide() && alignmentAnnotation.isValidStruc())
-   {
-     hasRNAStructure = true;
-   }
+   return seqrep != null;
  }
+
+  @Override
+  public int getEndRes()
+  {
+    return getWidth() - 1;
+  }
+
+  @Override
+  public int getStartRes()
+  {
+    return 0;
+  }
+
+  /*
+   * In the case of AlignmentI - returns the dataset for the alignment, if set
+   * (non-Javadoc)
+   * 
+   * @see jalview.datamodel.AnnotatedCollectionI#getContext()
+   */
+  @Override
+  public AnnotatedCollectionI getContext()
+  {
+    return dataset;
+  }
+
+  /**
+   * Align this alignment like the given (mapped) one.
+   */
+  @Override
+  public int alignAs(AlignmentI al)
+  {
+    /*
+     * Currently retains unmapped gaps (in introns), regaps mapped regions
+     * (exons)
+     */
+    return alignAs(al, false, true);
+  }
+
+  /**
+   * Align this alignment 'the same as' the given one. Mapped sequences only are
+   * realigned. If both of the same type (nucleotide/protein) then align both
+   * identically. If this is nucleotide and the other is protein, make 3 gaps
+   * for each gap in the protein sequences. If this is protein and the other is
+   * nucleotide, insert a gap for each 3 gaps (or part thereof) between
+   * nucleotide bases. Does nothing if alignment of protein from cDNA is
+   * requested (not yet implemented).
+   * 
+   * Parameters control whether gaps in exon (mapped) and intron (unmapped)
+   * regions are preserved. Gaps that connect introns to exons are treated
+   * conservatively, i.e. only preserved if both intron and exon gaps are
+   * preserved.
+   * 
+   * @param al
+   * @param preserveMappedGaps
+   *          if true, gaps within and between mapped codons are preserved
+   * @param preserveUnmappedGaps
+   *          if true, gaps within and between unmapped codons are preserved
+   */
+//  @Override
+  public int alignAs(AlignmentI al, boolean preserveMappedGaps,
+          boolean preserveUnmappedGaps)
+  {
+    // TODO should this method signature be the one in the interface?
+    int count = 0;
+    boolean thisIsNucleotide = this.isNucleotide();
+    boolean thatIsProtein = !al.isNucleotide();
+    if (!thatIsProtein && !thisIsNucleotide)
+    {
+      return AlignmentUtils.alignProteinAsDna(this, al);
+    }
+
+    char thisGapChar = this.getGapCharacter();
+    String gap = thisIsNucleotide && thatIsProtein ? String
+            .valueOf(new char[]
+            { thisGapChar, thisGapChar, thisGapChar }) : String
+            .valueOf(thisGapChar);
+
+    /*
+     * Get mappings from 'that' alignment's sequences to this.
+     */
+    for (SequenceI alignTo : getSequences())
+    {
+      count += AlignmentUtils.alignSequenceAs(alignTo, al, gap, preserveMappedGaps,
+              preserveUnmappedGaps) ? 1 : 0;
+    }
+    return count;
+  }
+
+  /**
+   * Returns the alignment in Fasta format. Behaviour of this method is not
+   * guaranteed between versions.
+   */
+  @Override
+  public String toString()
+  {
+    return new FastaFile().print(getSequencesArray());
+  }
+
+  /**
+   * Returns the set of distinct sequence names. No ordering is guaranteed.
+   */
+  @Override
+  public Set<String> getSequenceNames()
+  {
+    Set<String> names = new HashSet<String>();
+    for (SequenceI seq : getSequences())
+    {
+      names.add(seq.getName());
+    }
+    return names;
+  }
+
+  /**
+   * Returns a (possibly empty) alignment whose sequences are aligned to match
+   * the current alignment, as mapped by the given codon mappings.
+   * 
+   * @param codonFrames
+   * @return
+   */
+  @Override
+  public AlignmentI getAlignedComplement(Set<AlignedCodonFrame> codonFrames)
+  {
+    // Note: passing codonFrames as a parameter rather than using
+    // this.codonFrameList as more flexible. Specifically, mappings are held
+    // on the protein alignment but we might want to act on dna.
+
+    // TODO we want the gap character of the mapped alignment, not this one!
+    List<SequenceI> alignedSeqs = AlignmentUtils.getAlignedTranslation(
+            getSequences(), getGapCharacter(), codonFrames);
+    final SequenceI[] seqsAsArray = alignedSeqs
+            .toArray(new SequenceI[alignedSeqs.size()]);
+    AlignmentI al = new Alignment(seqsAsArray);
+    al.padGaps();
+    al.setDataset(null);
+    return al;
+  }
 }