JAL-2403 JAL-1483 changes to ScoreModelI hierarchy and signatures to
[jalview.git] / src / jalview / analysis / PCA.java
index 9fc6027..738da7d 100755 (executable)
  */
 package jalview.analysis;
 
-import jalview.datamodel.BinarySequence;
-import jalview.datamodel.BinarySequence.InvalidSequenceTypeException;
-import jalview.math.Matrix;
+import jalview.api.analysis.DistanceScoreModelI;
+import jalview.api.analysis.ScoreModelI;
+import jalview.api.analysis.SimilarityScoreModelI;
+import jalview.datamodel.AlignmentView;
 import jalview.math.MatrixI;
-import jalview.math.SparseMatrix;
-import jalview.schemes.ResidueProperties;
-import jalview.schemes.ScoreMatrix;
 
 import java.io.PrintStream;
 
@@ -37,126 +35,25 @@ public class PCA implements Runnable
 {
   boolean jvCalcMode = true;
 
-  MatrixI m;
-
   MatrixI symm;
 
-  MatrixI m2;
-
   double[] eigenvalue;
 
   MatrixI eigenvector;
 
   StringBuilder details = new StringBuilder(1024);
 
-  /**
-   * Creates a new PCA object. By default, uses blosum62 matrix to generate
-   * sequence similarity matrices
-   * 
-   * @param s
-   *          Set of amino acid sequences to perform PCA on
-   */
-  public PCA(String[] s)
-  {
-    this(s, false);
-  }
+  private AlignmentView seqs;
 
-  /**
-   * Creates a new PCA object. By default, uses blosum62 matrix to generate
-   * sequence similarity matrices
-   * 
-   * @param s
-   *          Set of sequences to perform PCA on
-   * @param nucleotides
-   *          if true, uses standard DNA/RNA matrix for sequence similarity
-   *          calculation.
-   */
-  public PCA(String[] s, boolean nucleotides)
-  {
-    this(s, nucleotides, null);
-  }
+  private ScoreModelI scoreModel;
 
-  public PCA(String[] s, boolean nucleotides, String s_m)
+  public PCA(AlignmentView s, ScoreModelI sm)
   {
+    this.seqs = s;
 
-    BinarySequence[] bs = new BinarySequence[s.length];
-    int ii = 0;
-
-    while ((ii < s.length) && (s[ii] != null))
-    {
-      bs[ii] = new BinarySequence(s[ii], nucleotides);
-      bs[ii].encode();
-      ii++;
-    }
-
-    BinarySequence[] bs2 = new BinarySequence[s.length];
-    ScoreMatrix smtrx = null;
-    String sm = s_m;
-    if (sm != null)
-    {
-      smtrx = ResidueProperties.getScoreMatrix(sm);
-    }
-    if (smtrx == null)
-    {
-      // either we were given a non-existent score matrix or a scoremodel that
-      // isn't based on a pairwise symbol score matrix
-      smtrx = ResidueProperties.getScoreMatrix(sm = (nucleotides ? "DNA"
-              : "BLOSUM62"));
-    }
-    details.append("PCA calculation using " + sm
+    scoreModel = sm;
+    details.append("PCA calculation using " + sm.getName()
             + " sequence similarity matrix\n========\n\n");
-    ii = 0;
-    while ((ii < s.length) && (s[ii] != null))
-    {
-      bs2[ii] = new BinarySequence(s[ii], nucleotides);
-      if (smtrx != null)
-      {
-        try
-        {
-          bs2[ii].matrixEncode(smtrx);
-        } catch (InvalidSequenceTypeException x)
-        {
-          details.append("Unexpected mismatch of sequence type and score matrix. Calculation will not be valid!\n\n");
-        }
-      }
-      ii++;
-    }
-
-    int count = 0;
-    while ((count < bs.length) && (bs[count] != null))
-    {
-      count++;
-    }
-
-    double[][] seqmat = new double[count][];
-    double[][] seqmat2 = new double[count][];
-
-    int i = 0;
-    while (i < count)
-    {
-      seqmat[i] = bs[i].getDBinary();
-      seqmat2[i] = bs2[i].getDBinary();
-      i++;
-    }
-
-    /*
-     * using a SparseMatrix to hold the encoded sequences matrix
-     * greatly speeds up matrix multiplication as these are mostly zero
-     */
-    m = new SparseMatrix(seqmat);
-    m2 = new Matrix(seqmat2);
-
-  }
-
-  /**
-   * Returns the matrix used in PCA calculation
-   * 
-   * @return java.math.Matrix object
-   */
-
-  public MatrixI getM()
-  {
-    return m;
   }
 
   /**
@@ -188,9 +85,9 @@ public class PCA implements Runnable
    */
   public float[][] getComponents(int l, int n, int mm, float factor)
   {
-    float[][] out = new float[m.height()][3];
+    float[][] out = new float[getHeight()][3];
 
-    for (int i = 0; i < m.height(); i++)
+    for (int i = 0; i < getHeight(); i++)
     {
       out[i][0] = (float) component(i, l) * factor;
       out[i][1] = (float) component(i, n) * factor;
@@ -211,9 +108,9 @@ public class PCA implements Runnable
   public double[] component(int n)
   {
     // n = index of eigenvector
-    double[] out = new double[m.height()];
+    double[] out = new double[getHeight()];
 
-    for (int i = 0; i < m.height(); i++)
+    for (int i = 0; i < out.length; i++)
     {
       out[i] = component(i, n);
     }
@@ -275,12 +172,10 @@ public class PCA implements Runnable
       details.append("PCA Calculation Mode is "
               + (jvCalcMode ? "Jalview variant" : "Original SeqSpace")
               + "\n");
-      MatrixI mt = m.transpose();
-
-      details.append(" --- OrigT * Orig ---- \n");
 
-      eigenvector = mt.preMultiply(jvCalcMode ? m2 : m);
+      eigenvector = computeSimilarity(seqs);
 
+      details.append(" --- OrigT * Orig ---- \n");
       eigenvector.print(ps, "%8.2f");
 
       symm = eigenvector.copy();
@@ -320,8 +215,52 @@ public class PCA implements Runnable
     // + (System.currentTimeMillis() - now) + "ms"));
   }
 
+  /**
+   * Computes a pairwise similarity matrix for the given sequence regions using
+   * the configured score model. If the score model is a similarity model, then
+   * it computes the result directly. If it is a distance model, then use it to
+   * compute pairwise distances, and convert these to similarity scores by
+   * substracting from the maximum value.
+   * 
+   * @param av
+   * @return
+   */
+  MatrixI computeSimilarity(AlignmentView av)
+  {
+    MatrixI result = null;
+    if (scoreModel instanceof SimilarityScoreModelI)
+    {
+      result = ((SimilarityScoreModelI) scoreModel).findSimilarities(av);
+    }
+    else if (scoreModel instanceof DistanceScoreModelI)
+    {
+      result = ((DistanceScoreModelI) scoreModel).findDistances(av);
+      double maxDistance = result.getMaxValue();
+      result.subtractAllFrom(maxDistance);
+    }
+    else
+    {
+      System.err
+              .println("Unexpected type of score model, cannot calculate similarity");
+    }
+
+    return result;
+  }
+
   public void setJvCalcMode(boolean calcMode)
   {
     this.jvCalcMode = calcMode;
   }
+
+  /**
+   * Answers the N dimensions of the NxN PCA matrix. This is the number of
+   * sequences involved in the pairwise score calculation.
+   * 
+   * @return
+   */
+  public int getHeight()
+  {
+    // TODO can any of seqs[] be null?
+    return seqs.getSequences().length;
+  }
 }