JAL-2379 'direct' pairwise score calculation for PCA (no encoding)
[jalview.git] / src / jalview / analysis / PCA.java
index 7d6b822..1a4060c 100755 (executable)
  */
 package jalview.analysis;
 
-import jalview.datamodel.BinarySequence;
-import jalview.datamodel.BinarySequence.InvalidSequenceTypeException;
 import jalview.math.Matrix;
 import jalview.math.MatrixI;
-import jalview.math.SparseMatrix;
 import jalview.schemes.ResidueProperties;
 import jalview.schemes.ScoreMatrix;
 
@@ -37,18 +34,18 @@ public class PCA implements Runnable
 {
   boolean jvCalcMode = true;
 
-  MatrixI m;
-
   MatrixI symm;
 
-  MatrixI m2;
-
   double[] eigenvalue;
 
   MatrixI eigenvector;
 
   StringBuilder details = new StringBuilder(1024);
 
+  private String[] seqs;
+
+  private ScoreMatrix scoreMatrix;
+
   /**
    * Creates a new PCA object. By default, uses blosum62 matrix to generate
    * sequence similarity matrices
@@ -78,88 +75,78 @@ public class PCA implements Runnable
 
   public PCA(String[] s, boolean nucleotides, String s_m)
   {
-
-    BinarySequence[] bs = new BinarySequence[s.length];
-    int ii = 0;
-
-    while ((ii < s.length) && (s[ii] != null))
-    {
-      bs[ii] = new BinarySequence(s[ii], nucleotides);
-      bs[ii].encode();
-      ii++;
-    }
-
-    BinarySequence[] bs2 = new BinarySequence[s.length];
-    ScoreMatrix smtrx = null;
+    this.seqs = s;
+
+    // BinarySequence[] bs = new BinarySequence[s.length];
+    // int ii = 0;
+    //
+    // while ((ii < s.length) && (s[ii] != null))
+    // {
+    // bs[ii] = new BinarySequence(s[ii], nucleotides);
+    // bs[ii].encode();
+    // ii++;
+    // }
+    //
+    // BinarySequence[] bs2 = new BinarySequence[s.length];
+    scoreMatrix = null;
     String sm = s_m;
     if (sm != null)
     {
-      smtrx = ResidueProperties.getScoreMatrix(sm);
+      scoreMatrix = ResidueProperties.getScoreMatrix(sm);
     }
-    if (smtrx == null)
+    if (scoreMatrix == null)
     {
       // either we were given a non-existent score matrix or a scoremodel that
       // isn't based on a pairwise symbol score matrix
-      smtrx = ResidueProperties.getScoreMatrix(sm = (nucleotides ? "DNA"
-              : "BLOSUM62"));
+      scoreMatrix = ResidueProperties
+              .getScoreMatrix(sm = (nucleotides ? "DNA" : "BLOSUM62"));
     }
     details.append("PCA calculation using " + sm
             + " sequence similarity matrix\n========\n\n");
-    ii = 0;
-    while ((ii < s.length) && (s[ii] != null))
-    {
-      bs2[ii] = new BinarySequence(s[ii], nucleotides);
-      if (smtrx != null)
-      {
-        try
-        {
-          bs2[ii].matrixEncode(smtrx);
-        } catch (InvalidSequenceTypeException x)
-        {
-          details.append("Unexpected mismatch of sequence type and score matrix. Calculation will not be valid!\n\n");
-        }
-      }
-      ii++;
-    }
-
-    int count = 0;
-    while ((count < bs.length) && (bs[count] != null))
-    {
-      count++;
-    }
-
-    double[][] seqmat = new double[count][];
-    double[][] seqmat2 = new double[count][];
-
-    int i = 0;
-    while (i < count)
-    {
-      seqmat[i] = bs[i].getDBinary();
-      seqmat2[i] = bs2[i].getDBinary();
-      i++;
-    }
-
-    /*
-     * using a SparseMatrix to hold the encoded sequences matrix
-     * greatly speeds up matrix multiplication as these are mostly zero
-     */
-    m = new SparseMatrix(seqmat);
-    m2 = new Matrix(seqmat2);
+    // ii = 0;
+    // while ((ii < s.length) && (s[ii] != null))
+    // {
+    // bs2[ii] = new BinarySequence(s[ii], nucleotides);
+    // if (scoreMatrix != null)
+    // {
+    // try
+    // {
+    // bs2[ii].matrixEncode(scoreMatrix);
+    // } catch (InvalidSequenceTypeException x)
+    // {
+    // details.append("Unexpected mismatch of sequence type and score matrix. Calculation will not be valid!\n\n");
+    // }
+    // }
+    // ii++;
+    // }
+    //
+    // int count = 0;
+    // while ((count < bs.length) && (bs[count] != null))
+    // {
+    // count++;
+    // }
+    //
+    // double[][] seqmat = new double[count][];
+    // double[][] seqmat2 = new double[count][];
+    //
+    // int i = 0;
+    // while (i < count)
+    // {
+    // seqmat[i] = bs[i].getDBinary();
+    // seqmat2[i] = bs2[i].getDBinary();
+    // i++;
+    // }
+    //
+    // /*
+    // * using a SparseMatrix to hold the encoded sequences matrix
+    // * greatly speeds up matrix multiplication as these are mostly zero
+    // */
+    // m = new SparseMatrix(seqmat);
+    // m2 = new Matrix(seqmat2);
 
   }
 
   /**
-   * Returns the matrix used in PCA calculation
-   * 
-   * @return
-   */
-
-  public MatrixI getM()
-  {
-    return m;
-  }
-
-  /**
    * Returns Eigenvalue
    * 
    * @param i
@@ -188,9 +175,9 @@ public class PCA implements Runnable
    */
   public float[][] getComponents(int l, int n, int mm, float factor)
   {
-    float[][] out = new float[m.height()][3];
+    float[][] out = new float[getHeight()][3];
 
-    for (int i = 0; i < m.height(); i++)
+    for (int i = 0; i < getHeight(); i++)
     {
       out[i][0] = (float) component(i, l) * factor;
       out[i][1] = (float) component(i, n) * factor;
@@ -211,9 +198,9 @@ public class PCA implements Runnable
   public double[] component(int n)
   {
     // n = index of eigenvector
-    double[] out = new double[m.height()];
+    double[] out = new double[getHeight()];
 
-    for (int i = 0; i < m.height(); i++)
+    for (int i = 0; i < out.length; i++)
     {
       out[i] = component(i, n);
     }
@@ -275,12 +262,12 @@ public class PCA implements Runnable
       details.append("PCA Calculation Mode is "
               + (jvCalcMode ? "Jalview variant" : "Original SeqSpace")
               + "\n");
-      MatrixI mt = m.transpose();
-
-      details.append(" --- OrigT * Orig ---- \n");
 
-      eigenvector = mt.preMultiply(jvCalcMode ? m2 : m);
+      // MatrixI mt = m.transpose();
+      // eigenvector = mt.preMultiply(jvCalcMode ? m2 : m);
+      eigenvector = computePairwiseScores();
 
+      details.append(" --- OrigT * Orig ---- \n");
       eigenvector.print(ps, "%8.2f");
 
       symm = eigenvector.copy();
@@ -320,8 +307,62 @@ public class PCA implements Runnable
     // + (System.currentTimeMillis() - now) + "ms"));
   }
 
+  /**
+   * Computes an NxN matrix where N is the number of sequences, and entry [i, j]
+   * is sequence[i] pairwise multiplied with sequence[j], as a sum of scores
+   * computed using the current score matrix. For example
+   * <ul>
+   * <li>Sequences:</li>
+   * <li>FKL</li>
+   * <li>RSD</li>
+   * <li>QIA</li>
+   * <li>GWC</li>
+   * <li>Score matrix is BLOSUM62</li>
+   * <li>product [0, 0] = F.F + K.K + L.L = 6 + 5 + 4 = 15</li>
+   * <li>product [2, 1] = R.R + S.S + D.D = 5 + 4 + 6 = 15</li>
+   * <li>product [2, 2] = Q.Q + I.I + A.A = 5 + 4 + 4 = 13</li>
+   * <li>product [3, 3] = G.G + W.W + C.C = 6 + 11 + 9 = 26</li>
+   * <li>product[0, 1] = F.R + K.S + L.D = -3 + 0 + -3 = -7
+   * <li>and so on</li>
+   * </ul>
+   */
+  MatrixI computePairwiseScores()
+  {
+    double[][] values = new double[seqs.length][];
+    for (int row = 0; row < seqs.length; row++)
+    {
+      values[row] = new double[seqs.length];
+      for (int col = 0; col < seqs.length; col++)
+      {
+        int total = 0;
+        int width = Math.min(seqs[row].length(), seqs[col].length());
+        for (int i = 0; i < width; i++)
+        {
+          char c1 = seqs[row].charAt(i);
+          char c2 = seqs[col].charAt(i);
+          int score = scoreMatrix.getPairwiseScore(c1, c2);
+          total += score;
+        }
+        values[row][col] = total;
+      }
+    }
+    return new Matrix(values);
+  }
+
   public void setJvCalcMode(boolean calcMode)
   {
     this.jvCalcMode = calcMode;
   }
+
+  /**
+   * Answers the N dimensions of the NxN PCA matrix. This is the number of
+   * sequences involved in the pairwise score calculation.
+   * 
+   * @return
+   */
+  public int getHeight()
+  {
+    // TODO can any of seqs[] be null?
+    return seqs.length;
+  }
 }