JAL-1967 JAL-1479 refactored sequence<->structure mapping implementation
[jalview.git] / src / jalview / ws / sifts / SiftsClient.java
index 245d38f..106a66e 100644 (file)
@@ -50,6 +50,7 @@ import java.net.URLConnection;
 import java.util.ArrayList;
 import java.util.Arrays;
 import java.util.Collection;
+import java.util.HashMap;
 import java.util.HashSet;
 import java.util.List;
 import java.util.TreeMap;
@@ -89,6 +90,10 @@ public class SiftsClient implements SiftsClientI
 
   private static final int PDB_ATOM_POS = 1;
 
+  private static final String NOT_FOUND = "Not_Found";
+
+  private static final String NOT_OBSERVED = "Not_Observed";
+
   private static final String SIFTS_FTP_BASE_URL = "ftp://ftp.ebi.ac.uk/pub/databases/msd/sifts/xml/";
 
   public static final String DEFAULT_SIFTS_DOWNLOAD_DIR = System
@@ -139,7 +144,7 @@ public class SiftsClient implements SiftsClientI
   };
 
   /**
-   * Fetch SIFTs file for the given PDB Id and construct an instance of
+   * Fetch SIFTs file for the given PDBfile and construct an instance of
    * SiftsClient
    * 
    * @param pdbId
@@ -154,8 +159,8 @@ public class SiftsClient implements SiftsClientI
   }
 
   /**
-   * Construct an instance of SiftsClient using the supplied SIFTs file - the
-   * SIFTs file should correspond to the given PDB Id
+   * Construct an instance of SiftsClient using the supplied SIFTs file. Note:
+   * The SIFTs file should correspond to the PDB Id in PDBfile instance
    * 
    * @param pdbId
    * @param siftsFile
@@ -214,7 +219,8 @@ public class SiftsClient implements SiftsClientI
   }
 
   /**
-   * Get a SIFTs XML file for a given PDB Id
+   * Get a SIFTs XML file for a given PDB Id from Cache or download from FTP
+   * repository if not found in cache
    * 
    * @param pdbId
    * @return SIFTs XML file
@@ -237,7 +243,7 @@ public class SiftsClient implements SiftsClientI
   }
 
   /**
-   * Download a SIFTs XML file for a given PDB Id
+   * Download a SIFTs XML file for a given PDB Id from an FTP repository
    * 
    * @param pdbId
    * @return downloaded SIFTs XML file
@@ -354,8 +360,8 @@ public class SiftsClient implements SiftsClientI
 
 
   /**
-   * Check that the DBRef Entry is properly populated and is available in the
-   * instantiated SIFTs Entry
+   * Check that the DBRef Entry is properly populated and is available in this
+   * SiftClient instance
    * 
    * @param entry
    *          - DBRefEntry to validate
@@ -411,7 +417,7 @@ public class SiftsClient implements SiftsClientI
         mappingDetails.append(NEWLINE);
       }
     };
-    int[][] mapping = getGreedyMapping(chain, seq, ps);
+    HashMap<Integer, int[]> mapping = getGreedyMapping(chain, seq, ps);
 
     String mappingOutput = mappingDetails.toString();
     StructureMapping siftsMapping = new StructureMapping(seq, pdbFile,
@@ -421,17 +427,19 @@ public class SiftsClient implements SiftsClientI
   }
 
   @Override
-  public int[][] getGreedyMapping(String entityId, SequenceI seq,
+  public HashMap<Integer, int[]> getGreedyMapping(String entityId, SequenceI seq,
           java.io.PrintStream os)
  throws SiftsException
   {
+    ArrayList<Integer> omitNonObserved = new ArrayList<Integer>();
+    int nonObservedShiftIndex = 0;
     System.out.println("Generating mappings for : " + entityId);
     Entity entity = null;
     entity = getEntityById(entityId);
     String originalSeq = AlignSeq.extractGaps(
             jalview.util.Comparison.GapChars,
             seq.getSequenceAsString());
-    int mapping[][] = new int[originalSeq.length() + seq.getStart()][2];
+    HashMap<Integer, int[]> mapping = new HashMap<Integer, int[]>();
     DBRefEntryI sourceDBRef = seq.getSourceDBRef();
     if (sourceDBRef == null)
     {
@@ -456,12 +464,6 @@ public class SiftsClient implements SiftsClientI
     curDBRefAccessionIdsString = dbRefAccessionIdsString;
     curSourceDBRef = sourceDBRef.getAccessionId();
 
-    // initialise all mapping positions to unassigned
-    for (int residuePos[] : mapping)
-    {
-      residuePos[PDB_RES_POS] = UNASSIGNED;
-      residuePos[PDB_ATOM_POS] = UNASSIGNED;
-    }
     TreeMap<Integer, String> resNumMap = new TreeMap<Integer, String>();
     List<Segment> segments = entity.getSegment();
     for (Segment segment : segments)
@@ -483,7 +485,7 @@ public class SiftsClient implements SiftsClientI
           }
           if (cRefDb.getDbCoordSys()
                   .equalsIgnoreCase(seqCoordSys.getName())
-                  && hasAccessionId(cRefDb.getDbAccessionId()))
+                  && isAccessionMatched(cRefDb.getDbAccessionId()))
           {
             String resNumIndexString = cRefDb.getDbResNum()
                     .equalsIgnoreCase("None") ? String.valueOf(UNASSIGNED)
@@ -512,17 +514,21 @@ public class SiftsClient implements SiftsClientI
                     .getDbResNum()) : Integer.valueOf(pdbRefDb
                     .getDbResNum().split("[a-zA-Z]")[0]);
           }
-          try
+
+          if (isResidueObserved(residue)
+                  || seqCoordSys == CoordinateSys.UNIPROT)
           {
-            mapping[currSeqIndex][PDB_RES_POS] = Integer
-                    .valueOf(resNum);
-          } catch (ArrayIndexOutOfBoundsException e)
+            char resCharCode = ResidueProperties
+                    .getSingleCharacterCode(residue.getDbResName());
+            resNumMap.put(currSeqIndex, String.valueOf(resCharCode));
+          }
+          else
           {
-            // do nothing..
+            omitNonObserved.add(currSeqIndex);
+            ++nonObservedShiftIndex;
           }
-          char resCharCode = ResidueProperties
-                  .getSingleCharacterCode(residue.getDbResName());
-          resNumMap.put(currSeqIndex, String.valueOf(resCharCode));
+          mapping.put(currSeqIndex - nonObservedShiftIndex, new int[] {
+              Integer.valueOf(resNum), UNASSIGNED });
         }
       }
     }
@@ -533,40 +539,29 @@ public class SiftsClient implements SiftsClientI
     {
       e.printStackTrace();
     }
-    padWithGaps(resNumMap);
-    int counter = 0;
+    padWithGaps(resNumMap, omitNonObserved);
     int seqStart = UNASSIGNED;
     int seqEnd = UNASSIGNED;
     int pdbStart = UNASSIGNED;
     int pdbEnd = UNASSIGNED;
-    boolean startDetected = false;
-    for (int[] x : mapping)
-    {
-      if (!startDetected && x[PDB_RES_POS] != UNASSIGNED)
-      {
-        seqStart = counter;
-        startDetected = true;
-        // System.out.println("Seq start: "+ seqStart);
-      }
 
-      if (startDetected && x[PDB_RES_POS] != UNASSIGNED)
-      {
-        seqEnd = counter;
-      }
-      ++counter;
-    }
+    Integer[] keys = mapping.keySet().toArray(new Integer[0]);
+    Arrays.sort(keys);
+    seqStart = keys[0];
+    seqEnd = keys[keys.length - 1];
 
     String matchedSeq = originalSeq;
     if (seqStart != UNASSIGNED)
     {
-      seqEnd = (seqEnd == UNASSIGNED) ? counter : seqEnd;
-      pdbStart = mapping[seqStart][PDB_RES_POS];
-      pdbEnd = mapping[seqEnd][PDB_RES_POS];
+      pdbStart = mapping.get(seqStart)[PDB_RES_POS];
+      pdbEnd = mapping.get(seqEnd)[PDB_RES_POS];
       int orignalSeqStart = seq.getStart();
       if (orignalSeqStart >= 1)
       {
         int subSeqStart = seqStart - orignalSeqStart;
         int subSeqEnd = seqEnd - (orignalSeqStart - 1);
+        subSeqEnd = originalSeq.length() < subSeqEnd ? originalSeq.length()
+                : subSeqEnd;
         matchedSeq = originalSeq.substring(subSeqStart, subSeqEnd);
       }
     }
@@ -596,6 +591,12 @@ public class SiftsClient implements SiftsClientI
     return mapping;
   }
 
+  /**
+   * Checks if the residue instance is marked 'Not_observed' or not
+   * 
+   * @param residue
+   * @return
+   */
   private boolean isResidueObserved(Residue residue)
   {
     String annotation = getResidueAnnotaiton(residue,
@@ -604,14 +605,21 @@ public class SiftsClient implements SiftsClientI
     {
       return true;
     }
-    if (!annotation.equalsIgnoreCase("Not_Found")
-            && annotation.equalsIgnoreCase("Not_Observed"))
+    if (!annotation.equalsIgnoreCase(NOT_FOUND)
+            && annotation.equalsIgnoreCase(NOT_OBSERVED))
     {
       return false;
     }
     return true;
   }
 
+  /**
+   * Get annotation String for a given residue and annotation type
+   * 
+   * @param residue
+   * @param type
+   * @return
+   */
   private String getResidueAnnotaiton(Residue residue,
           ResidueDetailType type)
   {
@@ -623,29 +631,30 @@ public class SiftsClient implements SiftsClientI
         return resDetail.getContent();
       }
     }
-    return "Not_Found";
+    return NOT_FOUND;
   }
 
-  private boolean hasAccessionId(String accession)
+  @Override
+  public boolean isAccessionMatched(String accession)
   {
     boolean isStrictMatch = true;
     return isStrictMatch ? curSourceDBRef.equalsIgnoreCase(accession)
             : curDBRefAccessionIdsString.contains(accession.toLowerCase());
   }
 
-  @Override
-  public boolean isFoundInSiftsEntry(String accessionId)
+  private boolean isFoundInSiftsEntry(String accessionId)
   {
     return accessionId != null
             && getAllMappingAccession().contains(accessionId);
   }
 
   /**
-   * Pads missing positions with gaps
+   * Pad omitted residue positions in PDB sequence with gaps
    * 
    * @param resNumMap
    */
-  void padWithGaps(TreeMap<Integer, String> resNumMap)
+  void padWithGaps(TreeMap<Integer, String> resNumMap,
+          ArrayList<Integer> omitNonObserved)
   {
     if (resNumMap == null || resNumMap.isEmpty())
     {
@@ -659,13 +668,14 @@ public class SiftsClient implements SiftsClientI
     System.out.println("Max value " + lastIndex);
     for (int x = firstIndex; x <= lastIndex; x++)
     {
-      if (!resNumMap.containsKey(x))
+      if (!resNumMap.containsKey(x) && !omitNonObserved.contains(x))
       {
         resNumMap.put(x, "-");
       }
     }
   }
 
+
   /**
    * 
    * @param chainId
@@ -675,7 +685,7 @@ public class SiftsClient implements SiftsClientI
    * @throws IllegalArgumentException
    *           Thrown if chainId or mapping is null
    */
-  void populateAtomPositions(String chainId, int[][] mapping)
+  void populateAtomPositions(String chainId, HashMap<Integer, int[]> mapping)
           throws IllegalArgumentException
   {
     PDBChain chain = pdb.findChain(chainId);
@@ -684,7 +694,7 @@ public class SiftsClient implements SiftsClientI
       throw new IllegalArgumentException(
               "Chain id or mapping must not be null.");
     }
-    for (int[] map : mapping)
+    for (int[] map : mapping.values())
     {
       if (map[PDB_RES_POS] != UNASSIGNED)
       {