JAL-1479 refactored DBRef fetching code to StructureChooser to enable applet build
[jalview.git] / src / jalview / ws / sifts / SiftsClient.java
index e054b29..00da2fc 100644 (file)
@@ -35,6 +35,7 @@ import jalview.xml.binding.sifts.Entry.Entity.Segment;
 import jalview.xml.binding.sifts.Entry.Entity.Segment.ListMapRegion.MapRegion;
 import jalview.xml.binding.sifts.Entry.Entity.Segment.ListResidue.Residue;
 import jalview.xml.binding.sifts.Entry.Entity.Segment.ListResidue.Residue.CrossRefDb;
+import jalview.xml.binding.sifts.Entry.Entity.Segment.ListResidue.Residue.ResidueDetail;
 import jalview.xml.binding.sifts.Entry.ListDB.Db;
 
 import java.io.File;
@@ -49,6 +50,7 @@ import java.net.URLConnection;
 import java.util.ArrayList;
 import java.util.Arrays;
 import java.util.Collection;
+import java.util.HashMap;
 import java.util.HashSet;
 import java.util.List;
 import java.util.TreeMap;
@@ -78,11 +80,7 @@ public class SiftsClient implements SiftsClientI
 
   private String segStartEnd;
 
-  private static final String UNIPROT_COORDINATE_SYS = "UniProt";
-
-  private static final String PDB_COORDINATE_SYS = "PDBresnum";
-
-  private String seqCoordSys = UNIPROT_COORDINATE_SYS;
+  private CoordinateSys seqCoordSys = CoordinateSys.UNIPROT;
 
   private static final int BUFFER_SIZE = 4096;
 
@@ -92,57 +90,80 @@ public class SiftsClient implements SiftsClientI
 
   private static final int PDB_ATOM_POS = 1;
 
-  private static final String SIFTS_FTP_BASE_URL = "ftp://ftp.ebi.ac.uk/pub/databases/msd/sifts/xml/";
+  private static final String NOT_FOUND = "Not_Found";
 
-  public static final String DEFAULT_SIFTS_DOWNLOAD_DIR = System
-          .getProperty("user.home")
-          + File.separatorChar
-          + ".sifts_downloads" + File.separatorChar;
+  private static final String NOT_OBSERVED = "Not_Observed";
 
-  public static final String SIFTS_DOWNLOAD_DIR = jalview.bin.Cache
-          .getDefault("sifts_download_dir", DEFAULT_SIFTS_DOWNLOAD_DIR);
+  private static final String SIFTS_FTP_BASE_URL = "ftp://ftp.ebi.ac.uk/pub/databases/msd/sifts/xml/";
 
   private final static String NEWLINE = System.lineSeparator();
 
+  private String curSourceDBRef;
+
+  private HashSet<String> curDBRefAccessionIdsString;
+
+  public enum CoordinateSys
+  {
+    UNIPROT("UniProt"), PDB("PDBresnum"), PDBe("PDBe");
+    private String name;
+
+    private CoordinateSys(String name)
+    {
+      this.name = name;
+    }
+
+    public String getName()
+    {
+      return name;
+    }
+  };
+
+  public enum ResidueDetailType
+  {
+    NAME_SEC_STRUCTURE("nameSecondaryStructure"), CODE_SEC_STRUCTURE(
+            "codeSecondaryStructure"), ANNOTATION("Annotation");
+    private String code;
+
+    private ResidueDetailType(String code)
+    {
+      this.code = code;
+    }
+
+    public String getCode()
+    {
+      return code;
+    }
+  };
+
   /**
-   * Fetch SIFTs file for the given PDB Id and construct an instance of
+   * Fetch SIFTs file for the given PDBfile and construct an instance of
    * SiftsClient
    * 
    * @param pdbId
+   * @throws SiftsException
    */
-  public SiftsClient(PDBfile pdb)
+  public SiftsClient(PDBfile pdb) throws SiftsException
   {
     this.pdb = pdb;
     this.pdbId = pdb.id;
-    try
-    {
-      File siftsFile = getSiftsFile(pdbId);
-      siftsEntry = parseSIFTs(siftsFile);
-    } catch (Exception e)
-    {
-      e.printStackTrace();
-    }
+    File siftsFile = getSiftsFile(pdbId);
+    siftsEntry = parseSIFTs(siftsFile);
   }
 
   /**
-   * Construct an instance of SiftsClient using the supplied SIFTs file - 
-   * the SIFTs file should correspond to the given PDB Id
+   * Construct an instance of SiftsClient using the supplied SIFTs file. Note:
+   * The SIFTs file should correspond to the PDB Id in PDBfile instance
    * 
    * @param pdbId
    * @param siftsFile
+   * @throws SiftsException
+   * @throws Exception
    */
-  public SiftsClient(PDBfile pdb, File siftsFile)
+  public SiftsClient(PDBfile pdb, File siftsFile) throws SiftsException
   {
     this.pdb = pdb;
     this.pdbId = pdb.id;
-    try
-    {
-      siftsEntry = parseSIFTs(siftsFile);
-    } catch (Exception e)
-    {
-      e.printStackTrace();
-    }
-
+    siftsEntry = parseSIFTs(siftsFile);
   }
 
   /**
@@ -154,14 +175,13 @@ public class SiftsClient implements SiftsClientI
    * @throws Exception
    *           if a problem occurs while parsing the SIFTs XML
    */
-  private Entry parseSIFTs(File siftFile) throws Exception
+  private Entry parseSIFTs(File siftFile) throws SiftsException
   {
-    try
+    try (InputStream in = new FileInputStream(siftFile);
+            GZIPInputStream gzis = new GZIPInputStream(in);)
     {
       System.out.println("File : " + siftFile.getAbsolutePath());
       JAXBContext jc = JAXBContext.newInstance("jalview.xml.binding.sifts");
-      InputStream in = new FileInputStream(siftFile);
-      GZIPInputStream gzis = new GZIPInputStream(in);
       XMLStreamReader streamReader = XMLInputFactory.newInstance()
               .createXMLStreamReader(gzis);
       Unmarshaller um = jc.createUnmarshaller();
@@ -169,31 +189,38 @@ public class SiftsClient implements SiftsClientI
     } catch (JAXBException e)
     {
       e.printStackTrace();
+      throw new SiftsException(e.getMessage());
     } catch (FileNotFoundException e)
     {
       e.printStackTrace();
+      throw new SiftsException(e.getMessage());
     } catch (XMLStreamException e)
     {
       e.printStackTrace();
+      throw new SiftsException(e.getMessage());
     } catch (FactoryConfigurationError e)
     {
       e.printStackTrace();
+      throw new SiftsException(e.getMessage());
     } catch (IOException e)
     {
       e.printStackTrace();
+      throw new SiftsException(e.getMessage());
     }
-    throw new Exception("Error parsing siftFile");
   }
 
   /**
-   * Get a SIFTs XML file for a given PDB Id
+   * Get a SIFTs XML file for a given PDB Id from Cache or download from FTP
+   * repository if not found in cache
    * 
    * @param pdbId
    * @return SIFTs XML file
+   * @throws SiftsException
    */
-  public static File getSiftsFile(String pdbId)
+  public static File getSiftsFile(String pdbId) throws SiftsException
   {
-    File siftsFile = new File(SIFTS_DOWNLOAD_DIR + pdbId.toLowerCase()
+    File siftsFile = new File(SiftsSettings.getSiftDownloadDirectory()
+            + pdbId.toLowerCase()
             + ".xml.gz");
     if (siftsFile.exists())
     {
@@ -208,17 +235,20 @@ public class SiftsClient implements SiftsClientI
   }
 
   /**
-   * Download a SIFTs XML file for a given PDB Id
+   * Download a SIFTs XML file for a given PDB Id from an FTP repository
    * 
    * @param pdbId
    * @return downloaded SIFTs XML file
+   * @throws SiftsException
    */
-  public static File downloadSiftsFile(String pdbId)
+  public static File downloadSiftsFile(String pdbId) throws SiftsException
   {
     String siftFile = pdbId + ".xml.gz";
     String siftsFileFTPURL = SIFTS_FTP_BASE_URL + siftFile;
-    String downloadedSiftsFile = SIFTS_DOWNLOAD_DIR + siftFile;
-    File siftsDownloadDir = new File(SIFTS_DOWNLOAD_DIR);
+    String downloadedSiftsFile = SiftsSettings.getSiftDownloadDirectory()
+            + siftFile;
+    File siftsDownloadDir = new File(
+            SiftsSettings.getSiftDownloadDirectory());
     if (!siftsDownloadDir.exists())
     {
       siftsDownloadDir.mkdirs();
@@ -242,7 +272,7 @@ public class SiftsClient implements SiftsClientI
       System.out.println(">>> File downloaded : " + downloadedSiftsFile);
     } catch (IOException ex)
     {
-      ex.printStackTrace();
+      throw new SiftsException(ex.getMessage());
     }
     return new File(downloadedSiftsFile);
   }
@@ -256,7 +286,8 @@ public class SiftsClient implements SiftsClientI
    */
   public static boolean deleteSiftsFileByPDBId(String pdbId)
   {
-    File siftsFile = new File(SIFTS_DOWNLOAD_DIR + pdbId.toLowerCase()
+    File siftsFile = new File(SiftsSettings.getSiftDownloadDirectory()
+            + pdbId.toLowerCase()
             + ".xml.gz");
     if (siftsFile.exists())
     {
@@ -289,14 +320,6 @@ public class SiftsClient implements SiftsClientI
       DBRefEntry[] dbRefs = seq.getDBRefs();
       if (dbRefs == null || dbRefs.length < 1)
       {
-        final SequenceI[] seqs = new SequenceI[] { seq };
-        new jalview.ws.DBRefFetcher(seqs, null, null, null, false)
-                .fetchDBRefs(true);
-        dbRefs = seq.getDBRefs();
-      }
-
-      if (dbRefs == null || dbRefs.length < 1)
-      {
         throw new SiftsException("Could not get source DB Ref");
       }
 
@@ -308,8 +331,8 @@ public class SiftsClient implements SiftsClientI
           continue;
         }
         if (isFoundInSiftsEntry(dbRef.getAccessionId())
-                && (dbRef.getSource().equalsIgnoreCase("uniprot") || dbRef
-                        .getSource().equalsIgnoreCase("pdb")))
+                && (dbRef.getSource().equalsIgnoreCase(DBRefSource.UNIPROT) || dbRef
+                        .getSource().equalsIgnoreCase(DBRefSource.PDB)))
         {
           return dbRef;
         }
@@ -324,8 +347,8 @@ public class SiftsClient implements SiftsClientI
 
 
   /**
-   * Check that the DBRef Entry is properly populated and is available in the
-   * instantiated SIFTs Entry
+   * Check that the DBRef Entry is properly populated and is available in this
+   * SiftClient instance
    * 
    * @param entry
    *          - DBRefEntry to validate
@@ -381,7 +404,7 @@ public class SiftsClient implements SiftsClientI
         mappingDetails.append(NEWLINE);
       }
     };
-    int[][] mapping = getGreedyMapping(chain, seq, ps);
+    HashMap<Integer, int[]> mapping = getGreedyMapping(chain, seq, ps);
 
     String mappingOutput = mappingDetails.toString();
     StructureMapping siftsMapping = new StructureMapping(seq, pdbFile,
@@ -391,18 +414,19 @@ public class SiftsClient implements SiftsClientI
   }
 
   @Override
-  public int[][] getGreedyMapping(String entityId, SequenceI seq,
+  public HashMap<Integer, int[]> getGreedyMapping(String entityId, SequenceI seq,
           java.io.PrintStream os)
  throws SiftsException
   {
-
+    ArrayList<Integer> omitNonObserved = new ArrayList<Integer>();
+    int nonObservedShiftIndex = 0;
     System.out.println("Generating mappings for : " + entityId);
     Entity entity = null;
     entity = getEntityById(entityId);
     String originalSeq = AlignSeq.extractGaps(
             jalview.util.Comparison.GapChars,
             seq.getSequenceAsString());
-    int mapping[][] = new int[originalSeq.length() + seq.getStart()][2];
+    HashMap<Integer, int[]> mapping = new HashMap<Integer, int[]>();
     DBRefEntryI sourceDBRef = seq.getSourceDBRef();
     if (sourceDBRef == null)
     {
@@ -414,22 +438,19 @@ public class SiftsClient implements SiftsClientI
     // set sequence coordinate system - default value is UniProt
     if (sourceDBRef.getSource().equalsIgnoreCase(DBRefSource.PDB))
     {
-      seqCoordSys = PDB_COORDINATE_SYS;
+      seqCoordSys = CoordinateSys.PDB;
     }
 
-    ArrayList<String> dbRefAccessionIdsString = new ArrayList<String>();
+    HashSet<String> dbRefAccessionIdsString = new HashSet<String>();
     for (DBRefEntry dbref : seq.getDBRefs())
     {
-      dbRefAccessionIdsString.add(dbref.getAccessionId());
+      dbRefAccessionIdsString.add(dbref.getAccessionId().toLowerCase());
     }
+    dbRefAccessionIdsString.add(sourceDBRef.getAccessionId().toLowerCase());
+
+    curDBRefAccessionIdsString = dbRefAccessionIdsString;
+    curSourceDBRef = sourceDBRef.getAccessionId();
 
-    // initialise all mapping positions to unassigned
-    for (int residuePos[] : mapping)
-    {
-      residuePos[PDB_RES_POS] = UNASSIGNED;
-      residuePos[PDB_ATOM_POS] = UNASSIGNED;
-    }
-    
     TreeMap<Integer, String> resNumMap = new TreeMap<Integer, String>();
     List<Segment> segments = entity.getSegment();
     for (Segment segment : segments)
@@ -442,17 +463,25 @@ public class SiftsClient implements SiftsClientI
       {
         int currSeqIndex = UNASSIGNED;
         List<CrossRefDb> cRefDbs = residue.getCrossRefDb();
+        CrossRefDb pdbRefDb = null;
         for (CrossRefDb cRefDb : cRefDbs)
         {
-          if (cRefDb.getDbCoordSys().equalsIgnoreCase(seqCoordSys)
-                  && dbRefAccessionIdsString.contains(cRefDb
-                          .getDbAccessionId()))
+          if (cRefDb.getDbSource().equalsIgnoreCase(DBRefSource.PDB))
+          {
+            pdbRefDb = cRefDb;
+          }
+          if (cRefDb.getDbCoordSys()
+                  .equalsIgnoreCase(seqCoordSys.getName())
+                  && isAccessionMatched(cRefDb.getDbAccessionId()))
           {
             String resNumIndexString = cRefDb.getDbResNum()
                     .equalsIgnoreCase("None") ? String.valueOf(UNASSIGNED)
                     : cRefDb.getDbResNum();
             currSeqIndex = Integer.valueOf(resNumIndexString);
-            break;
+            if (pdbRefDb != null)
+            {
+              break;// exit loop if pdb and uniprot are already found
+            }
           }
         }
         if (currSeqIndex == UNASSIGNED)
@@ -461,11 +490,32 @@ public class SiftsClient implements SiftsClientI
         }
         if (currSeqIndex > seq.getStart() && currSeqIndex <= seq.getEnd())
         {
-          int resNum = Integer.valueOf(residue.getDbResNum());
-          mapping[currSeqIndex][PDB_RES_POS] = Integer.valueOf(resNum);
-          char resCharCode = ResidueProperties
-                  .getSingleCharacterCode(residue.getDbResName());
-          resNumMap.put(currSeqIndex, String.valueOf(resCharCode));
+          int resNum;
+          try
+          {
+            resNum = (pdbRefDb == null) ? Integer.valueOf(residue
+                  .getDbResNum()) : Integer.valueOf(pdbRefDb.getDbResNum());
+          } catch (NumberFormatException nfe)
+          {
+            resNum = (pdbRefDb == null) ? Integer.valueOf(residue
+                    .getDbResNum()) : Integer.valueOf(pdbRefDb
+                    .getDbResNum().split("[a-zA-Z]")[0]);
+          }
+
+          if (isResidueObserved(residue)
+                  || seqCoordSys == CoordinateSys.UNIPROT)
+          {
+            char resCharCode = ResidueProperties
+                    .getSingleCharacterCode(residue.getDbResName());
+            resNumMap.put(currSeqIndex, String.valueOf(resCharCode));
+          }
+          else
+          {
+            omitNonObserved.add(currSeqIndex);
+            ++nonObservedShiftIndex;
+          }
+          mapping.put(currSeqIndex - nonObservedShiftIndex, new int[] {
+              Integer.valueOf(resNum), UNASSIGNED });
         }
       }
     }
@@ -476,40 +526,29 @@ public class SiftsClient implements SiftsClientI
     {
       e.printStackTrace();
     }
-    padWithGaps(resNumMap);
-    int counter = 0;
-    int seqStart = 0;
-    int seqEnd = 0;
-    int pdbStart = 0;
-    int pdbEnd = 0;
-    boolean startDetected = false;
-    for (int[] x : mapping)
-    {
-      if (!startDetected && x[PDB_RES_POS] != UNASSIGNED)
-      {
-        seqStart = counter;
-        startDetected = true;
-        // System.out.println("Seq start: "+ seqStart);
-      }
+    padWithGaps(resNumMap, omitNonObserved);
+    int seqStart = UNASSIGNED;
+    int seqEnd = UNASSIGNED;
+    int pdbStart = UNASSIGNED;
+    int pdbEnd = UNASSIGNED;
 
-      if (startDetected && x[PDB_RES_POS] != UNASSIGNED)
-      {
-        seqEnd = counter;
-      }
-      ++counter;
-    }
+    Integer[] keys = mapping.keySet().toArray(new Integer[0]);
+    Arrays.sort(keys);
+    seqStart = keys[0];
+    seqEnd = keys[keys.length - 1];
 
     String matchedSeq = originalSeq;
     if (seqStart != UNASSIGNED)
     {
-      seqEnd = (seqEnd == UNASSIGNED) ? counter : seqEnd;
-      pdbStart = mapping[seqStart][PDB_RES_POS];
-      pdbEnd = mapping[seqEnd][PDB_RES_POS];
+      pdbStart = mapping.get(seqStart)[PDB_RES_POS];
+      pdbEnd = mapping.get(seqEnd)[PDB_RES_POS];
       int orignalSeqStart = seq.getStart();
       if (orignalSeqStart >= 1)
       {
         int subSeqStart = seqStart - orignalSeqStart;
         int subSeqEnd = seqEnd - (orignalSeqStart - 1);
+        subSeqEnd = originalSeq.length() < subSeqEnd ? originalSeq.length()
+                : subSeqEnd;
         matchedSeq = originalSeq.substring(subSeqStart, subSeqEnd);
       }
     }
@@ -520,45 +559,94 @@ public class SiftsClient implements SiftsClientI
       targetStrucSeqs.append(res);
     }
 
-    try
+    if (os != null)
+    {
+      MappingOutputPojo mop = new MappingOutputPojo();
+      mop.setSeqStart(seqStart);
+      mop.setSeqEnd(seqEnd);
+      mop.setSeqName(seq.getName());
+      mop.setSeqResidue(matchedSeq);
+
+      mop.setStrStart(pdbStart);
+      mop.setStrEnd(pdbEnd);
+      mop.setStrName(structId);
+      mop.setStrResidue(targetStrucSeqs.toString());
+
+      mop.setType("pep");
+      os.print(getMappingOutput(mop).toString());
+    }
+    return mapping;
+  }
+
+  /**
+   * Checks if the residue instance is marked 'Not_observed' or not
+   * 
+   * @param residue
+   * @return
+   */
+  private boolean isResidueObserved(Residue residue)
+  {
+    String annotation = getResidueAnnotaiton(residue,
+            ResidueDetailType.ANNOTATION);
+    if (annotation == null)
     {
-      if (os != null)
+      return true;
+    }
+    if (!annotation.equalsIgnoreCase(NOT_FOUND)
+            && annotation.equalsIgnoreCase(NOT_OBSERVED))
+    {
+      return false;
+    }
+    return true;
+  }
+
+  /**
+   * Get annotation String for a given residue and annotation type
+   * 
+   * @param residue
+   * @param type
+   * @return
+   */
+  private String getResidueAnnotaiton(Residue residue,
+          ResidueDetailType type)
+  {
+    List<ResidueDetail> resDetails = residue.getResidueDetail();
+    for (ResidueDetail resDetail : resDetails)
+    {
+      if (resDetail.getProperty().equalsIgnoreCase(type.getCode()))
       {
-        MappingOutputPojo mop = new MappingOutputPojo();
-        mop.setSeqStart(seqStart);
-        mop.setSeqEnd(seqEnd);
-        mop.setSeqName(seq.getName());
-        mop.setSeqResidue(matchedSeq);
-
-        mop.setStrStart(pdbStart);
-        mop.setStrEnd(pdbEnd);
-        mop.setStrName(structId);
-        mop.setStrResidue(targetStrucSeqs.toString());
-
-        mop.setType("pep");
-        os.print(getMappingOutput(mop).toString());
+        return resDetail.getContent();
       }
-    } catch (Exception ex)
-    {
-      ex.printStackTrace();
     }
-    return mapping;
+    return NOT_FOUND;
   }
 
   @Override
-  public boolean isFoundInSiftsEntry(String accessionId)
+  public boolean isAccessionMatched(String accession)
+  {
+    boolean isStrictMatch = true;
+    return isStrictMatch ? curSourceDBRef.equalsIgnoreCase(accession)
+            : curDBRefAccessionIdsString.contains(accession.toLowerCase());
+  }
+
+  private boolean isFoundInSiftsEntry(String accessionId)
   {
     return accessionId != null
             && getAllMappingAccession().contains(accessionId);
   }
 
   /**
-   * Pads missing positions with gaps
+   * Pad omitted residue positions in PDB sequence with gaps
    * 
    * @param resNumMap
    */
-  void padWithGaps(TreeMap<Integer, String> resNumMap)
+  void padWithGaps(TreeMap<Integer, String> resNumMap,
+          ArrayList<Integer> omitNonObserved)
   {
+    if (resNumMap == null || resNumMap.isEmpty())
+    {
+      return;
+    }
     Integer[] keys = resNumMap.keySet().toArray(new Integer[0]);
     Arrays.sort(keys);
     int firstIndex = keys[0];
@@ -567,13 +655,14 @@ public class SiftsClient implements SiftsClientI
     System.out.println("Max value " + lastIndex);
     for (int x = firstIndex; x <= lastIndex; x++)
     {
-      if (!resNumMap.containsKey(x))
+      if (!resNumMap.containsKey(x) && !omitNonObserved.contains(x))
       {
         resNumMap.put(x, "-");
       }
     }
   }
 
+
   /**
    * 
    * @param chainId
@@ -583,7 +672,7 @@ public class SiftsClient implements SiftsClientI
    * @throws IllegalArgumentException
    *           Thrown if chainId or mapping is null
    */
-  void populateAtomPositions(String chainId, int[][] mapping)
+  void populateAtomPositions(String chainId, HashMap<Integer, int[]> mapping)
           throws IllegalArgumentException
   {
     PDBChain chain = pdb.findChain(chainId);
@@ -592,7 +681,7 @@ public class SiftsClient implements SiftsClientI
       throw new IllegalArgumentException(
               "Chain id or mapping must not be null.");
     }
-    for (int[] map : mapping)
+    for (int[] map : mapping.values())
     {
       if (map[PDB_RES_POS] != UNASSIGNED)
       {
@@ -766,6 +855,10 @@ public class SiftsClient implements SiftsClientI
       output.append(NEWLINE).append(NEWLINE);
     }
     float pid = (float) matchedSeqCount / seqRes.length() * 100;
+    if (pid < 2)
+    {
+      throw new SiftsException("Low PID detected for SIFTs mapping...");
+    }
     output.append("Length of alignment = " + seqRes.length())
             .append(NEWLINE);
     output.append(new Format("Percentage ID = %2.2f").form(pid));