Merge branch 'develop' into features/JAL-2110_crossRefDuplications
[jalview.git] / src / jalview / datamodel / xdb / embl / EmblEntry.java
1 /*
2  * Jalview - A Sequence Alignment Editor and Viewer ($$Version-Rel$$)
3  * Copyright (C) $$Year-Rel$$ The Jalview Authors
4  * 
5  * This file is part of Jalview.
6  * 
7  * Jalview is free software: you can redistribute it and/or
8  * modify it under the terms of the GNU General Public License 
9  * as published by the Free Software Foundation, either version 3
10  * of the License, or (at your option) any later version.
11  *  
12  * Jalview is distributed in the hope that it will be useful, but 
13  * WITHOUT ANY WARRANTY; without even the implied warranty 
14  * of MERCHANTABILITY or FITNESS FOR A PARTICULAR 
15  * PURPOSE.  See the GNU General Public License for more details.
16  * 
17  * You should have received a copy of the GNU General Public License
18  * along with Jalview.  If not, see <http://www.gnu.org/licenses/>.
19  * The Jalview Authors are detailed in the 'AUTHORS' file.
20  */
21 package jalview.datamodel.xdb.embl;
22
23 import jalview.analysis.SequenceIdMatcher;
24 import jalview.bin.Cache;
25 import jalview.datamodel.DBRefEntry;
26 import jalview.datamodel.DBRefSource;
27 import jalview.datamodel.FeatureProperties;
28 import jalview.datamodel.Mapping;
29 import jalview.datamodel.Sequence;
30 import jalview.datamodel.SequenceFeature;
31 import jalview.datamodel.SequenceI;
32 import jalview.util.DBRefUtils;
33 import jalview.util.DnaUtils;
34 import jalview.util.MapList;
35 import jalview.util.MappingUtils;
36 import jalview.util.StringUtils;
37
38 import java.text.ParseException;
39 import java.util.Arrays;
40 import java.util.Hashtable;
41 import java.util.List;
42 import java.util.Map;
43 import java.util.Map.Entry;
44 import java.util.Vector;
45 import java.util.regex.Pattern;
46
47 /**
48  * Data model for one entry returned from an EMBL query, as marshalled by a
49  * Castor binding file
50  * 
51  * For example:
52  * http://www.ebi.ac.uk/Tools/dbfetch/dbfetch?db=ena_sequence&id=J03321
53  * &format=emblxml
54  * 
55  * @see embl_mapping.xml
56  */
57 public class EmblEntry
58 {
59   private static final Pattern SPACE_PATTERN = Pattern.compile(" ");
60
61   String accession;
62
63   String entryVersion;
64
65   String sequenceVersion;
66
67   String dataClass;
68
69   String moleculeType;
70
71   String topology;
72
73   String sequenceLength;
74
75   String taxonomicDivision;
76
77   String description;
78
79   String firstPublicDate;
80
81   String firstPublicRelease;
82
83   String lastUpdatedDate;
84
85   String lastUpdatedRelease;
86
87   Vector<String> keywords;
88
89   Vector<DBRefEntry> dbRefs;
90
91   Vector<EmblFeature> features;
92
93   EmblSequence sequence;
94
95   /**
96    * @return the accession
97    */
98   public String getAccession()
99   {
100     return accession;
101   }
102
103   /**
104    * @param accession
105    *          the accession to set
106    */
107   public void setAccession(String accession)
108   {
109     this.accession = accession;
110   }
111
112   /**
113    * @return the dbRefs
114    */
115   public Vector<DBRefEntry> getDbRefs()
116   {
117     return dbRefs;
118   }
119
120   /**
121    * @param dbRefs
122    *          the dbRefs to set
123    */
124   public void setDbRefs(Vector<DBRefEntry> dbRefs)
125   {
126     this.dbRefs = dbRefs;
127   }
128
129   /**
130    * @return the features
131    */
132   public Vector<EmblFeature> getFeatures()
133   {
134     return features;
135   }
136
137   /**
138    * @param features
139    *          the features to set
140    */
141   public void setFeatures(Vector<EmblFeature> features)
142   {
143     this.features = features;
144   }
145
146   /**
147    * @return the keywords
148    */
149   public Vector<String> getKeywords()
150   {
151     return keywords;
152   }
153
154   /**
155    * @param keywords
156    *          the keywords to set
157    */
158   public void setKeywords(Vector<String> keywords)
159   {
160     this.keywords = keywords;
161   }
162
163   /**
164    * @return the sequence
165    */
166   public EmblSequence getSequence()
167   {
168     return sequence;
169   }
170
171   /**
172    * @param sequence
173    *          the sequence to set
174    */
175   public void setSequence(EmblSequence sequence)
176   {
177     this.sequence = sequence;
178   }
179
180   /**
181    * Recover annotated sequences from EMBL file
182    * 
183    * @param sourceDb
184    * @param peptides
185    *          a list of protein products found so far (to add to)
186    * @return dna dataset sequence with DBRefs and features
187    */
188   public SequenceI getSequence(String sourceDb, List<SequenceI> peptides)
189   {
190     SequenceI dna = new Sequence(sourceDb + "|" + accession,
191             sequence.getSequence());
192     dna.setDescription(description);
193     DBRefEntry retrievedref = new DBRefEntry(sourceDb,
194             getSequenceVersion(), accession);
195     dna.addDBRef(retrievedref);
196     // add map to indicate the sequence is a valid coordinate frame for the
197     // dbref
198     retrievedref.setMap(new Mapping(null, new int[] { 1, dna.getLength() },
199             new int[] { 1, dna.getLength() }, 1, 1));
200
201
202     /*
203      * transform EMBL Database refs to canonical form
204      */
205     if (dbRefs != null)
206     {
207       for (DBRefEntry dbref : dbRefs)
208       {
209         dbref.setSource(DBRefUtils.getCanonicalName(dbref.getSource()));
210         dna.addDBRef(dbref);
211       }
212     }
213
214     SequenceIdMatcher matcher = new SequenceIdMatcher(peptides);
215     try
216     {
217       for (EmblFeature feature : features)
218       {
219         if (FeatureProperties.isCodingFeature(sourceDb, feature.getName()))
220         {
221           parseCodingFeature(feature, sourceDb, dna, peptides, matcher);
222         }
223       }
224     } catch (Exception e)
225     {
226       System.err.println("EMBL Record Features parsing error!");
227       System.err
228               .println("Please report the following to help@jalview.org :");
229       System.err.println("EMBL Record " + accession);
230       System.err.println("Resulted in exception: " + e.getMessage());
231       e.printStackTrace(System.err);
232     }
233
234     return dna;
235   }
236
237   /**
238    * Extracts coding region and product from a CDS feature and properly decorate
239    * it with annotations.
240    * 
241    * @param feature
242    *          coding feature
243    * @param sourceDb
244    *          source database for the EMBLXML
245    * @param dna
246    *          parent dna sequence for this record
247    * @param peptides
248    *          list of protein product sequences for Embl entry
249    * @param matcher
250    *          helper to match xrefs in already retrieved sequences
251    */
252   void parseCodingFeature(EmblFeature feature, String sourceDb,
253           SequenceI dna, List<SequenceI> peptides, SequenceIdMatcher matcher)
254   {
255     boolean isEmblCdna = sourceDb.equals(DBRefSource.EMBLCDS);
256
257     int[] exons = getCdsRanges(feature);
258
259     String translation = null;
260     String proteinName = "";
261     String proteinId = null;
262     Map<String, String> vals = new Hashtable<String, String>();
263
264     /*
265      * codon_start 1/2/3 in EMBL corresponds to phase 0/1/2 in CDS
266      * (phase is required for CDS features in GFF3 format)
267      */
268     int codonStart = 1;
269
270     /*
271      * parse qualifiers, saving protein translation, protein id,
272      * codon start position, product (name), and 'other values'
273      */
274     if (feature.getQualifiers() != null)
275     {
276       for (Qualifier q : feature.getQualifiers())
277       {
278         String qname = q.getName();
279         if (qname.equals("translation"))
280         {
281           // remove all spaces (precompiled String.replaceAll(" ", ""))
282           translation = SPACE_PATTERN.matcher(q.getValues()[0]).replaceAll("");
283         }
284         else if (qname.equals("protein_id"))
285         {
286           proteinId = q.getValues()[0].trim();
287         }
288         else if (qname.equals("codon_start"))
289         {
290           try
291           {
292             codonStart = Integer.parseInt(q.getValues()[0].trim());
293           } catch (NumberFormatException e)
294           {
295             System.err.println("Invalid codon_start in XML for "
296                     + accession + ": " + e.getMessage());
297           }
298         }
299         else if (qname.equals("product"))
300         {
301           // sometimes name is returned e.g. for V00488
302           proteinName = q.getValues()[0].trim();
303         }
304         else
305         {
306           // throw anything else into the additional properties hash
307           String[] qvals = q.getValues();
308           if (qvals != null)
309           {
310             String commaSeparated = StringUtils.arrayToSeparatorList(qvals,
311                     ",");
312             vals.put(qname, commaSeparated);
313           }
314         }
315       }
316     }
317
318     DBRefEntry proteinToEmblProteinRef = null;
319     exons = MappingUtils.removeStartPositions(codonStart - 1, exons);
320
321     SequenceI product = null;
322     Mapping dnaToProteinMapping = null;
323     if (translation != null && proteinName != null && proteinId != null)
324     {
325       /*
326        * look for product in peptides list, if not found, add it
327        */
328       product = matcher.findIdMatch(proteinId);
329       if (product == null)
330       {
331         product = new Sequence(proteinId, translation, 1, translation.length());
332         product.setDescription(((proteinName.length() == 0) ? "Protein Product from "
333                 + sourceDb
334                 : proteinName));
335         peptides.add(product);
336         matcher.add(product);
337       }
338
339       // we have everything - create the mapping and perhaps the protein
340       // sequence
341       if (exons == null || exons.length == 0)
342       {
343         System.err
344                 .println("Implementation Notice: EMBLCDS records not properly supported yet - Making up the CDNA region of this sequence... may be incorrect ("
345                         + sourceDb + ":" + getAccession() + ")");
346         if (translation.length() * 3 == (1 - codonStart + dna.getSequence().length))
347         {
348           System.err
349                   .println("Not allowing for additional stop codon at end of cDNA fragment... !");
350           // this might occur for CDS sequences where no features are
351           // marked.
352           exons = new int[] { dna.getStart() + (codonStart - 1),
353               dna.getEnd() };
354           dnaToProteinMapping = new Mapping(product, exons, new int[] { 1,
355               translation.length() },
356                   3, 1);
357         }
358         if ((translation.length() + 1) * 3 == (1 - codonStart + dna.getSequence().length))
359         {
360           System.err
361                   .println("Allowing for additional stop codon at end of cDNA fragment... will probably cause an error in VAMSAs!");
362           exons = new int[] { dna.getStart() + (codonStart - 1),
363               dna.getEnd() - 3 };
364           dnaToProteinMapping = new Mapping(product, exons, new int[] { 1,
365               translation.length() },
366                   3, 1);
367         }
368       }
369       else
370       {
371         // Trim the exon mapping if necessary - the given product may only be a
372         // fragment of a larger protein. (EMBL:AY043181 is an example)
373
374         if (isEmblCdna)
375         {
376           // TODO: Add a DbRef back to the parent EMBL sequence with the exon
377           // map
378           // if given a dataset reference, search dataset for parent EMBL
379           // sequence if it exists and set its map
380           // make a new feature annotating the coding contig
381         }
382         else
383         {
384           // final product length truncation check
385           int[] cdsRanges = adjustForProteinLength(translation.length(), exons);
386           dnaToProteinMapping = new Mapping(product, cdsRanges, new int[] { 1,
387               translation.length() }, 3, 1);
388           if (product != null)
389           {
390             /*
391              * make xref from protein to EMBLCDS; we assume here that the 
392              * CDS sequence version is same as dna sequence (?!)
393              */
394             MapList proteinToCdsMapList = new MapList(new int[] { 1,
395                 translation.length() }, new int[] { 1 + (codonStart - 1),
396                 (codonStart - 1) + 3 * translation.length() }, 1, 3);
397             DBRefEntry proteinToEmblCdsRef = new DBRefEntry(
398                     DBRefSource.EMBLCDS, getSequenceVersion(), proteinId,
399                     new Mapping(proteinToCdsMapList));
400             product.addDBRef(proteinToEmblCdsRef);
401
402             /*
403              * make xref from protein to EMBLCDSPROTEIN
404              */
405             proteinToEmblProteinRef = new DBRefEntry(proteinToEmblCdsRef);
406             proteinToEmblProteinRef.setSource(DBRefSource.EMBLCDSProduct);
407             product.addDBRef(proteinToEmblProteinRef);
408           }
409         }
410       }
411
412       /*
413        * add cds features to dna sequence
414        */
415       for (int xint = 0; exons != null && xint < exons.length; xint += 2)
416       {
417         SequenceFeature sf = makeCdsFeature(exons, xint, proteinName, proteinId, vals,
418                 codonStart);
419         sf.setType(feature.getName()); // "CDS"
420         sf.setEnaLocation(feature.getLocation());
421         sf.setFeatureGroup(sourceDb);
422         dna.addSequenceFeature(sf);
423       }
424     }
425
426     /*
427      * add feature dbRefs to sequence, and mappings for Uniprot xrefs
428      */
429     boolean hasUniprotDbref = false;
430     if (feature.dbRefs != null)
431     {
432       boolean mappingUsed = false;
433       for (DBRefEntry ref : feature.dbRefs)
434       {
435         /*
436          * ensure UniProtKB/Swiss-Prot converted to UNIPROT
437          */
438         String source = DBRefUtils.getCanonicalName(ref.getSource());
439         ref.setSource(source);
440         DBRefEntry proteinToDnaRef = new DBRefEntry(ref.getSource(), ref.getVersion(), ref
441                 .getAccessionId());
442         if (source.equals(DBRefSource.UNIPROT))
443         {
444           String proteinSeqName = DBRefSource.UNIPROT + "|"
445                   + ref.getAccessionId();
446           if (dnaToProteinMapping != null && dnaToProteinMapping.getTo() != null)
447           {
448             if (mappingUsed)
449             {
450               /*
451                * two or more Uniprot xrefs for the same CDS - 
452                * each needs a distinct Mapping (as to a different sequence)
453                */
454               dnaToProteinMapping = new Mapping(dnaToProteinMapping);
455             }
456             mappingUsed = true;
457
458             /*
459              * try to locate the protein mapped to (possibly by a 
460              * previous CDS feature); if not found, construct it from
461              * the EMBL translation
462              */
463             SequenceI proteinSeq = matcher.findIdMatch(proteinSeqName);
464             if (proteinSeq == null)
465             {
466               proteinSeq = new Sequence(proteinSeqName,
467                       product.getSequenceAsString());
468               matcher.add(proteinSeq);
469               peptides.add(proteinSeq);
470             }
471             dnaToProteinMapping.setTo(proteinSeq);
472             proteinSeq.addDBRef(proteinToDnaRef);
473             ref.setMap(dnaToProteinMapping);
474           }
475           hasUniprotDbref = true;
476         }
477         if (product != null)
478         {
479           /*
480            * copy feature dbref to our protein product
481            */
482           DBRefEntry pref = proteinToDnaRef;
483           pref.setMap(null); // reference is direct
484           product.addDBRef(pref);
485           // Add converse mapping reference
486           if (dnaToProteinMapping != null)
487           {
488             Mapping pmap = new Mapping(dna, dnaToProteinMapping.getMap()
489                     .getInverse());
490             pref = new DBRefEntry(sourceDb, getSequenceVersion(),
491                     this.getAccession());
492             pref.setMap(pmap);
493             if (dnaToProteinMapping.getTo() != null)
494             {
495               dnaToProteinMapping.getTo().addDBRef(pref);
496             }
497           }
498         }
499         dna.addDBRef(ref);
500       }
501     }
502
503     /*
504      * if we have a product (translation) but no explicit Uniprot dbref
505      * (example: EMBL AAFI02000057 protein_id EAL65544.1)
506      * then construct mappings to an assumed EMBLCDSPROTEIN accession
507      */
508     if (!hasUniprotDbref && product != null)
509     {
510       if (proteinToEmblProteinRef == null)
511       {
512         // assuming CDSPROTEIN sequence version = dna version (?!)
513         proteinToEmblProteinRef = new DBRefEntry(
514                 DBRefSource.EMBLCDSProduct, getSequenceVersion(), proteinId);
515       }
516       product.addDBRef(proteinToEmblProteinRef);
517
518       if (dnaToProteinMapping != null
519               && dnaToProteinMapping.getTo() != null)
520       {
521         DBRefEntry dnaToEmblProteinRef = new DBRefEntry(
522                 DBRefSource.EMBLCDSProduct, getSequenceVersion(), proteinId);
523         dnaToEmblProteinRef.setMap(dnaToProteinMapping);
524         dna.addDBRef(dnaToEmblProteinRef);
525       }
526     }
527   }
528
529   /**
530    * Helper method to construct a SequenceFeature for one cds range
531    * 
532    * @param exons
533    *          array of cds [start, end, ...] positions
534    * @param exonStartIndex
535    *          offset into the exons array
536    * @param proteinName
537    * @param proteinAccessionId
538    * @param vals
539    *          map of 'miscellaneous values' for feature
540    * @param codonStart
541    *          codon start position for CDS (1/2/3, normally 1)
542    * @return
543    */
544   protected SequenceFeature makeCdsFeature(int[] exons, int exonStartIndex,
545           String proteinName, String proteinAccessionId,
546           Map<String, String> vals, int codonStart)
547   {
548     int exonNumber = exonStartIndex / 2 + 1;
549     SequenceFeature sf = new SequenceFeature();
550     sf.setBegin(Math.min(exons[exonStartIndex], exons[exonStartIndex + 1]));
551     sf.setEnd(Math.max(exons[exonStartIndex], exons[exonStartIndex + 1]));
552     sf.setDescription(String.format("Exon %d for protein '%s' EMBLCDS:%s",
553             exonNumber, proteinName, proteinAccessionId));
554     sf.setPhase(String.valueOf(codonStart - 1));
555     sf.setStrand(exons[exonStartIndex] <= exons[exonStartIndex + 1] ? "+"
556             : "-");
557     sf.setValue(FeatureProperties.EXONPOS, exonNumber);
558     sf.setValue(FeatureProperties.EXONPRODUCT, proteinName);
559     if (!vals.isEmpty())
560     {
561       StringBuilder sb = new StringBuilder();
562       boolean first = true;
563       for (Entry<String, String> val : vals.entrySet())
564       {
565         if (!first)
566         {
567           sb.append(";");
568         }
569         sb.append(val.getKey()).append("=").append(val.getValue());
570         first = false;
571         sf.setValue(val.getKey(), val.getValue());
572       }
573       sf.setAttributes(sb.toString());
574     }
575     return sf;
576   }
577
578   /**
579    * Returns the CDS positions as a single array of [start, end, start, end...]
580    * positions. If on the reverse strand, these will be in descending order.
581    * 
582    * @param feature
583    * @return
584    */
585   protected int[] getCdsRanges(EmblFeature feature)
586   {
587     if (feature.location == null)
588     {
589       return new int[] {};
590     }
591
592     try
593     {
594       List<int[]> ranges = DnaUtils.parseLocation(feature.location);
595       return listToArray(ranges);
596     } catch (ParseException e)
597     {
598       Cache.log.warn(String.format(
599               "Not parsing inexact CDS location %s in ENA %s",
600               feature.location, this.accession));
601       return new int[] {};
602     }
603   }
604
605   /**
606    * Converts a list of [start, end] ranges to a single array of [start, end,
607    * start, end ...]
608    * 
609    * @param ranges
610    * @return
611    */
612   int[] listToArray(List<int[]> ranges)
613   {
614     int[] result = new int[ranges.size() * 2];
615     int i = 0;
616     for (int[] range : ranges)
617     {
618       result[i++] = range[0];
619       result[i++] = range[1];
620     }
621     return result;
622   }
623
624   /**
625    * Truncates (if necessary) the exon intervals to match 3 times the length of
626    * the protein; also accepts 3 bases longer (for stop codon not included in
627    * protein)
628    * 
629    * @param proteinLength
630    * @param exon
631    *          an array of [start, end, start, end...] intervals
632    * @return the same array (if unchanged) or a truncated copy
633    */
634   static int[] adjustForProteinLength(int proteinLength, int[] exon)
635   {
636     if (proteinLength <= 0 || exon == null)
637     {
638       return exon;
639     }
640     int expectedCdsLength = proteinLength * 3;
641     int exonLength = MappingUtils.getLength(Arrays.asList(exon));
642
643     /*
644      * if exon length matches protein, or is shorter, or longer by the 
645      * length of a stop codon (3 bases), then leave it unchanged
646      */
647     if (expectedCdsLength >= exonLength
648             || expectedCdsLength == exonLength - 3)
649     {
650       return exon;
651     }
652
653     int origxon[];
654     int sxpos = -1;
655     int endxon = 0;
656     origxon = new int[exon.length];
657     System.arraycopy(exon, 0, origxon, 0, exon.length);
658     int cdspos = 0;
659     for (int x = 0; x < exon.length; x += 2)
660     {
661       cdspos += Math.abs(exon[x + 1] - exon[x]) + 1;
662       if (expectedCdsLength <= cdspos)
663       {
664         // advanced beyond last codon.
665         sxpos = x;
666         if (expectedCdsLength != cdspos)
667         {
668           // System.err
669           // .println("Truncating final exon interval on region by "
670           // + (cdspos - cdslength));
671         }
672
673         /*
674          * shrink the final exon - reduce end position if forward
675          * strand, increase it if reverse
676          */
677         if (exon[x + 1] >= exon[x])
678         {
679           endxon = exon[x + 1] - cdspos + expectedCdsLength;
680         }
681         else
682         {
683           endxon = exon[x + 1] + cdspos - expectedCdsLength;
684         }
685         break;
686       }
687     }
688
689     if (sxpos != -1)
690     {
691       // and trim the exon interval set if necessary
692       int[] nxon = new int[sxpos + 2];
693       System.arraycopy(exon, 0, nxon, 0, sxpos + 2);
694       nxon[sxpos + 1] = endxon; // update the end boundary for the new exon
695                                 // set
696       exon = nxon;
697     }
698     return exon;
699   }
700
701   public String getSequenceVersion()
702   {
703     return sequenceVersion;
704   }
705
706   public void setSequenceVersion(String sequenceVersion)
707   {
708     this.sequenceVersion = sequenceVersion;
709   }
710
711   public String getSequenceLength()
712   {
713     return sequenceLength;
714   }
715
716   public void setSequenceLength(String sequenceLength)
717   {
718     this.sequenceLength = sequenceLength;
719   }
720
721   public String getEntryVersion()
722   {
723     return entryVersion;
724   }
725
726   public void setEntryVersion(String entryVersion)
727   {
728     this.entryVersion = entryVersion;
729   }
730
731   public String getMoleculeType()
732   {
733     return moleculeType;
734   }
735
736   public void setMoleculeType(String moleculeType)
737   {
738     this.moleculeType = moleculeType;
739   }
740
741   public String getTopology()
742   {
743     return topology;
744   }
745
746   public void setTopology(String topology)
747   {
748     this.topology = topology;
749   }
750
751   public String getTaxonomicDivision()
752   {
753     return taxonomicDivision;
754   }
755
756   public void setTaxonomicDivision(String taxonomicDivision)
757   {
758     this.taxonomicDivision = taxonomicDivision;
759   }
760
761   public String getDescription()
762   {
763     return description;
764   }
765
766   public void setDescription(String description)
767   {
768     this.description = description;
769   }
770
771   public String getFirstPublicDate()
772   {
773     return firstPublicDate;
774   }
775
776   public void setFirstPublicDate(String firstPublicDate)
777   {
778     this.firstPublicDate = firstPublicDate;
779   }
780
781   public String getFirstPublicRelease()
782   {
783     return firstPublicRelease;
784   }
785
786   public void setFirstPublicRelease(String firstPublicRelease)
787   {
788     this.firstPublicRelease = firstPublicRelease;
789   }
790
791   public String getLastUpdatedDate()
792   {
793     return lastUpdatedDate;
794   }
795
796   public void setLastUpdatedDate(String lastUpdatedDate)
797   {
798     this.lastUpdatedDate = lastUpdatedDate;
799   }
800
801   public String getLastUpdatedRelease()
802   {
803     return lastUpdatedRelease;
804   }
805
806   public void setLastUpdatedRelease(String lastUpdatedRelease)
807   {
808     this.lastUpdatedRelease = lastUpdatedRelease;
809   }
810
811   public String getDataClass()
812   {
813     return dataClass;
814   }
815
816   public void setDataClass(String dataClass)
817   {
818     this.dataClass = dataClass;
819   }
820 }