JAL-1705 various refactoring towards Uniprot-to-Ensembl fetching
[jalview.git] / src / jalview / ext / ensembl / EnsemblProtein.java
1 package jalview.ext.ensembl;
2
3 import jalview.datamodel.AlignmentI;
4 import jalview.datamodel.SequenceFeature;
5
6 import java.util.Arrays;
7 import java.util.List;
8
9 import com.stevesoft.pat.Regex;
10
11 public class EnsemblProtein extends EnsemblSeqProxy
12 {
13   // TODO modify to accept other species e.g. ENSMUSPnnn
14   private static final Regex ACCESSION_REGEX = new Regex(
15           "(ENSP|CCDS)[0-9.]{3,}$");
16
17   private static final List<String> CROSSREFS = Arrays.asList(new String[] {
18       "PDB", "Uniprot/SPTREMBL", "Uniprot/SWISSPROT" });
19
20   public EnsemblProtein()
21   {
22     super();
23   }
24
25   @Override
26   public String getDbName()
27   {
28     return "ENSEMBL (Protein)";
29   }
30
31   @Override
32   protected EnsemblSeqType getSourceEnsemblType()
33   {
34     return EnsemblSeqType.PROTEIN;
35   }
36
37   /**
38    * Returns false, as this fetcher does not retrieve DNA sequences.
39    */
40   @Override
41   public boolean isDnaCoding()
42   {
43     return false;
44   }
45
46   /**
47    * Test query is to the protein translation of transcript ENST00000288602
48    */
49   @Override
50   public String getTestQuery()
51   {
52     return "ENSP00000288602";
53   }
54
55   /**
56    * Overrides base class method to do nothing - genomic features are not
57    * applicable to the protein product sequence
58    */
59   @Override
60   protected void addFeaturesAndProduct(String accId, AlignmentI alignment)
61   {
62   }
63
64   @Override
65   protected EnsemblFeatureType[] getFeaturesToFetch()
66   {
67     // not applicable - can't fetch genomic features for a protein sequence
68     return null;
69   }
70
71   @Override
72   protected boolean identifiesSequence(SequenceFeature sf, String accId)
73   {
74     // not applicable - protein sequence is not a 'subset' of genomic sequence
75     return false;
76   }
77
78   @Override
79   protected List<String> getCrossReferenceDatabases()
80   {
81     return CROSSREFS;
82   }
83
84   @Override
85   public Regex getAccessionValidator()
86   {
87     return ACCESSION_REGEX;
88   }
89
90   /**
91    * Returns an accession id for a query, including conversion of ENST* to
92    * ENSP*. This supports querying for the protein sequence for a transcript
93    * (ENST identifier) and returning the ENSP identifier.
94    */
95   @Override
96   public String getAccessionIdFromQuery(String query)
97   {
98     String accId = super.getAccessionIdFromQuery(query);
99
100     /*
101      * ensure last character before (11) digits is P
102      * ENST00000288602 -> ENSP00000288602
103      * ENSMUST00000288602 -> ENSMUSP00000288602
104      */
105     if (accId != null && accId.length() >= 12)
106     {
107       char[] chars = accId.toCharArray();
108       chars[chars.length - 12] = 'P';
109       accId = new String(chars);
110     }
111     return accId;
112   }
113
114 }