JAL-2189 format help
[jalview.git] / src / jalview / ext / ensembl / EnsemblProtein.java
1 package jalview.ext.ensembl;
2
3 import jalview.datamodel.AlignmentI;
4 import jalview.datamodel.SequenceFeature;
5
6 import java.util.List;
7
8 import com.stevesoft.pat.Regex;
9
10 /**
11  * A client to fetch protein translated sequence for an Ensembl identifier
12  * 
13  * @author gmcarstairs
14  *
15  */
16 public class EnsemblProtein extends EnsemblSeqProxy
17 {
18   /*
19    * accepts ENSP with 11 digits
20    * or ENSMUSP or similar for other species
21    * or CCDSnnnnn.nn with at least 3 digits
22    */
23   private static final Regex ACCESSION_REGEX = new Regex(
24           "(ENS([A-Z]{3}|)P[0-9]{11}$)" + "|" + "(CCDS[0-9.]{3,}$)");
25
26   /**
27    * Default constructor (to use rest.ensembl.org)
28    */
29   public EnsemblProtein()
30   {
31     super();
32   }
33
34   /**
35    * Constructor given the target domain to fetch data from
36    * 
37    * @param d
38    */
39   public EnsemblProtein(String d)
40   {
41     super(d);
42   }
43
44   @Override
45   public String getDbName()
46   {
47     return "ENSEMBL (Protein)";
48   }
49
50   @Override
51   protected EnsemblSeqType getSourceEnsemblType()
52   {
53     return EnsemblSeqType.PROTEIN;
54   }
55
56   /**
57    * Returns false, as this fetcher does not retrieve DNA sequences.
58    */
59   @Override
60   public boolean isDnaCoding()
61   {
62     return false;
63   }
64
65   /**
66    * Test query is to the protein translation of transcript ENST00000288602
67    */
68   @Override
69   public String getTestQuery()
70   {
71     return "ENSP00000288602";
72   }
73
74   /**
75    * Overrides base class method to do nothing - genomic features are not
76    * applicable to the protein product sequence
77    */
78   @Override
79   protected void addFeaturesAndProduct(String accId, AlignmentI alignment)
80   {
81   }
82
83   @Override
84   protected EnsemblFeatureType[] getFeaturesToFetch()
85   {
86     // not applicable - can't fetch genomic features for a protein sequence
87     return null;
88   }
89
90   @Override
91   protected boolean identifiesSequence(SequenceFeature sf, String accId)
92   {
93     // not applicable - protein sequence is not a 'subset' of genomic sequence
94     return false;
95   }
96
97   @Override
98   public Regex getAccessionValidator()
99   {
100     return ACCESSION_REGEX;
101   }
102
103   /**
104    * Returns an accession id for a query, including conversion of ENST* to
105    * ENSP*. This supports querying for the protein sequence for a transcript
106    * (ENST identifier) and returning the ENSP identifier.
107    */
108   @Override
109   public String getAccessionIdFromQuery(String query)
110   {
111     String accId = super.getAccessionIdFromQuery(query);
112
113     /*
114      * ensure last character before (11) digits is P
115      * ENST00000288602 -> ENSP00000288602
116      * ENSMUST00000288602 -> ENSMUSP00000288602
117      */
118     if (accId != null && accId.length() >= 12)
119     {
120       char[] chars = accId.toCharArray();
121       chars[chars.length - 12] = 'P';
122       accId = new String(chars);
123     }
124     return accId;
125   }
126
127 }