99006aa0f8e586d7160c289d4d6bfe79ce847508
[jalview.git] / src / jalview / ext / ensembl / EnsemblProtein.java
1 /*
2  * Jalview - A Sequence Alignment Editor and Viewer ($$Version-Rel$$)
3  * Copyright (C) $$Year-Rel$$ The Jalview Authors
4  * 
5  * This file is part of Jalview.
6  * 
7  * Jalview is free software: you can redistribute it and/or
8  * modify it under the terms of the GNU General Public License 
9  * as published by the Free Software Foundation, either version 3
10  * of the License, or (at your option) any later version.
11  *  
12  * Jalview is distributed in the hope that it will be useful, but 
13  * WITHOUT ANY WARRANTY; without even the implied warranty 
14  * of MERCHANTABILITY or FITNESS FOR A PARTICULAR 
15  * PURPOSE.  See the GNU General Public License for more details.
16  * 
17  * You should have received a copy of the GNU General Public License
18  * along with Jalview.  If not, see <http://www.gnu.org/licenses/>.
19  * The Jalview Authors are detailed in the 'AUTHORS' file.
20  */
21 package jalview.ext.ensembl;
22
23 import jalview.datamodel.AlignmentI;
24 import jalview.datamodel.SequenceFeature;
25
26 import com.stevesoft.pat.Regex;
27
28 /**
29  * A client to fetch protein translated sequence for an Ensembl identifier
30  * 
31  * @author gmcarstairs
32  *
33  */
34 public class EnsemblProtein extends EnsemblSeqProxy
35 {
36   /*
37    * accepts ENSP with 11 digits
38    * or ENSMUSP or similar for other species
39    * or CCDSnnnnn.nn with at least 3 digits
40    */
41   private static final Regex ACCESSION_REGEX = new Regex(
42           "(ENS([A-Z]{3}|)P[0-9]{11}$)" + "|" + "(CCDS[0-9.]{3,}$)");
43
44   /**
45    * Default constructor (to use rest.ensembl.org)
46    */
47   public EnsemblProtein()
48   {
49     super();
50   }
51
52   /**
53    * Constructor given the target domain to fetch data from
54    * 
55    * @param d
56    */
57   public EnsemblProtein(String d)
58   {
59     super(d);
60   }
61
62   @Override
63   public String getDbName()
64   {
65     return "ENSEMBL (Protein)";
66   }
67
68   @Override
69   protected EnsemblSeqType getSourceEnsemblType()
70   {
71     return EnsemblSeqType.PROTEIN;
72   }
73
74   /**
75    * Returns false, as this fetcher does not retrieve DNA sequences.
76    */
77   @Override
78   public boolean isDnaCoding()
79   {
80     return false;
81   }
82
83   /**
84    * Test query is to the protein translation of transcript ENST00000288602
85    */
86   @Override
87   public String getTestQuery()
88   {
89     return "ENSP00000288602";
90   }
91
92   /**
93    * Overrides base class method to do nothing - genomic features are not
94    * applicable to the protein product sequence
95    */
96   @Override
97   protected void addFeaturesAndProduct(String accId, AlignmentI alignment)
98   {
99   }
100
101   @Override
102   protected EnsemblFeatureType[] getFeaturesToFetch()
103   {
104     // not applicable - can't fetch genomic features for a protein sequence
105     return null;
106   }
107
108   @Override
109   protected boolean identifiesSequence(SequenceFeature sf, String accId)
110   {
111     // not applicable - protein sequence is not a 'subset' of genomic sequence
112     return false;
113   }
114
115   @Override
116   public Regex getAccessionValidator()
117   {
118     return ACCESSION_REGEX;
119   }
120
121   /**
122    * Returns an accession id for a query, including conversion of ENST* to
123    * ENSP*. This supports querying for the protein sequence for a transcript
124    * (ENST identifier) and returning the ENSP identifier.
125    */
126   @Override
127   public String getAccessionIdFromQuery(String query)
128   {
129     String accId = super.getAccessionIdFromQuery(query);
130
131     /*
132      * ensure last character before (11) digits is P
133      * ENST00000288602 -> ENSP00000288602
134      * ENSMUST00000288602 -> ENSMUSP00000288602
135      */
136     if (accId != null && accId.length() >= 12)
137     {
138       char[] chars = accId.toCharArray();
139       chars[chars.length - 12] = 'P';
140       accId = new String(chars);
141     }
142     return accId;
143   }
144
145 }