JAL-3193 rest.ensemblgenomes.org merged to rest.ensembl.org
[jalview.git] / src / jalview / ext / ensembl / EnsemblSequenceFetcher.java
1 /*
2  * Jalview - A Sequence Alignment Editor and Viewer ($$Version-Rel$$)
3  * Copyright (C) $$Year-Rel$$ The Jalview Authors
4  * 
5  * This file is part of Jalview.
6  * 
7  * Jalview is free software: you can redistribute it and/or
8  * modify it under the terms of the GNU General Public License 
9  * as published by the Free Software Foundation, either version 3
10  * of the License, or (at your option) any later version.
11  *  
12  * Jalview is distributed in the hope that it will be useful, but 
13  * WITHOUT ANY WARRANTY; without even the implied warranty 
14  * of MERCHANTABILITY or FITNESS FOR A PARTICULAR 
15  * PURPOSE.  See the GNU General Public License for more details.
16  * 
17  * You should have received a copy of the GNU General Public License
18  * along with Jalview.  If not, see <http://www.gnu.org/licenses/>.
19  * The Jalview Authors are detailed in the 'AUTHORS' file.
20  */
21 package jalview.ext.ensembl;
22
23 import jalview.analysis.AlignmentUtils;
24 import jalview.bin.Cache;
25 import jalview.datamodel.DBRefSource;
26 import jalview.ws.seqfetcher.DbSourceProxyImpl;
27
28 import com.stevesoft.pat.Regex;
29
30 /**
31  * A base class for Ensembl sequence fetchers
32  * 
33  * @author gmcarstairs
34  */
35 abstract class EnsemblSequenceFetcher extends DbSourceProxyImpl
36 {
37   // domain properties lookup keys:
38   protected static final String ENSEMBL_BASEURL = "ENSEMBL_BASEURL";
39
40   protected static final String ENSEMBL_GENOMES_BASEURL = "ENSEMBL_GENOMES_BASEURL";
41
42   // domain properties default values:
43   protected static final String DEFAULT_ENSEMBL_BASEURL = "https://rest.ensembl.org";
44
45   // ensemblgenomes REST service merged to ensembl 9th April 2019
46   protected static final String DEFAULT_ENSEMBL_GENOMES_BASEURL = DEFAULT_ENSEMBL_BASEURL;
47
48   /*
49    * accepts ENSG/T/E/P with 11 digits
50    * or ENSMUSP or similar for other species
51    * or CCDSnnnnn.nn with at least 3 digits
52    */
53   private static final Regex ACCESSION_REGEX = new Regex(
54           "(ENS([A-Z]{3}|)[GTEP]{1}[0-9]{11}$)" + "|"
55                   + "(CCDS[0-9.]{3,}$)");
56
57   protected final String ensemblGenomesDomain;
58
59   protected final String ensemblDomain;
60
61   protected static final String OBJECT_TYPE_TRANSLATION = "Translation";
62
63   protected static final String OBJECT_TYPE_TRANSCRIPT = "Transcript";
64
65   protected static final String OBJECT_TYPE_GENE = "Gene";
66
67   protected static final String PARENT = "Parent";
68
69   protected static final String JSON_ID = AlignmentUtils.VARIANT_ID; // "id";
70
71   protected static final String OBJECT_TYPE = "object_type";
72
73   /*
74    * possible values for the 'feature' parameter of the /overlap REST service
75    * @see http://rest.ensembl.org/documentation/info/overlap_id
76    */
77   protected enum EnsemblFeatureType
78   {
79     gene, transcript, cds, exon, repeat, simple, misc, variation,
80     somatic_variation, structural_variation, somatic_structural_variation,
81     constrained, regulatory
82   }
83
84   private String domain;
85
86   /**
87    * Constructor
88    */
89   public EnsemblSequenceFetcher()
90   {
91     /*
92      * the default domain names may be overridden in .jalview_properties;
93      * this allows an easy change from http to https in future if needed
94      */
95     ensemblDomain = Cache.getDefault(ENSEMBL_BASEURL,
96             DEFAULT_ENSEMBL_BASEURL).trim();
97     ensemblGenomesDomain = Cache.getDefault(ENSEMBL_GENOMES_BASEURL,
98             DEFAULT_ENSEMBL_GENOMES_BASEURL).trim();
99     domain = ensemblDomain;
100   }
101
102   @Override
103   public String getDbSource()
104   {
105     // NB ensure Uniprot xrefs are canonicalised from "Ensembl" to "ENSEMBL"
106     if (ensemblGenomesDomain.equals(getDomain()))
107     {
108       return DBRefSource.ENSEMBLGENOMES;
109     }
110     return DBRefSource.ENSEMBL;
111   }
112
113   @Override
114   public String getAccessionSeparator()
115   {
116     return " ";
117   }
118
119   /**
120    * Ensembl accession are ENST + 11 digits for human transcript, ENSG for human
121    * gene. Other species insert 3 letters e.g. ENSMUST..., ENSMUSG...
122    * 
123    * @see http://www.ensembl.org/Help/View?id=151
124    */
125   @Override
126   public Regex getAccessionValidator()
127   {
128     return ACCESSION_REGEX;
129   }
130
131   @Override
132   public boolean isValidReference(String accession)
133   {
134     return getAccessionValidator().search(accession);
135   }
136
137   @Override
138   public int getTier()
139   {
140     return 0;
141   }
142
143   /**
144    * Default test query is a transcript
145    */
146   @Override
147   public String getTestQuery()
148   {
149     // has CDS on reverse strand:
150     return "ENST00000288602";
151     // ENST00000461457 // forward strand
152   }
153
154   @Override
155   public boolean isDnaCoding()
156   {
157     return true;
158   }
159
160   /**
161    * Returns the domain name to query e.g. http://rest.ensembl.org or
162    * http://rest.ensemblgenomes.org
163    * 
164    * @return
165    */
166   protected String getDomain()
167   {
168     return domain;
169   }
170
171   protected void setDomain(String d)
172   {
173     domain = d == null ? null : d.trim();
174   }
175 }