JAL-2885 uniprot now https, uniprot/ensembl/pfam/xfam configurable
[jalview.git] / src / jalview / ext / ensembl / EnsemblSequenceFetcher.java
1 /*
2  * Jalview - A Sequence Alignment Editor and Viewer ($$Version-Rel$$)
3  * Copyright (C) $$Year-Rel$$ The Jalview Authors
4  * 
5  * This file is part of Jalview.
6  * 
7  * Jalview is free software: you can redistribute it and/or
8  * modify it under the terms of the GNU General Public License 
9  * as published by the Free Software Foundation, either version 3
10  * of the License, or (at your option) any later version.
11  *  
12  * Jalview is distributed in the hope that it will be useful, but 
13  * WITHOUT ANY WARRANTY; without even the implied warranty 
14  * of MERCHANTABILITY or FITNESS FOR A PARTICULAR 
15  * PURPOSE.  See the GNU General Public License for more details.
16  * 
17  * You should have received a copy of the GNU General Public License
18  * along with Jalview.  If not, see <http://www.gnu.org/licenses/>.
19  * The Jalview Authors are detailed in the 'AUTHORS' file.
20  */
21 package jalview.ext.ensembl;
22
23 import jalview.bin.Cache;
24 import jalview.datamodel.DBRefSource;
25 import jalview.ws.seqfetcher.DbSourceProxyImpl;
26
27 import com.stevesoft.pat.Regex;
28
29 /**
30  * A base class for Ensembl sequence fetchers
31  * 
32  * @author gmcarstairs
33  */
34 abstract class EnsemblSequenceFetcher extends DbSourceProxyImpl
35 {
36   // domain properties lookup keys:
37   protected static final String ENSEMBL_DOMAIN = "ENSEMBL_DOMAIN";
38   protected static final String ENSEMBL_GENOMES_DOMAIN = "ENSEMBL_GENOMES_DOMAIN";
39
40   // domain properties default values:
41   protected static final String DEFAULT_ENSEMBL_DOMAIN = "http://rest.ensembl.org";
42   protected static final String DEFAULT_ENSEMBL_GENOMES_DOMAIN = "http://rest.ensemblgenomes.org";
43
44   /*
45    * accepts ENSG/T/E/P with 11 digits
46    * or ENSMUSP or similar for other species
47    * or CCDSnnnnn.nn with at least 3 digits
48    */
49   private static final Regex ACCESSION_REGEX = new Regex(
50           "(ENS([A-Z]{3}|)[GTEP]{1}[0-9]{11}$)" + "|"
51                   + "(CCDS[0-9.]{3,}$)");
52
53   protected final String ensemblGenomesDomain;
54
55   protected final String ensemblDomain;
56
57   /*
58    * possible values for the 'feature' parameter of the /overlap REST service
59    * @see http://rest.ensembl.org/documentation/info/overlap_id
60    */
61   protected enum EnsemblFeatureType
62   {
63     gene, transcript, cds, exon, repeat, simple, misc, variation,
64     somatic_variation, structural_variation, somatic_structural_variation,
65     constrained, regulatory
66   }
67
68   private String domain;
69
70   /**
71    * Constructor
72    */
73   public EnsemblSequenceFetcher()
74   {
75     /*
76      * the default domain names may be overridden in .jalview_properties;
77      * this allows an easy change from http to https in future if needed
78      */
79     ensemblDomain = Cache.getDefault(ENSEMBL_DOMAIN, DEFAULT_ENSEMBL_DOMAIN);
80     ensemblGenomesDomain = Cache.getDefault(ENSEMBL_GENOMES_DOMAIN,
81             DEFAULT_ENSEMBL_GENOMES_DOMAIN);
82     domain = ensemblDomain;
83   }
84
85   @Override
86   public String getDbSource()
87   {
88     // NB ensure Uniprot xrefs are canonicalised from "Ensembl" to "ENSEMBL"
89     if (ensemblGenomesDomain.equals(getDomain()))
90     {
91       return DBRefSource.ENSEMBLGENOMES;
92     }
93     return DBRefSource.ENSEMBL;
94   }
95
96   @Override
97   public String getAccessionSeparator()
98   {
99     return " ";
100   }
101
102   /**
103    * Ensembl accession are ENST + 11 digits for human transcript, ENSG for human
104    * gene. Other species insert 3 letters e.g. ENSMUST..., ENSMUSG...
105    * 
106    * @see http://www.ensembl.org/Help/View?id=151
107    */
108   @Override
109   public Regex getAccessionValidator()
110   {
111     return ACCESSION_REGEX;
112   }
113
114   @Override
115   public boolean isValidReference(String accession)
116   {
117     return getAccessionValidator().search(accession);
118   }
119
120   @Override
121   public int getTier()
122   {
123     return 0;
124   }
125
126   /**
127    * Default test query is a transcript
128    */
129   @Override
130   public String getTestQuery()
131   {
132     // has CDS on reverse strand:
133     return "ENST00000288602";
134     // ENST00000461457 // forward strand
135   }
136
137   @Override
138   public boolean isDnaCoding()
139   {
140     return true;
141   }
142
143   /**
144    * Returns the domain name to query e.g. http://rest.ensembl.org or
145    * http://rest.ensemblgenomes.org
146    * 
147    * @return
148    */
149   protected String getDomain()
150   {
151     return domain;
152   }
153
154   protected void setDomain(String d)
155   {
156     domain = d;
157   }
158 }