66082f2bf81c9be4736e37e38ea1e50ff23a3874
[jalview.git] / help / help / html / features / uniprotqueryfields.html
1 <html>
2 <!--
3  * Jalview - A Sequence Alignment Editor and Viewer ($$Version-Rel$$)
4  * Copyright (C) $$Year-Rel$$ The Jalview Authors
5  * 
6  * This file is part of Jalview.
7  * 
8  * Jalview is free software: you can redistribute it and/or
9  * modify it under the terms of the GNU General Public License 
10  * as published by the Free Software Foundation, either version 3
11  * of the License, or (at your option) any later version.
12  *  
13  * Jalview is distributed in the hope that it will be useful, but 
14  * WITHOUT ANY WARRANTY; without even the implied warranty 
15  * of MERCHANTABILITY or FITNESS FOR A PARTICULAR 
16  * PURPOSE.  See the GNU General Public License for more details.
17  * 
18  * You should have received a copy of the GNU General Public License
19  * along with Jalview.  If not, see <http://www.gnu.org/licenses/>.
20  * The Jalview Authors are detailed in the 'AUTHORS' file.
21  -->
22 <head>
23 <title>UniProtKB query fields</title>
24 </head>
25
26 <body>
27   <p>
28     <strong>UniProtKB query fields</strong>
29   </p>
30   <p>
31     Supported query fields for searching specific data in UniProtKB (see
32     also <a href="uniprotsequencefetcher.html#text-search">query
33       syntax</a>).
34   </p>
35
36 <table border="1" width="95%">
37 <thead>
38 <tr>
39 <th>rest.uniprot.org field</th>
40 <th>rest.uniprot.org example</th>
41 <th>Description</th>
42 </tr>
43 </thead>
44 <tbody>
45 <tr>
46 <td>accession</td>
47 <td>accession:P62988</td>
48 <td>The old behaviour was to list all entries with primary or secondary accession number P62988. The new behaviour will list all primary / canonical isoform accessions P62988. To search over secondary accessions, we have introduced the <code>sec_acc</code> field.</td>
49 </tr>
50 <tr>
51 <td>active</td>
52 <td>active:false</td>
53 <td>Lists all obsolete entries.</td>
54 </tr>
55 <tr>
56 <td>Refer to the page: Sequence Annotations</td>
57 <td></td>
58 <td>Lists all entries with:<ol><li>any general annotation (comments [CC])</li> <li>any sequence annotation (features [FT])</li><li>at least one amino acid modified with a Pyrrolidone carboxylic acid group</li></ol></td>
59 </tr>
60 <tr>
61 <td>lit_author</td>
62 <td>lit_author:ashburner</td>
63 <td>Lists all entries with at least one reference co-authored by Michael Ashburner.</td>
64 </tr>
65 <tr>
66 <td>protein_name</td>
67 <td>protein_name:CD233</td>
68 <td>Lists all entries whose cluster of differentiation number is CD233 (see cdlist.txt).</td>
69 </tr>
70 <tr>
71 <td>chebi</td>
72 <td>chebi:18420</td>
73 <td>Lists all entries which are associated with the small molecule corresponding to ChEBI identifier 18420, Mg(2+) (see How can I search UniProt for chemical or reaction data?).</td>
74 </tr>
75 <tr>
76 <td>uniprot_id (/uniref), then uniref_cluster_90 (/uniprotkb)</td>
77 <td><ol><li>uniprot_id:A5YMT3 to find cluster UniRef90_P00395</li><li>uniref_cluster_90:UniRef90_P00395</li></ol></td>
78 <td>Find all entries in the UniRef 90% identity cluster whose representative sequence is UniProtKB entry A5YMT3 (about UniRef).</td>
79 </tr>
80 <tr>
81 <td>xref<em>count_pdb (or xref_count</em>)</td>
82 <td>xref_count_pdb:[20 TO *]</td>
83 <td>Lists all entries with 20 or more cross-references to PDB</td>
84 </tr>
85 <tr>
86 <td>date_created</td>
87 <td>date_created:[2012-10-01 TO *]</td>
88 <td>Lists all entries created since October 1st 2012.</td>
89 </tr>
90 <tr>
91 <td>database, xref</td>
92 <td><ol><li>database:pfam</li><li>xref:pdb-1aut</li></ol></td>
93 <td>Lists all entries with:<ol><li>a cross-reference to the Pfam database</li><li>a cross-reference to the PDB database entry 1aut</li></ol> (see Databases cross-referenced in UniProtKB and Database mapping)</td>
94 </tr>
95 <tr>
96 <td>ec</td>
97 <td>ec:3.2.1.23</td>
98 <td>Lists all beta-galactosidases (Enzyme nomenclature database).</td>
99 </tr>
100 <tr>
101 <td>Refer to the pages: Comments or Sequence Annotations</td>
102 <td></td>
103 <td>Lists all entries with: <ol><li>a signal sequence whose positions have been experimentally proven</li> <li>experimentally proven phosphoserine sites</li> <li>a function manually asserted according to rules</li></ol>(see Evidence attribution)</td>
104 </tr>
105 <tr>
106 <td>existence</td>
107 <td>existence:3</td>
108 <td>See Protein existence criteria.</td>
109 </tr>
110 <tr>
111 <td>family</td>
112 <td>family:serpin</td>
113 <td>Lists all entries belonging to the Serpin family of proteins (Index of protein domains and families).</td>
114 </tr>
115 <tr>
116 <td>fragment</td>
117 <td>fragment:true</td>
118 <td>Lists all entries with an incomplete sequence.</td>
119 </tr>
120 <tr>
121 <td>gene</td>
122 <td>gene:HPSE</td>
123 <td>Lists all entries for proteins encoded by gene HPSE, but also by HPSE2.</td>
124 </tr>
125 <tr>
126 <td>gene_exact</td>
127 <td>gene_exact:HPSE</td>
128 <td>Lists all entries for proteins encoded by gene HPSE, but excluding variations like HPSE2 or HPSE_0.</td>
129 </tr>
130 <tr>
131 <td>go</td>
132 <td>go:0015629)</td>
133 <td>Lists all entries associated with the GO term Actin cytoskeleton and any subclasses</td>
134 </tr>
135 <tr>
136 <td>virus_host_name, virus_host_id</td>
137 <td>virus_host_id:10090</td>
138 <td>Lists all entries for viruses infecting Mus musculus (Mouse)</td>
139 </tr>
140 <tr>
141 <td>accession_id</td>
142 <td>accession_id:P00750</td>
143 <td>Returns the entry with the primary accession number P00750.</td>
144 </tr>
145 <tr>
146 <td>inchikey</td>
147 <td>inchikey:WQZGKKKJIJFFOK-GASJEMHNSA-N</td>
148 <td>Returns entries associated with the small molecule identified by the InChIKey WQZGKKKJIJFFOK-GASJEMHNSA-N, i.e. D-glucopyranose (see How can I search UniProt for chemical or reaction data?). To get the CHEBI identifier for an Inchikey value, one can now use the advanced search builder.</td>
149 </tr>
150 <tr>
151 <td>protein_name</td>
152 <td>protein_name:Anakinra</td>
153 <td>Lists all entries whose protein name includes the "International Nonproprietary Name" is Anakinra.</td>
154 </tr>
155 <tr>
156 <td>interactor</td>
157 <td>interactor:P00520</td>
158 <td>Lists all entries describing interactions with the protein described by entry P00520.</td>
159 </tr>
160 <tr>
161 <td>keyword</td>
162 <td><ol><li>keyword:toxin</li><li>keyword:KW-0800</li></ol></td>
163 <td><ol><li>Lists all entries associated with a keyword matching "Toxin" in its name or description (UniProtKB Keywords).</li> <li>Lists all entries associated with the UniProtKB keyword Toxin.</li></ol></td>
164 </tr>
165 <tr>
166 <td>length</td>
167 <td>length:[500 TO 700]</td>
168 <td>Lists all entries describing sequences of length between 500 and 700 residues.</td>
169 </tr>
170 <tr>
171 <td>mass</td>
172 <td>mass:[500000 TO *]</td>
173 <td>Lists all entries describing sequences with a mass of at least 500,000 Da.</td>
174 </tr>
175 <tr>
176 <td>cc_mass_spectrometry</td>
177 <td>cc_mass_spectrometry:maldi</td>
178 <td>Lists all entries for proteins identified by: matrix-assisted laser desorption/ionization (MALDI), crystallography (X-Ray). The <code>method</code> field searches names of physico-chemical identification methods in the 'Biophysicochemical properties' subsection of the 'Function' section, the 'Publications' and 'Cross-references' sections.</td>
179 </tr>
180 <tr>
181 <td>date_modified</td>
182 <td>modified:[2012-01-01 TO 2019-03-01] AND active:true</td>
183 <td>Lists all active entries that were last modified between January and March 2019.</td>
184 </tr>
185 <tr>
186 <td>protein_name</td>
187 <td>protein_name:"prion protein"</td>
188 <td>Lists all entries for prion proteins.</td>
189 </tr>
190 <tr>
191 <td>organelle</td>
192 <td>organelle:Mitochondrion</td>
193 <td>Lists all entries for proteins encoded by a gene of the mitochondrial chromosome.</td>
194 </tr>
195 <tr>
196 <td>organism_name, organism_id</td>
197 <td><ol><li>organism_name:"Ovis aries"</li><li>organism_id:9940</li><li>organism_name:sheep</li></ol></td>
198 <td>Lists all entries for proteins expressed in sheep (first 2 examples) and organisms whose name contains the term "sheep" (UniProt taxonomy).</td>
199 </tr>
200 <tr>
201 <td>plasmid</td>
202 <td>plasmid:ColE1</td>
203 <td>Lists all entries for proteins encoded by a gene of plasmid ColE1 (Controlled vocabulary of plasmids).</td>
204 </tr>
205 <tr>
206 <td>proteome</td>
207 <td>proteome:UP000005640</td>
208 <td>Lists all entries from the human proteome.</td>
209 </tr>
210 <tr>
211 <td>proteomecomponent</td>
212 <td>proteomecomponent:"chromosome 1" AND organism_id:9606</td>
213 <td>Lists all entries from the human chromosome 1.</td>
214 </tr>
215 <tr>
216 <td>sec_acc</td>
217 <td>sec_acc:P02023</td>
218 <td>Lists all entries that were created from a merge with entry P02023 (see FAQ).</td>
219 </tr>
220 <tr>
221 <td>reviewed</td>
222 <td>reviewed:true</td>
223 <td>Lists all UniProtKB/Swiss-Prot entries (about UniProtKB).</td>
224 </tr>
225 <tr>
226 <td>scope</td>
227 <td>scope:mutagenesis</td>
228 <td>Lists all entries containing a reference that was used to gather information about mutagenesis (Entry view: "Cited for", See 'Publications' section of the user manual).</td>
229 </tr>
230 <tr>
231 <td>sec_acc</td>
232 <td>sec_acc:P62988</td>
233 <td>Lists all entries containing a secondary accession P62988.</td>
234 </tr>
235 <tr>
236 <td>sequence</td>
237 <td>accession:P05067-9 AND is_isoform:true</td>
238 <td>Lists all entries containing a link to isoform 9 of the sequence described in entry P05067. Allows searching by specific sequence identifier.</td>
239 </tr>
240 <tr>
241 <td>date_sequence_modified</td>
242 <td><ol><li>date_sequence_modified:[2012-01-01 TO 2012-03-01]</li><li>date_sequence_modified:[2012-01-01 TO 2012-03-01]</li></ol></td>
243 <td><ol><li>Lists all entries whose sequences were last modified between January and March 2012.</li><li>Lists all UniProtKB/Swiss-Prot entries whose sequences were modified after the start of 2012.</li></ol></td>
244 </tr>
245 <tr>
246 <td>strain</td>
247 <td>strain:wistar</td>
248 <td>Lists all entries containing a reference relevant to strain wistar (Lists of strains in reference comments and Taxonomy help: organism strains).</td>
249 </tr>
250 <tr>
251 <td>taxonomy_name, taxonomy_id</td>
252 <td><ol><li>taxonomy_name:mammal</li><li>taxonomy_id:40674</li></ol></td>
253 <td>Lists all entries for proteins expressed in Mammals. This field is used to retrieve entries for all organisms classified below a given taxonomic node (taxonomy classification).</td>
254 </tr>
255 <tr>
256 <td>tissue</td>
257 <td>tissue:liver</td>
258 <td>Lists all entries containing a reference describing the protein sequence obtained from a clone isolated from liver (Controlled vocabulary of tissues).</td>
259 </tr>
260 <tr>
261 <td>cc_webresource</td>
262 <td>cc_webresource:wikipedia</td>
263 <td>Lists all entries for proteins that are described in Wikipedia.</td>
264 </tr>
265 </tbody>
266 </table>
267
268
269 </body>
270 </html>