JAL-1563 User documentation for Uniprot FTS
[jalview.git] / help / html / features / uniprotqueryfields.html
1 <html>
2 <!--
3  * Jalview - A Sequence Alignment Editor and Viewer ($$Version-Rel$$)
4  * Copyright (C) $$Year-Rel$$ The Jalview Authors
5  * 
6  * This file is part of Jalview.
7  * 
8  * Jalview is free software: you can redistribute it and/or
9  * modify it under the terms of the GNU General Public License 
10  * as published by the Free Software Foundation, either version 3
11  * of the License, or (at your option) any later version.
12  *  
13  * Jalview is distributed in the hope that it will be useful, but 
14  * WITHOUT ANY WARRANTY; without even the implied warranty 
15  * of MERCHANTABILITY or FITNESS FOR A PARTICULAR 
16  * PURPOSE.  See the GNU General Public License for more details.
17  * 
18  * You should have received a copy of the GNU General Public License
19  * along with Jalview.  If not, see <http://www.gnu.org/licenses/>.
20  * The Jalview Authors are detailed in the 'AUTHORS' file.
21  -->
22 <head>
23 <title>UniProtKB query fields</title>
24 </head>
25
26 <body>
27   <p>
28     <strong>UniProtKB query fields</strong>
29   </p>
30 <p>Supported query fields for searching specific data in UniProtKB (see also <a href="text-search">query syntax</a>).</p>
31
32 <table  border="1" width="95%">
33   <tr>
34     <th>Field</th>
35     <th>Example</th>
36     <th>Description</th>
37   </tr>
38   <tr>
39     <td>accession</td>
40     <td>
41       <code>accession:P62988</code>
42     </td>
43     <td>
44         Lists all entries with the primary or secondary
45         accession number P62988.
46     </td>
47   </tr>
48   <tr>
49     <td>active</td>
50     <td>
51       <code>active:no </code>
52     </td>
53     <td>
54         Lists all obsolete entries.
55     </td>
56   </tr>
57   <tr>
58     <td>annotation</td>
59     <td>
60       <code>
61         annotation:(type:non-positional)
62         <br />
63         annotation:(type:positional)
64         <br />
65         annotation:(type:mod_res "Pyrrolidone carboxylic acid" evidence:experimental)
66       </code>
67     </td>
68     <td>
69       Lists all entries with:
70       <ul>
71         <li>any general annotation (comments [CC])</li>
72         <li>any sequence annotation (features [FT])</li>
73         <li>at least one amino acid modified with a Pyrrolidone carboxylic acid group</li>
74       </ul>
75     </td>
76   </tr>
77   <tr>
78     <td>author</td>
79     <td>
80       <code>
81         author:ashburner
82       </code>
83     </td>
84     <td>
85         Lists all entries with at least one reference co-authored by Michael Ashburner.
86     </td>
87   </tr>
88   <tr>
89     <td>cdantigen</td>
90     <td>
91       <code>
92         cdantigen:CD233
93       </code>
94     </td>
95     <td>
96         Lists all entries whose cluster of differentiation number is CD233.
97     </td>
98   </tr>
99   <tr>
100     <td>citation</td>
101     <td>
102       <code>
103         citation:("intracellular structural proteins")
104         <br />
105         citation:(author:ashburner journal:nature)
106         citation:9169874
107       </code>
108     </td>
109     <td>
110       Lists all entries with a literature citation:
111       <ul>
112         <li>containing the phrase "intracellular structural proteins" in either title or abstract</li>
113         <li>co-authored by Michael Ashburner and published in Nature</li>
114         <li>with the PubMed identifier 9169874</li>
115       </ul>
116     </td>
117   </tr>
118   <tr>
119     <td>cluster</td>
120     <td>
121       <code>
122         cluster:UniRef90_A5YMT3
123       </code>
124     </td>
125     <td>
126         Lists all entries in the UniRef 90% identity cluster whose
127         representative sequence is UniProtKB entry A5YMT3.
128     </td>
129   </tr>
130   <tr>
131         <td>count</td>
132         <td>
133                 <code>
134                         annotation:(type:transmem count:5)<br />
135                         annotation:(type:transmem count:[5 TO *])<br />
136                         annotation:(type:cofactor count:[3 TO *])
137                 </code>
138         </td>
139         <td>Lists all entries with:
140                 <ul>
141                         <li>exactly 5 transmembrane regions</li>
142                         <li>5 or more transmembrane regions</li>
143                         <li>3 or more Cofactor comments</li>
144                 </ul>
145         </td>
146   </tr>
147   <tr>
148     <td>created</td>
149     <td>
150       <code>
151         created:[20121001 TO *]<br />
152         reviewed:yes AND created:[current TO *]
153       </code>
154     </td>
155     <td>
156         Lists all entries created since October 1st 2012.<br />
157         Lists all new UniProtKB/Swiss-Prot entries in the last release.
158     </td>
159   </tr>
160   <tr>
161     <td>database</td>
162     <td>
163       <code>
164         database:(type:pfam)
165         <br />
166         database:(type:pdb 1aut)
167       </code>
168     </td>
169     <td>
170       Lists all entries with:
171       <ul>
172         <li>a cross-reference to the Pfam database</li>
173         <li>a cross-reference to the PDB database entry 1aut</li>
174       </ul>
175      
176     </td>
177   </tr>
178   <tr>
179     <td>domain</td>
180     <td>
181       <code>
182         domain:VWFA
183       </code>
184     </td>
185     <td>
186         Lists all entries with a Von Willebrand factor type A domain described
187         in the 'Family and Domains' section.
188     </td>
189   </tr>
190   <tr>
191     <td>ec</td>
192     <td>
193       <code>
194         ec:3.2.1.23
195       </code>
196     </td>
197     <td>
198         Lists all beta-galactosidases.
199     </td>
200   </tr>
201   <tr>
202         <td>evidence</td>
203         <td>
204                 <code>
205                         annotation:(type:signal evidence:ECO_0000269)<br />
206                         (type:mod_res phosphoserine evidence:ECO_0000269)<br />
207                         annotation:(type:function AND evidence:ECO_0000255)
208                 </code>
209         </td>
210         <td>Lists all entries with:
211                 <ul>
212                         <li>a signal sequence whose positions have been experimentally proven</li>
213                         <li>experimentally proven phosphoserine sites</li>
214                         <li>a function manually asserted according to rules</li>
215                 </ul>
216         </td>
217   </tr>
218   <tr>
219     <td>family</td>
220     <td>
221       <code>
222         family:serpin
223       </code>
224     </td>
225     <td>
226         Lists all entries belonging to the Serpin family of proteins.
227     </td>
228   </tr>
229   <tr>
230     <td>fragment</td>
231     <td>
232       <code>
233         fragment:yes
234       </code>
235     </td>
236     <td>
237         Lists all entries with an incomplete sequence.
238     </td>
239   </tr>
240
241   <tr>
242     <td>gene</td>
243     <td>
244       <code>
245         gene:HSPC233
246       </code>
247     </td>
248     <td>
249         Lists all entries for proteins encoded by gene HSPC233.
250     </td>
251   </tr>
252   <tr>
253     <td>go</td>
254     <td>
255       <code>
256         go:cytoskeleton
257         <br />
258         go:0015629
259       </code>
260     </td>
261     <td>
262       Lists all entries associated with:
263       <ul>
264         <li>a GO term containing the word "cytoskeleton"</li>
265         <li>the GO term Actin cytoskeleton and any subclasses</li>
266       </ul>
267     </td>
268   </tr>
269   <tr>
270     <td>host</td>
271     <td>
272       <code>
273         host:mouse
274         <br />
275         host:10090
276         <br />
277         host:40674
278       </code>
279     </td>
280     <td>
281       Lists all entries for viruses infecting:
282       <ul>
283         <li>organisms with a name containing the word "mouse"</li>
284         <li>Mus musculus (Mouse)</li>
285         <li>all mammals (all taxa classified under the taxonomy node for Mammalia)</li>
286       </ul>
287     </td>
288   </tr>
289   <tr>
290     <td>id</td>
291     <td>
292       <code>id:P00750</code>
293     </td>
294     <td>
295         Returns the entry with the primary
296         accession number P00750.
297     </td>
298   </tr>
299   <tr>
300     <td>inn</td>
301     <td>
302       <code>
303         inn:Anakinra
304       </code>
305     </td>
306     <td>
307         Lists all entries whose "International Nonproprietary Name" is Anakinra.
308     </td>
309   </tr>
310   <tr>
311     <td>interactor</td>
312     <td>
313       <code>
314         interactor:P00520
315       </code>
316     </td>
317     <td>
318         Lists all entries describing interactions with the protein described by
319         entry P00520.
320     </td>
321   </tr>
322   <tr>
323     <td>keyword</td>
324     <td>
325       <code>
326         keyword:toxin
327       </code>
328     </td>
329     <td>
330         Lists all entries associated with the keyword Toxin.
331     </td>
332   </tr>
333   <tr>
334     <td>length</td>
335     <td>
336       <code>
337         length:[500 TO 700]
338       </code>
339     </td>
340     <td>
341         Lists all entries describing sequences of length between 500 and 700 residues.
342     </td>
343   </tr>
344   <tr>
345     <td>lineage</td>
346     <td />
347     <td>
348       This field is a synonym for the field <code>taxonomy</code>.
349     </td>
350   </tr>
351   <tr>
352     <td>mass</td>
353     <td>
354       <code>
355         mass:[500000 TO *]
356       </code>
357     </td>
358     <td>
359         Lists all entries describing sequences with a mass of at least 500,000 Da.
360     </td>
361   </tr>
362   <tr>
363     <td>method</td>
364     <td>
365       <code>
366         method:maldi
367         <br />
368         method:xray
369       </code>
370     </td>
371     <td>
372         Lists all entries for proteins identified by: matrix-assisted laser
373         desorption/ionization (MALDI), crystallography (X-Ray). The
374         <code>method</code> field searches names of physico-chemical
375         identification methods in the 'Biophysicochemical properties' subsection of the 'Function' section, the 'Publications' and
376         'Cross-references' sections.
377     </td>
378   </tr>
379   <tr>
380     <td>mnemonic</td>
381     <td>
382       <code>
383         mnemonic:ATP6_HUMAN
384       </code>
385     </td>
386     <td>
387         Lists all entries with entry name (ID) ATP6_HUMAN. Searches also
388         obsolete entry names.
389     </td>
390   </tr>
391   <tr>
392     <td>modified</td>
393     <td>
394       <code>
395         modified:[20120101 TO 20120301]<br />
396         reviewed:yes AND modified:[current TO *]
397       </code>
398     </td>
399     <td>
400         Lists all entries that were last modified between January and March 2012.<br />
401         Lists all UniProtKB/Swiss-Prot entries modified in the last release.
402     </td>
403   </tr>
404   <tr>
405     <td>name</td>
406     <td>
407       <code>
408         name:"prion protein"
409       </code>
410     </td>
411     <td>
412         Lists all entries for prion proteins.
413     </td>
414   </tr>
415   <tr>
416     <td>organelle</td>
417     <td>
418       <code>
419         organelle:Mitochondrion
420       </code>
421     </td>
422     <td>
423         Lists all entries for proteins encoded by a gene of the mitochondrial
424         chromosome.
425     </td>
426   </tr>
427   <tr>
428     <td>organism</td>
429     <td>
430       <code>
431         organism:"Ovis aries"
432         <br />
433         organism:9940
434         <br />
435         organism:sheep
436         <br />
437       </code>
438     </td>
439     <td>
440         Lists all entries for proteins expressed in sheep (first 2 examples) and
441         organisms whose name contains the term "sheep".
442     </td>
443   </tr>
444  
445   <tr>
446     <td>plasmid</td>
447     <td>
448       <code>
449         plasmid:ColE1
450       </code>
451     </td>
452     <td>
453         Lists all entries for proteins encoded by a gene of plasmid ColE1.
454     </td>
455   </tr>
456   <tr>
457     <td>proteome</td>
458     <td>
459       <code>
460         proteome:UP000005640
461       </code>
462     </td>
463     <td>
464         Lists all entries from the human proteome.
465     </td>
466   </tr>
467   <tr>
468     <td>proteomecomponent</td>
469     <td>
470       <code>
471         proteomecomponent:"chromosome 1" and organism:9606
472       </code>
473     </td>
474     <td>
475         Lists all entries from the human chromosome 1.
476     </td>
477   </tr>
478   <tr>
479     <td>replaces</td>
480     <td>
481       <code>
482         replaces:P02023
483       </code>
484     </td>
485     <td>
486         Lists all entries that were created from a merge with entry P02023.
487     </td>
488   </tr>
489   <tr>
490     <td>reviewed</td>
491     <td>
492       <code>
493         reviewed:yes
494       </code>
495     </td>
496     <td>
497         Lists all UniProtKB/Swiss-Prot entries.
498     </td>
499   </tr>
500   <tr>
501     <td>scope</td>
502     <td>
503       <code>
504         scope:mutagenesis
505       </code>
506     </td>
507     <td>
508         Lists all entries containing a reference that was used to gather
509         information about mutagenesis.
510     </td>
511   </tr>
512   <tr>
513     <td>sequence</td>
514     <td>
515       <code>
516         sequence:P05067-9
517       </code>
518     </td>
519     <td>
520         Lists all entries containing a link to isoform 9 of the sequence
521         described in entry P05067. Allows searching by specific sequence
522         identifier.
523     </td>
524   </tr>
525   <tr>
526     <td>sequence_modified</td>
527     <td>
528       <code>
529         sequence_modified:[20120101 TO 20120301]<br />
530         reviewed:yes AND sequence_modified:[current TO *]
531       </code>
532     </td>
533     <td>
534         Lists all entries whose sequences were last modified between January and March 2012.<br />
535         Lists all UniProtKB/Swiss-Prot entries whose sequences were modified in the last release.
536     </td>
537   </tr>
538   <tr>
539     <td>source</td>
540     <td>
541       <code>
542         source:intact
543       </code>
544     </td>
545     <td>
546         Lists all entries containing a GO term whose annotation source is the
547         IntAct database.
548     </td>
549   </tr>
550   <tr>
551     <td>strain</td>
552     <td>
553       <code>
554         strain:wistar
555       </code>
556     </td>
557     <td>
558         Lists all entries containing a reference relevant to strain wistar.
559     </td>
560   </tr>
561   <tr>
562     <td>taxonomy</td>
563     <td>
564       <code>
565         taxonomy:40674
566       </code>
567     </td>
568     <td>
569         Lists all entries for proteins expressed in Mammals. This field is used to retrieve
570         entries for all organisms classified below a given taxonomic node taxonomy classification).
571     </td>
572   </tr>
573   <tr>
574     <td>tissue</td>
575     <td>
576       <code>
577         tissue:liver
578       </code>
579     </td>
580     <td>
581         Lists all entries containing a reference describing the protein sequence
582         obtained from a clone isolated from liver.
583     </td>
584   </tr>
585   <tr>
586     <td>web</td>
587     <td>
588       <code>
589         web:wikipedia
590       </code>
591     </td>
592     <td>
593         Lists all entries for proteins that are described in Wikipedia.
594     </td>
595   </tr>
596 </table>
597
598 </body>
599 </html>