eaee3087cb0e305dde41beaf8a73918e286ccd93
[jalview.git] / help / html / features / uniprotqueryfields.html
1 <html>
2 <!--
3  * Jalview - A Sequence Alignment Editor and Viewer ($$Version-Rel$$)
4  * Copyright (C) $$Year-Rel$$ The Jalview Authors
5  * 
6  * This file is part of Jalview.
7  * 
8  * Jalview is free software: you can redistribute it and/or
9  * modify it under the terms of the GNU General Public License 
10  * as published by the Free Software Foundation, either version 3
11  * of the License, or (at your option) any later version.
12  *  
13  * Jalview is distributed in the hope that it will be useful, but 
14  * WITHOUT ANY WARRANTY; without even the implied warranty 
15  * of MERCHANTABILITY or FITNESS FOR A PARTICULAR 
16  * PURPOSE.  See the GNU General Public License for more details.
17  * 
18  * You should have received a copy of the GNU General Public License
19  * along with Jalview.  If not, see <http://www.gnu.org/licenses/>.
20  * The Jalview Authors are detailed in the 'AUTHORS' file.
21  -->
22 <head>
23 <title>UniProtKB query fields</title>
24 </head>
25
26 <body>
27   <p>
28     <strong>UniProtKB query fields</strong>
29   </p>
30   <p>
31     Supported query fields for searching specific data in UniProtKB (see
32     also <a href="uniprotsequencefetcher.html#text-search">query
33       syntax</a>).
34   </p>
35
36   <table  border="1" width="95%">
37   <tr>
38     <th>Field</th>
39     <th>Example</th>
40     <th>Description</th>
41   </tr>
42   <tr>
43     <td>accession</td>
44     <td>
45       <code>accession:P62988</code>
46     </td>
47     <td>
48         Lists all entries with the primary or secondary
49         accession number P62988.
50     </td>
51   </tr>
52   <tr>
53     <td>active</td>
54     <td>
55       <code>active:no </code>
56     </td>
57     <td>
58         Lists all obsolete entries.
59     </td>
60   </tr>
61   <tr>
62     <td>annotation</td>
63     <td>
64       <code>
65         annotation:(type:non-positional)
66         <br />
67         annotation:(type:positional)
68         <br />
69         annotation:(type:mod_res "Pyrrolidone carboxylic acid" evidence:experimental)
70       </code>
71     </td>
72     <td>
73       Lists all entries with:
74       <ul>
75         <li>any general annotation (comments [CC])</li>
76         <li>any sequence annotation (features [FT])</li>
77         <li>at least one amino acid modified with a Pyrrolidone carboxylic acid group</li>
78       </ul>
79     </td>
80   </tr>
81   <tr>
82     <td>author</td>
83     <td>
84       <code>
85         author:ashburner
86       </code>
87     </td>
88     <td>
89         Lists all entries with at least one reference co-authored by Michael Ashburner.
90     </td>
91   </tr>
92   <tr>
93     <td>cdantigen</td>
94     <td>
95       <code>
96         cdantigen:CD233
97       </code>
98     </td>
99     <td>
100         Lists all entries whose cluster of differentiation number is CD233.
101     </td>
102   </tr>
103   <tr>
104     <td>citation</td>
105     <td>
106       <code>
107         citation:("intracellular structural proteins")
108         <br />
109         citation:(author:ashburner journal:nature)
110         citation:9169874
111       </code>
112     </td>
113     <td>
114       Lists all entries with a literature citation:
115       <ul>
116         <li>containing the phrase "intracellular structural proteins" in either title or abstract</li>
117         <li>co-authored by Michael Ashburner and published in Nature</li>
118         <li>with the PubMed identifier 9169874</li>
119       </ul>
120     </td>
121   </tr>
122   <tr>
123     <td>cluster</td>
124     <td>
125       <code>
126         cluster:UniRef90_A5YMT3
127       </code>
128     </td>
129     <td>
130         Lists all entries in the UniRef 90% identity cluster whose
131         representative sequence is UniProtKB entry A5YMT3.
132     </td>
133   </tr>
134   <tr>
135         <td>count</td>
136         <td>
137                 <code>
138                         annotation:(type:transmem count:5)<br />
139                         annotation:(type:transmem count:[5 TO *])<br />
140                         annotation:(type:cofactor count:[3 TO *])
141                 </code>
142         </td>
143         <td>Lists all entries with:
144                 <ul>
145                         <li>exactly 5 transmembrane regions</li>
146                         <li>5 or more transmembrane regions</li>
147                         <li>3 or more Cofactor comments</li>
148                 </ul>
149         </td>
150   </tr>
151   <tr>
152     <td>created</td>
153     <td>
154       <code>
155         created:[20121001 TO *]<br />
156         reviewed:yes AND created:[current TO *]
157       </code>
158     </td>
159     <td>
160         Lists all entries created since October 1st 2012.<br />
161         Lists all new UniProtKB/Swiss-Prot entries in the last release.
162     </td>
163   </tr>
164   <tr>
165     <td>database</td>
166     <td>
167       <code>
168         database:(type:pfam)
169         <br />
170         database:(type:pdb 1aut)
171       </code>
172     </td>
173     <td>
174       Lists all entries with:
175       <ul>
176         <li>a cross-reference to the Pfam database</li>
177         <li>a cross-reference to the PDB database entry 1aut</li>
178       </ul>
179      
180     </td>
181   </tr>
182   <tr>
183     <td>domain</td>
184     <td>
185       <code>
186         domain:VWFA
187       </code>
188     </td>
189     <td>
190         Lists all entries with a Von Willebrand factor type A domain described
191         in the 'Family and Domains' section.
192     </td>
193   </tr>
194   <tr>
195     <td>ec</td>
196     <td>
197       <code>
198         ec:3.2.1.23
199       </code>
200     </td>
201     <td>
202         Lists all beta-galactosidases.
203     </td>
204   </tr>
205   <tr>
206         <td>evidence</td>
207         <td>
208                 <code>
209                         annotation:(type:signal evidence:ECO_0000269)<br />
210                         (type:mod_res phosphoserine evidence:ECO_0000269)<br />
211                         annotation:(type:function AND evidence:ECO_0000255)
212                 </code>
213         </td>
214         <td>Lists all entries with:
215                 <ul>
216                         <li>a signal sequence whose positions have been experimentally proven</li>
217                         <li>experimentally proven phosphoserine sites</li>
218                         <li>a function manually asserted according to rules</li>
219                 </ul>
220         </td>
221   </tr>
222   <tr>
223     <td>family</td>
224     <td>
225       <code>
226         family:serpin
227       </code>
228     </td>
229     <td>
230         Lists all entries belonging to the Serpin family of proteins.
231     </td>
232   </tr>
233   <tr>
234     <td>fragment</td>
235     <td>
236       <code>
237         fragment:yes
238       </code>
239     </td>
240     <td>
241         Lists all entries with an incomplete sequence.
242     </td>
243   </tr>
244
245   <tr>
246     <td>gene</td>
247     <td>
248       <code>
249         gene:HSPC233
250       </code>
251     </td>
252     <td>
253         Lists all entries for proteins encoded by gene HSPC233.
254     </td>
255   </tr>
256   <tr>
257     <td>go</td>
258     <td>
259       <code>
260         go:cytoskeleton
261         <br />
262         go:0015629
263       </code>
264     </td>
265     <td>
266       Lists all entries associated with:
267       <ul>
268         <li>a GO term containing the word "cytoskeleton"</li>
269         <li>the GO term Actin cytoskeleton and any subclasses</li>
270       </ul>
271     </td>
272   </tr>
273   <tr>
274     <td>host</td>
275     <td>
276       <code>
277         host:mouse
278         <br />
279         host:10090
280         <br />
281         host:40674
282       </code>
283     </td>
284     <td>
285       Lists all entries for viruses infecting:
286       <ul>
287         <li>organisms with a name containing the word "mouse"</li>
288         <li>Mus musculus (Mouse)</li>
289         <li>all mammals (all taxa classified under the taxonomy node for Mammalia)</li>
290       </ul>
291     </td>
292   </tr>
293   <tr>
294     <td>id</td>
295     <td>
296       <code>id:P00750</code>
297     </td>
298     <td>
299         Returns the entry with the primary
300         accession number P00750.
301     </td>
302   </tr>
303   <tr>
304     <td>inn</td>
305     <td>
306       <code>
307         inn:Anakinra
308       </code>
309     </td>
310     <td>
311         Lists all entries whose "International Nonproprietary Name" is Anakinra.
312     </td>
313   </tr>
314   <tr>
315     <td>interactor</td>
316     <td>
317       <code>
318         interactor:P00520
319       </code>
320     </td>
321     <td>
322         Lists all entries describing interactions with the protein described by
323         entry P00520.
324     </td>
325   </tr>
326   <tr>
327     <td>keyword</td>
328     <td>
329       <code>
330         keyword:toxin
331       </code>
332     </td>
333     <td>
334         Lists all entries associated with the keyword Toxin.
335     </td>
336   </tr>
337   <tr>
338     <td>length</td>
339     <td>
340       <code>
341         length:[500 TO 700]
342       </code>
343     </td>
344     <td>
345         Lists all entries describing sequences of length between 500 and 700 residues.
346     </td>
347   </tr>
348   <tr>
349     <td>lineage</td>
350     <td />
351     <td>
352       This field is a synonym for the field <code>taxonomy</code>.
353     </td>
354   </tr>
355   <tr>
356     <td>mass</td>
357     <td>
358       <code>
359         mass:[500000 TO *]
360       </code>
361     </td>
362     <td>
363         Lists all entries describing sequences with a mass of at least 500,000 Da.
364     </td>
365   </tr>
366   <tr>
367     <td>method</td>
368     <td>
369       <code>
370         method:maldi
371         <br />
372         method:xray
373       </code>
374     </td>
375     <td>
376         Lists all entries for proteins identified by: matrix-assisted laser
377         desorption/ionization (MALDI), crystallography (X-Ray). The
378         <code>method</code> field searches names of physico-chemical
379         identification methods in the 'Biophysicochemical properties' subsection of the 'Function' section, the 'Publications' and
380         'Cross-references' sections.
381     </td>
382   </tr>
383   <tr>
384     <td>mnemonic</td>
385     <td>
386       <code>
387         mnemonic:ATP6_HUMAN
388       </code>
389     </td>
390     <td>
391         Lists all entries with entry name (ID) ATP6_HUMAN. Searches also
392         obsolete entry names.
393     </td>
394   </tr>
395   <tr>
396     <td>modified</td>
397     <td>
398       <code>
399         modified:[20120101 TO 20120301]<br />
400         reviewed:yes AND modified:[current TO *]
401       </code>
402     </td>
403     <td>
404         Lists all entries that were last modified between January and March 2012.<br />
405         Lists all UniProtKB/Swiss-Prot entries modified in the last release.
406     </td>
407   </tr>
408   <tr>
409     <td>name</td>
410     <td>
411       <code>
412         name:"prion protein"
413       </code>
414     </td>
415     <td>
416         Lists all entries for prion proteins.
417     </td>
418   </tr>
419   <tr>
420     <td>organelle</td>
421     <td>
422       <code>
423         organelle:Mitochondrion
424       </code>
425     </td>
426     <td>
427         Lists all entries for proteins encoded by a gene of the mitochondrial
428         chromosome.
429     </td>
430   </tr>
431   <tr>
432     <td>organism</td>
433     <td>
434       <code>
435         organism:"Ovis aries"
436         <br />
437         organism:9940
438         <br />
439         organism:sheep
440         <br />
441       </code>
442     </td>
443     <td>
444         Lists all entries for proteins expressed in sheep (first 2 examples) and
445         organisms whose name contains the term "sheep".
446     </td>
447   </tr>
448  
449   <tr>
450     <td>plasmid</td>
451     <td>
452       <code>
453         plasmid:ColE1
454       </code>
455     </td>
456     <td>
457         Lists all entries for proteins encoded by a gene of plasmid ColE1.
458     </td>
459   </tr>
460   <tr>
461     <td>proteome</td>
462     <td>
463       <code>
464         proteome:UP000005640
465       </code>
466     </td>
467     <td>
468         Lists all entries from the human proteome.
469     </td>
470   </tr>
471   <tr>
472     <td>proteomecomponent</td>
473     <td>
474       <code>
475         proteomecomponent:"chromosome 1" and organism:9606
476       </code>
477     </td>
478     <td>
479         Lists all entries from the human chromosome 1.
480     </td>
481   </tr>
482   <tr>
483     <td>replaces</td>
484     <td>
485       <code>
486         replaces:P02023
487       </code>
488     </td>
489     <td>
490         Lists all entries that were created from a merge with entry P02023.
491     </td>
492   </tr>
493   <tr>
494     <td>reviewed</td>
495     <td>
496       <code>
497         reviewed:yes
498       </code>
499     </td>
500     <td>
501         Lists all UniProtKB/Swiss-Prot entries.
502     </td>
503   </tr>
504   <tr>
505     <td>scope</td>
506     <td>
507       <code>
508         scope:mutagenesis
509       </code>
510     </td>
511     <td>
512         Lists all entries containing a reference that was used to gather
513         information about mutagenesis.
514     </td>
515   </tr>
516   <tr>
517     <td>sequence</td>
518     <td>
519       <code>
520         sequence:P05067-9
521       </code>
522     </td>
523     <td>
524         Lists all entries containing a link to isoform 9 of the sequence
525         described in entry P05067. Allows searching by specific sequence
526         identifier.
527     </td>
528   </tr>
529   <tr>
530     <td>sequence_modified</td>
531     <td>
532       <code>
533         sequence_modified:[20120101 TO 20120301]<br />
534         reviewed:yes AND sequence_modified:[current TO *]
535       </code>
536     </td>
537     <td>
538         Lists all entries whose sequences were last modified between January and March 2012.<br />
539         Lists all UniProtKB/Swiss-Prot entries whose sequences were modified in the last release.
540     </td>
541   </tr>
542   <tr>
543     <td>source</td>
544     <td>
545       <code>
546         source:intact
547       </code>
548     </td>
549     <td>
550         Lists all entries containing a GO term whose annotation source is the
551         IntAct database.
552     </td>
553   </tr>
554   <tr>
555     <td>strain</td>
556     <td>
557       <code>
558         strain:wistar
559       </code>
560     </td>
561     <td>
562         Lists all entries containing a reference relevant to strain wistar.
563     </td>
564   </tr>
565   <tr>
566     <td>taxonomy</td>
567     <td>
568       <code>
569         taxonomy:40674
570       </code>
571     </td>
572     <td>
573         Lists all entries for proteins expressed in Mammals. This field is used to retrieve
574         entries for all organisms classified below a given taxonomic node taxonomy classification).
575     </td>
576   </tr>
577   <tr>
578     <td>tissue</td>
579     <td>
580       <code>
581         tissue:liver
582       </code>
583     </td>
584     <td>
585         Lists all entries containing a reference describing the protein sequence
586         obtained from a clone isolated from liver.
587     </td>
588   </tr>
589   <tr>
590     <td>web</td>
591     <td>
592       <code>
593         web:wikipedia
594       </code>
595     </td>
596     <td>
597         Lists all entries for proteins that are described in Wikipedia.
598     </td>
599   </tr>
600 </table>
601
602 </body>
603 </html>