initial commit
[jalview.git] / forester / archive / RIO / others / hmmer / squid / Docs / squid-format.tex
1 \newpage
2 \section {SQUID format}
3
4 SQUID format is a sequence database format similar to the PIR,
5 GenBank, and EMBL formats. The primary difference is that SQUID format
6 may optionally contain secondary structure annotation information for
7 the sequence. No other sequence format allows secondary structure
8 annotation, which is why SQUID format became necessary.
9
10 An example SQUID format file:
11
12 \begin{verbatim}
13 NAM  DY9990
14 SRC  HSTGYA M27547 76..169::196
15 DES  Human Tyr-tRNA gene, clone pM6.
16 SEQ  +SS
17        1 ccttcgatagctcagctggtagagcggaggactgtagactgcggaaacgt
18          >>>>>>>..>>>>........<<<<.>>>>>...................
19       51 ttgtggacatccttaggtcgctggttcaattccggctcgaagga
20          .........<<<<<.....>>>>>.......<<<<<<<<<<<<.
21 ++
22 NAM  DY9991
23 SRC  HSTRNAYE M55611 1..93::93
24 DES  Human Tyr-tRNA precursor.
25 SEQ  +SS
26        1 ccttcgatagctcagctggtagagcggaggactgtagcctgtagaaacat
27          >>>>>>>..>>>>........<<<<.>>>>>...................
28       51 ttgtggacatccttaggtcgctggttcgattccggctcgaagg
29          .........<<<<<.....>>>>>.......<<<<<<<<<<<<
30 ++
31 NAM  DA0260
32 SEQ
33        1 GGGCGAAUAGUGUCAGCGGGAGCACACCAGACUUGCAAUCUGGUAGGGAG
34       51 GGUUCGAGUCCCUCUUUGUCCACCA
35 ++
36 \end{verbatim}
37
38
39 \subsection {Specification of a SQUID file}
40
41 \begin{enumerate}
42 \item There must be a line of the form \verb+NAM  <sequence name>+.
43
44 \item There may be an optional line \verb+SRC <id> <acc>
45 <start>..<stop>::<olen>+, which specified a database source for this
46 sequence, giving the database identifier (name), accession number,
47 start and end position in the database sequence, and the original
48 length of the database sequence, respectively.  If a \verb+SRC+ line
49 is present, all of these values must be specified.  If any values are
50 unknown, they may be set to \verb+-+ in the case of \verb+<id>+ and
51 \verb+<acc>+ and \verb+0+ in the case of \verb+<start>+, \verb+<stop>,
52 and \verb+<olen>+, and in these cases the values will be ignored.
53
54 \item There may be an optional line  \verb+DES <description>+ giving
55 a one-line description of the sequence.
56
57 \item There must be a line of the form \verb-SEQ +SS- or \verb-SEQ-.
58 If the line contains \verb-+SS-, it means that the record contains
59 secondary structure annotation interleaved with the sequence.
60
61 \item The sequence (and optional structure) immediately follow. There may be
62 optional numbering either before or after the sequence. The number of
63 characters per line is unimportant. Spaces and tabs are ignored.
64 There must be no non-numeric non-space characters on any lines except
65 sequence or structure annotation characters. Structure annotation is
66 fairly free-form; any alphabetic character or character in the set
67 \verb/_.-*?<>{}[]()!@#$%^&=+;:'|`~"\/ is accepted. There must
68 be one such character for every sequence character (preferably aligned
69 to the sequence, but in fact this is not checked for). Note that
70 spaces in the secondary structure annotation are not permitted,
71 except where they are aligned to gaps in the sequence.
72
73 \item Sequence records are separated by a line of the form \verb-++-.
74 \end{enumerate}
75
76
77
78    
79
80