JPRED-2 Add sources of all binaries (except alscript) to Git
[jpred.git] / sources / seg / README
1
2 This directory contains C language source code for the SEG program of Wootton
3 and Federhen, for identifying and masking segments of low compositional
4 complexity in amino acid sequences.  This program is inappropriate for
5 masking nucleotide sequences and, in fact, may strip some nucleotide
6 ambiguity codes from nt. sequences as they are being read.
7
8 The SEG program can be used as a plug-in filter of query sequences used in the
9 NCBI BLAST programs.  See the -filter and -echofilter options described in the
10 BLAST software's manual page.
11
12 Input to SEG must be sequences in FASTA format.  Output can be produced in a
13 variety of formats, with FASTA format being one of them when the -x option is
14 used.  The file seg.doc includes a copy of the man page for the seg program.
15
16
17 References:
18 Wootton, J. C. and S. Federhen (1993).  Statistics of local complexity in amino
19 acid sequences and sequence databases.  Computers and Chemistry 17:149-163.
20
21
22 MODIFICATION HISTORY
23 10/18/94
24 Fixed a bug in the boundary conditions for the alphabet assignments
25 (colorings) calculations. This condition seems not to arise in the
26 current protein sequence databases, but does appear when the algorithm
27 is customized for the nucleic acid alphabet.
28
29 4/2/94
30 Fixed a bug in the reading of input sequence files.  B, Z, and U letters found
31 in the IUB amino acid alphabet and the NCBI standard amino acid alphabet
32 were being stripped.
33
34 3/30/94
35 WRG improved speed by about 3X (roughly 5X overall since 3/21/94), due in part
36 to the elimination of nearly all log() function calls, plus the removal of much
37 unused or unnecessary code.
38
39 3/21/94
40 Included support for the special characters "*" (translation stop) and "-"
41 (gap) which are found in some NCBI standard amino acid alphabets.
42
43 WRG replaced repetitive dynamic calls to log(2.) and log(20.) with precomputed
44 values, yielding a 33-50% speed improvement.
45
46 WRG added EOF checks in several places, the lack of which could produce
47 infinite looping.
48
49 The previous version of seg is archived beneath the archive subdirectory.
50
51 9/30/97
52 HMF5 plugged a memory leak.