Next version of JABA
[jabaws.git] / binaries / src / fasta34 / readme.v30t7
1 >> October 30, 1996
2
3 A new program, sc_to_e, can be used to calculate expectation values
4 from the regression coefficients reported from a search.  The
5 expectation value is based on similarity score, sequence length, and
6 database size.
7
8 >> November 8, 1996
9
10 fasta30t7 differs from fasta30t6 in the amount of information provided
11 with the -m 10 option.
12
13 (1) The query and library sequence identifiers are no longer abbreviated.
14
15 (2) New information about the program and program version are provided:
16
17 The new information provided is:
18
19         mp_name: program name (actually argv[0])
20         mp_ver: main program version (can be different from function version)
21         mp_argv: command line arguments (duplicates argv[0])
22
23     Some statistical information is provided as well:
24         mp_extrap: XXXX YYY - statistics extrapolated from XXX to YYY
25         mp_stats: indicates type of statistics used for E() value
26         mp_KS: Kolmogorov-Smirnoff statistic
27
28 The "mp_" (main program) information is function independent, while the "pg_"
29 information is produced by a particular comparison function (ssearch,
30 fastx, fasta, etc).  "pg_" should probably be called "fn_", and "mp_"
31 called "pg_", but I remain backwards compatible.
32
33 (3) The end of the "parseable" records is denoted with:
34
35         >>><<<
36
37 (4) There now an compile-time option -DM10_CONS, that allows you to
38 display a final alignment summary:
39
40 ;al_cons:
41      .::.:-   .:: ..  :.    .:.---:   :  .--.:. : 
42 ..  .---  ..: :: ... :..: .::.:. .  .---.  .   .: 
43  : .  . . :    ..   .    :..: .--. . : .:. .. :  .
44  .:.:::  ..:. :
45
46 or, if M10_CONS_L is defined (in addition to M10_CONS), the output is:
47 ;al_cons:
48      p==p=-mmmp==mpzmm=pmmmmz=p---=mmm=mmp--p=zm=m
49 pzmmp---mmzp=m==mzzzm=zp=mz==z=pmzmmz---pmmpmmmp=m
50 m=mzmmzmpm=mmmmppmmmpmmmm=pp=mp--pmpm=mp=pmzzm=mmp
51 mp=z===mmpz=zm=
52
53 where '=' indicates identical residues, '-' a gap in one or the other
54 sequence, 'p' indicates a positive pam value, 'm' indicates a negative
55 pam value, and 'z' indicates a zero pam value.
56
57 A typical run now looks like:
58
59 >>>gtm1_mouse.aa, 217 aa vs s library
60 ; mp_name: fasta3_t
61 ; mp_ver: version 3.0t7 November, 1996
62 ; mp_argv: fasta3_t -q -m 10 gtm1_mouse.aa s
63 ; pg_name: FASTA
64 ; pg_ver: 3.06 Sept, 1996
65 ; pg_matrix: BL50
66 ; pg_gap-pen: -12 -2
67 ; pg_ktup: 2
68 ; pg_optcut: 24
69 ; pg_cgap: 36
70 ; mp_extrap: 50000 51933
71 ; mp_stats: Expectation fit: rho(ln(x))= 5.8855+/-0.000527; mu= 1.5386+/- 0.029;  mean_var=73.0398+/-15.283
72 ; mp_KS: 0.0133 (N=29) at  42
73 >>GTM1_MOUSE GLUTATHIONE S-TRANSFERASE GT8.7 (EC 2.5.1.18) (GST 1-1) (CLASS-MU).
74 ; fa_initn: 1490
75 ; fa_init1: 1490
76 ; fa_opt: 1490
77 ; fa_z-score: 1754.6
78 ; fa_expect:      0
79 ; sw_score: 1490
80 ; sw_ident: 1.000
81 ; sw_overlap: 217
82 >GTM1_MOUSE ..
83 ; sq_len: 217
84 ; sq_type: p
85 ; al_start: 1
86 ; al_stop: 217
87 ; al_display_start: 1
88 PMILGYWNVRGLTHPIRMLLEYTDSSYDEKRYTMGDAPDFDRSQWLNEKF
89 KLGLDFPNLPYLIDGSHKITQSNAILRYLARKHHLDGETEEERIRADIVE
90 NQVMDTRMQLIMLCYNPDFEKQKPEFLKTIPEKMKLYSEFLGKRPWFAGD
91 KVTYVDFLAYDILDQYRMFEPKCLDAFPNLRDFLARFEGLKKISAYMKSS
92 RYIATPIFSKMAHWSNK
93 >GTM1_MOUSE ..
94 ; sq_len: 217
95 ; sq_type: p
96 ; al_start: 1
97 ; al_stop: 217
98 ; al_display_start: 1
99 PMILGYWNVRGLTHPIRMLLEYTDSSYDEKRYTMGDAPDFDRSQWLNEKF
100 KLGLDFPNLPYLIDGSHKITQSNAILRYLARKHHLDGETEEERIRADIVE
101 NQVMDTRMQLIMLCYNPDFEKQKPEFLKTIPEKMKLYSEFLGKRPWFAGD
102 KVTYVDFLAYDILDQYRMFEPKCLDAFPNLRDFLARFEGLKKISAYMKSS
103 RYIATPIFSKMAHWSNK
104 >>GTM1_RAT GLUTATHIONE S-TRANSFERASE YB1 (EC 2.5.1.18) (CHAIN 3) (CLASS-MU).
105 ; fa_initn: 1406
106 ; fa_init1: 1406
107 ; fa_opt: 1406
108 ; fa_z-score: 1656.3
109 ; fa_expect:      0
110 ; sw_score: 1406
111 ; sw_ident: 0.931
112 ; sw_overlap: 217
113 >GTM1_MOUSE ..
114 ; sq_len: 217
115 ; sq_type: p
116 ; al_start: 1
117 ; al_stop: 217
118 ; al_display_start: 1
119 PMILGYWNVRGLTHPIRMLLEYTDSSYDEKRYTMGDAPDFDRSQWLNEKF
120 KLGLDFPNLPYLIDGSHKITQSNAILRYLARKHHLDGETEEERIRADIVE
121 NQVMDTRMQLIMLCYNPDFEKQKPEFLKTIPEKMKLYSEFLGKRPWFAGD
122 KVTYVDFLAYDILDQYRMFEPKCLDAFPNLRDFLARFEGLKKISAYMKSS
123 RYIATPIFSKMAHWSNK
124 >GTM1_RAT ..
125 ; sq_len: 217
126 ; sq_type: p
127 ; al_start: 1
128 ; al_stop: 217
129 ; al_display_start: 1
130 PMILGYWNVRGLTHPIRLLLEYTDSSYEEKRYAMGDAPDYDRSQWLNEKF
131 KLGLDFPNLPYLIDGSRKITQSNAIMRYLARKHHLCGETEEERIRADIVE
132 NQVMDNRMQLIMLCYNPDFEKQKPEFLKTIPEKMKLYSEFLGKRPWFAGD
133 KVTYVDFLAYDILDQYHIFEPKCLDAFPNLKDFLARFEGLKKISAYMKSS
134 RYLSTPIFSKLAQWSNK
135 ;al_cons:
136 :::::::::::::::::.:::::::::.::::.::::::.::::::::::
137 ::::::::::::::::.::::::::.::::::::: ::::::::::::::
138 :::::.::::::::::::::::::::::::::::::::::::::::::::
139 ::::::::::::::::..::::::::::::.:::::::::::::::::::
140 ::..::::::.:.::::
141 >>><<<
142
143
144 217 residues in 1 query   sequences
145 18531385 residues in 52205 library sequences
146  Tcomplib (4 proc)[version 3.0t7 November, 1996]
147  start: Fri Nov  8 18:20:26 1996 done: Fri Nov  8 18:20:41 1996
148  Scan time: 38.434 Display time:  2.166
149
150 Function used was  FASTA 
151
152 ================================================================
153
154 >> November 11, 1996
155
156  --> v30t71
157
158 Made changes to complib.c, comp_thr.c, nxgetaa.c to allow scoring
159 matrix to be modified in fastx3, fastx3_t.
160
161 ================================================================
162
163 >> November 15, 1996
164
165  --> v30t72
166
167 nxgetaa.c now accepts query sequences from "stdin" by using "-" as the
168 input file name.  If DNA sequences are read in this mode, the "-n"
169 option must be used.
170
171 > November 23, 1996
172
173 Included code in nxgetaa.c and Makefile.sgi to get around a bug in SGI's
174 sscanf() that prevented compressed GCG databases from being read properly.
175