JPRED-2 Add sources of all binaries (except alscript) to Git
[jpred.git] / sources / sov / README.sov
1
2  SOV program measures secondary structure prediction accuracy
3
4  Copyright by Adam Zemla (11/16/1996)
5  Email: adamz@llnl.gov
6
7 -------------------------------------------------------------------------------
8
9  Usage:         sov <input_data>
10
11  Readme file:   README.sov
12
13 -------------------------------------------------------------------------------
14
15                                  SOV
16
17                            Measure Description 
18
19                     Adam Zemla  &  Ceslovas Venclovas    
20
21 -------------------------------------------------------------------------------
22
23             Secondary structure prediction accuracy evaluation
24                       SOV (Segment OVerlap) measure
25
26                              Introduction
27
28
29 The evaluation of secondary structure prediction accuracy is not as simple 
30 task as it may look like. Traditionally used Q3 measure that gives an overall 
31 number of residues predicted correctly can be very misleading. It seems that 
32 measures concentrating on how well secondary structure elements are predicted
33 instead of individual residues better reflect the nature of three-dimensional 
34 protein structure. As an effort to make evaluation of secondary structure 
35 prediction more structurally meaningfull we have defined segment overlap 
36 measure (SOV). SOV measure first proposed by Rost et al. - JMB. 1994, 235, 13-26
37 is redefined here. The paper containing full scientific description of current 
38 version of SOV measure and discussion regarding secondary structure prediction 
39 accuracy evaluation is published by Zemla et al. - PROTEINS: Structure, 
40 Function, and Genetics, 34, 1999, pp. 220-223. 
41
42 The aim of this program is to provide a possibility to evaluate predictions 
43 and compare peformance of prediction accuracy measures. Given both predicted 
44 and observed secondary structure assignments the program evaluates the accuracy 
45 of the secondary structure prediction. Evaluation is done for overall
46 three-state (helix, strand, coil) and for each single conformational state 
47 prediction accuraccy. The measures used are:
48
49   Q3  - traditional per-residue prediction accuracy Qindex 
50   SOV - Segment OVerlap measure (the definition of Zemla et al. - PROTEINS: 
51         Structure, Function, and Genetics, 34, 1999, pp. 220-223)
52
53
54
55                                Q3 measure
56
57 Qindex: (Qhelix, Qstrand, Qcoil, Q3) gives percentage of residues predicted 
58 correctly as helix, strand, coil or for all three conformational states. 
59 The definition of Qindex is as follows. 
60
61 For a single conformational state: 
62
63                 number of residues correctly predicted in state i             
64        Qi    =  ------------------------------------------------- * 100,       
65                      number of residues observed in state i 
66
67
68 where i is either helix, strand or coil. 
69
70 For all three states: 
71
72                 number of residues correctly predicted                        
73        Q3    =  -------------------------------------- * 100                 
74                         number of all residues                                                              
75
76
77
78                               SOV measure
79
80 Segment OVerlap quantity measure for a single conformational state: 
81
82
83                  1     SUM   MINOV(S1;S2) + DELTA(S1;S2)
84      SOV(i)  =  ---    SUM   ---------------------------  * LEN(S1)
85                 N(i)   SUM           MAXOV(S1;S2)
86                        S(i)
87
88
89 S1 and S2       are the observed and predicted secondary structure segments 
90                 (in state i, which can be either H, E or C);
91 LEN(S1)         is the number of residues in the segments S1; 
92 MINOV(S1;S2)    is the length of actual overlap of S1 and S2, i.e. 
93                 the extent for which both segments have residues in state i, 
94                 for example H;
95 MAXOV(S1;S2)    is the length of the total extent for which either of 
96                 the segments S1 or S2 has a residue in state i;
97 DELTA(S1;S2)    is the integer value defined as being equal to the 
98                 MIN{(MAXOV(S1;S2)- MINOV(S1;S2)); MINOV(S1;S2); 
99                     INT(LEN(S1)/2); INT(LEN(S2)/2)}
100
101 THE SUM         is taken over S, all the pairs of segments {S1;S2},  
102                 where S1 and S2 have at least one residue in state i 
103                 in common;
104
105 N(i)            is the number of residues in state i defined as follows: 
106
107                 SUM             SUM 
108        N(i)  =  SUM LEN(S1)  +  SUM LEN(S1)                 
109                 SUM             SUM
110                 S(i)           S'(i)
111
112 Two sums are taken over S and S'
113
114 S(i)            is the number of all the pairs of segments {S1;S2},  
115                 where S1 and S2 have at least one residue in state i 
116                 in common
117
118 S'(i)           is the number of segments S1 that do not produce
119                 any segment pair
120
121
122 Segment OVerlap quantity measure for all three states: 
123
124
125                  1   SUM   SUM   MINOV(S1;S2) + DELTA(S1;S2)
126         SOV  =  ---  SUM   SUM   ---------------------------  * LEN(S1)
127                  N   SUM   SUM           MAXOV(S1;S2)
128                       i    S(i)
129
130 where the normalization value N is a sum of N(i) over all three
131 conformational states (i = HELIX, STRAND, COIL):
132
133                 SUM 
134           N  =  SUM  N(i)                 
135                 SUM
136                  i
137
138
139 SOV observed indicates that S1 is observed fragment and S2 is predicted one.
140 SOV predicted indicates that S1 is predicted fragment and S2 is observed one. 
141
142
143 -------------------------------------------------------------------------------
144
145                          Data format of prediction 
146
147 Data for secondary structure prediction accuracy evaluation should be prepared 
148 in COLUMN format:
149
150     First column: protein sequence (AA) in one-letter code 
151     Second column: observed (OSEC) secondary structure 
152     Third column: predicted (PSEC) secondary structure 
153
154 Secondary structure conformational states can be either helix (H), strand (E) 
155 or coil (C). Note: Alternatively, for coil assignment 'L' can be used instead, 
156 but not a mixture of 'C' and 'L' in the same data file. Delimiters of columns 
157 allowed are spaces. 
158
159
160 Example.1 of input data format: 
161 *******************************
162
163 AA  OSEC PSEC
164 M   C    C  
165 Q   C    C  
166 T   C    H  
167 R   H    H  
168 S   H    H  
169 I   H    H  
170 G   C    C  
171 V   C    C  
172
173
174 -------------------------------------------------------------------------------
175
176 Three other formats of the input data are also allowed:
177
178 Example.2 of input data format: 
179 *******************************
180  
181  AA  OSEC  PSEC     NUM
182   M   C     C         1
183   Q   C     C         2
184   T   C     H         3
185   R   H     H         4
186   S   H     H         5
187   I   H     H         6
188   G   C     C         7
189   V   C     C         8
190
191
192 Example.3 of input data format: 
193 *******************************
194  
195 >OSEQ
196 CCCHHHCC
197 >PSEQ
198 CCHHHHCC
199 >AA
200 MQTRSIGV
201
202
203 Example.4 of input data format: 
204 *******************************
205  
206 SSP  1   M   C     C        
207 SSP  2   Q   C     C        
208 SSP  3   T   C     H        
209 SSP  4   R   H     H        
210 SSP  5   S   H     H        
211 SSP  6   I   H     H        
212 SSP  7   G   C     C        
213 SSP  8   V   C     C        
214
215 -------------------------------------------------------------------------------
216
217 Output: 
218 *******
219
220  SECONDARY STRUCTURE PREDICTION
221  NUMBER OF RESIDUES PREDICTED: LENGTH = 8
222  AA  OSEC  PSEC     NUM
223   M   C     C         1
224   Q   C     C         2
225   T   C     H         3
226   R   H     H         4
227   S   H     H         5
228   I   H     H         6
229   G   C     C         7
230   V   C     C         8
231  -----------------------
232
233  SECONDARY STRUCTURE PREDICTION ACCURACY EVALUATION.  N_AA =    8
234
235                                    ALL    HELIX   STRAND     COIL
236
237  Q3                         :     87.5    100.0    100.0     80.0
238
239  SOV                        :    100.0    100.0    100.0    100.0
240
241  -----------------------
242
243
244