todo update
[jabaws.git] / binaries / src / mafft / core / mafft.1
1 .\"     Title: MAFFT
2 .\"    Author: Kazutaka Katoh <katoh_at_bioreg.kyushu-u.ac.jp.>
3 .\" Generator: DocBook XSL Stylesheets v1.72.0 <http://docbook.sf.net/>
4 .\"      Date: 2007-08-14
5 .\"    Manual: Mafft Manual
6 .\"    Source: mafft 6.240
7 .\"
8 .TH "MAFFT" "1" "2007\-06\-09" "mafft 6.240" "Mafft Manual"
9 .\" disable hyphenation
10 .nh
11 .\" disable justification (adjust text to left margin only)
12 .ad l
13 .SH "NAME"
14 .RS 0
15 mafft \- Multiple alignment program for amino acid or nucleotide sequences
16 .RE
17 .SH "SYNOPSIS"
18 .RS 0
19 .HP 6
20 \fBmafft\fR [\fBoptions\fR] \fIinput\fR [>\ \fIoutput\fR]
21 .HP 6
22 \fBlinsi\fR \fIinput\fR [>\ \fIoutput\fR]
23 .HP 6
24 \fBginsi\fR \fIinput\fR [>\ \fIoutput\fR]
25 .HP 6
26 \fBeinsi\fR \fIinput\fR [>\ \fIoutput\fR]
27 .HP 7
28 \fBfftnsi\fR \fIinput\fR [>\ \fIoutput\fR]
29 .HP 6
30 \fBfftns\fR \fIinput\fR [>\ \fIoutput\fR]
31 .HP 5
32 \fBnwns\fR \fIinput\fR [>\ \fIoutput\fR]
33 .HP 6
34 \fBnwnsi\fR \fIinput\fR [>\ \fIoutput\fR]
35 .HP 14
36 \fBmafft\-profile\fR \fIgroup1\fR \fIgroup2\fR [>\ \fIoutput\fR]
37 .HP
38 .sp
39 \fIinput\fR, \fIgroup1\fR and \fIgroup2\fR must be in FASTA format.
40 .RE
41 .SH "DESCRIPTION"
42 .RS 0
43 \fBMAFFT\fR is a multiple sequence alignment program for unix\-like operating systems. It offers a range of multiple alignment methods.
44 .SS "Accuracy\-oriented methods:"
45 .sp
46 .RS 4
47 \h'-04'\(bu\h'+03'L\-INS\-i (probably most accurate; recommended for <200 sequences; iterative refinement method incorporating local pairwise alignment information):
48 .HP 6
49 \fBmafft\fR \fB\-\-localpair\fR \fB\-\-maxiterate\fR\ \fI1000\fR \fIinput\fR [>\ \fIoutput\fR]
50 .HP 6
51 \fBlinsi\fR \fIinput\fR [>\ \fIoutput\fR]
52 .RE
53 .sp
54 .RS 4
55 \h'-04'\(bu\h'+03'G\-INS\-i (suitable for sequences of similar lengths; recommended for <200 sequences; iterative refinement method incorporating global pairwise alignment information):
56 .HP 6
57 \fBmafft\fR \fB\-\-globalpair\fR \fB\-\-maxiterate\fR\ \fI1000\fR \fIinput\fR [>\ \fIoutput\fR]
58 .HP 6
59 \fBginsi\fR \fIinput\fR [>\ \fIoutput\fR]
60 .RE
61 .sp
62 .RS 4
63 \h'-04'\(bu\h'+03'E\-INS\-i (suitable for sequences containing large unalignable regions; recommended for <200 sequences):
64 .HP 6
65 \fBmafft\fR \fB\-\-ep\fR\ \fI0\fR \fB\-\-genafpair\fR \fB\-\-maxiterate\fR\ \fI1000\fR \fIinput\fR [>\ \fIoutput\fR]
66 .HP 6
67 \fBeinsi\fR \fIinput\fR [>\ \fIoutput\fR]
68 .br
69
70 For E\-INS\-i, the
71 \fB\-\-ep\fR
72 \fI0\fR
73 option is recommended to allow large gaps.
74 .RE
75 .SS "Speed\-oriented methods:"
76 .sp
77 .RS 4
78 \h'-04'\(bu\h'+03'FFT\-NS\-i (iterative refinement method; two cycles only):
79 .HP 6
80 \fBmafft\fR \fB\-\-retree\fR\ \fI2\fR \fB\-\-maxiterate\fR\ \fI2\fR \fIinput\fR [>\ \fIoutput\fR]
81 .HP 7
82 \fBfftnsi\fR \fIinput\fR [>\ \fIoutput\fR]
83 .RE
84 .sp
85 .RS 4
86 \h'-04'\(bu\h'+03'FFT\-NS\-i (iterative refinement method; max. 1000 iterations):
87 .HP 6
88 \fBmafft\fR \fB\-\-retree\fR\ \fI2\fR \fB\-\-maxiterate\fR\ \fI1000\fR \fIinput\fR [>\ \fIoutput\fR]
89 .RE
90 .sp
91 .RS 4
92 \h'-04'\(bu\h'+03'FFT\-NS\-2 (fast; progressive method):
93 .HP 6
94 \fBmafft\fR \fB\-\-retree\fR\ \fI2\fR \fB\-\-maxiterate\fR\ \fI0\fR \fIinput\fR [>\ \fIoutput\fR]
95 .HP 6
96 \fBfftns\fR \fIinput\fR [>\ \fIoutput\fR]
97 .RE
98 .sp
99 .RS 4
100 \h'-04'\(bu\h'+03'FFT\-NS\-1 (very fast; recommended for >2000 sequences; progressive method with a rough guide tree):
101 .HP 6
102 \fBmafft\fR \fB\-\-retree\fR\ \fI1\fR \fB\-\-maxiterate\fR\ \fI0\fR \fIinput\fR [>\ \fIoutput\fR]
103 .RE
104 .sp
105 .RS 4
106 \h'-04'\(bu\h'+03'NW\-NS\-i (iterative refinement method without FFT approximation; two cycles only):
107 .HP 6
108 \fBmafft\fR \fB\-\-retree\fR\ \fI2\fR \fB\-\-maxiterate\fR\ \fI2\fR \fB\-\-nofft\fR\ \fIinput\fR [>\ \fIoutput\fR]
109 .HP 7
110 \fBnwnsi\fR \fIinput\fR [>\ \fIoutput\fR]
111 .RE
112 .sp
113 .RS 4
114 \h'-04'\(bu\h'+03'NW\-NS\-2 (fast; progressive method without the FFT approximation):
115 .HP 6
116 \fBmafft\fR \fB\-\-retree\fR\ \fI2\fR \fB\-\-maxiterate\fR\ \fI0\fR \fB\-\-nofft\fR\ \fIinput\fR [>\ \fIoutput\fR]
117 .HP 6
118 \fBnwns\fR \fIinput\fR [>\ \fIoutput\fR]
119 .RE
120 .sp
121 .RS 4
122 \h'-04'\(bu\h'+03'NW\-NS\-PartTree\-1 (recommended for ~10,000 to ~50,000 sequences; progressive method with the PartTree algorithm):
123 .HP 6
124 \fBmafft\fR \fB\-\-retree\fR\ \fI1\fR \fB\-\-maxiterate\fR\ \fI0\fR \fB\-\-nofft\fR\ \fB\-\-parttree\fR \fIinput\fR [>\ \fIoutput\fR]
125 .RE
126 .SS "Group\-to\-group alignments"
127 .HP 6
128 .RS 4
129 \fBmafft\-profile\fR \fIgroup1\fR \fIgroup2\fR [>\ \fIoutput\fR]
130 .sp
131 or:
132 .sp
133 \fBmafft\fR \fB\-\-maxiterate\fR\ \fI1000\fR \fB\-\-seed\fR\ \fIgroup1\fR \fB\-\-seed\fR\ \fIgroup2\fR /dev/null [>\ \fIoutput\fR]
134 .RE
135 .RE
136 .RE
137 .SH "OPTIONS"
138 .SS "Algorithm"
139 .RS 0
140 .PP
141 \fB\-\-auto\fR
142 .RS 4
143 Automatically selects an appropriate strategy from L\-INS\-i, FFT\-NS\-i and FFT\-NS\-2, according to data 
144 size.  Default: off (always FFT\-NS\-2)
145 .RE
146 .PP
147 \fB\-\-6merpair\fR
148 .RS 4
149 Distance is calculated based on the number of shared 6mers.  Default: on
150 .RE
151 .PP
152 \fB\-\-globalpair\fR
153 .RS 4
154 All pairwise alignments are computed with the Needleman\-Wunsch
155 algorithm.  More accurate but slower 
156 than \-\-6merpair.  Suitable for a set of
157 globally alignable sequences.  Applicable to 
158 up to ~200 sequences.  A combination with \-\-maxiterate 1000 is recommended (G\-INS\-i).  Default: off (6mer distance is used)
159 .RE
160 .PP
161 \fB\-\-localpair\fR
162 .RS 4
163 All pairwise alignments are computed with the Smith\-Waterman
164 algorithm.  More accurate but slower
165 than \-\-6merpair.  Suitable for a set of 
166 locally alignable sequences.  Applicable to 
167 up to ~200 sequences.  A combination with \-\-maxiterate 1000 is recommended (L\-INS\-i).  Default: off (6mer distance is used)
168 .RE
169 .PP
170 \fB\-\-genafpair\fR
171 .RS 4
172 All pairwise alignments are computed with a local
173 algorithm with the generalized affine gap cost
174 (Altschul 1998).  More accurate but slower
175 than \-\-6merpair.  Suitable when large internal gaps
176 are expected.  Applicable to 
177 up to ~200 sequences.  A combination with \-\-maxiterate 1000 is recommended (E\-INS\-i).  Default: off (6mer distance is used)
178 .RE
179 .\".PP
180 .\"\fB\-\-fastswpair\fR
181 .\".RS 4
182 .\"Distance is calculated based on a FASTA alignment. 
183 .\"FASTA is required.  Default: off (6mer distance is used)
184 .\".RE
185 .PP
186 \fB\-\-fastapair\fR
187 .RS 4
188 All pairwise alignments are computed with FASTA (Pearson and Lipman 1988).
189 FASTA is required.  Default: off (6mer distance is used)
190 .RE
191 .\".PP
192 .\"\fB\-\-blastpair\fR
193 .\".RS 4
194 .\"Distance is calculated based on a BLAST alignment.  BLAST is 
195 .\"required.  Default: off (6mer distance is used)
196 .\".RE
197 .PP
198 \fB\-\-weighti\fR \fInumber\fR
199 .RS 4
200 Weighting factor for the consistency term calculated from pairwise alignments.  Valid when 
201 either of \-\-blobalpair, \-\-localpair,  \-\-genafpair, \-\-fastapair or 
202 \-\-blastpair is selected.  Default: 2.7
203 .RE
204 .PP
205 \fB\-\-retree\fR \fInumber\fR
206 .RS 4
207 Guide tree is built \fInumber\fR times in the 
208 progressive stage.  Valid with 6mer distance.  Default: 2
209 .RE
210 .PP
211 \fB\-\-maxiterate\fR \fInumber\fR
212 .RS 4
213 \fInumber\fR cycles of iterative refinement are performed.  Default: 0
214 .RE
215 .PP
216 \fB\-\-fft\fR
217 .RS 4
218 Use FFT approximation in group\-to\-group alignment.  Default: on
219 .RE
220 .PP
221 \fB\-\-nofft\fR
222 .RS 4
223 Do not use FFT approximation in group\-to\-group alignment.  Default: off
224 .RE
225 .PP
226 \fB\-\-noscore\fR
227 .RS 4
228 Alignment score is not checked in the iterative refinement stage.  Default: off (score is checked)
229 .RE
230 .PP
231 \fB\-\-memsave\fR
232 .RS 4
233 Use the Myers\-Miller (1988) algorithm.  Default: automatically turned on when the alignment length exceeds 10,000 (aa/nt).
234 .RE
235 .PP
236 \fB\-\-parttree\fR
237 .RS 4
238 Use a fast tree\-building method (PartTree, Katoh and Toh 2007) with
239 the 6mer distance.  Recommended for a large number (> ~10,000) 
240 of sequences are input.  Default: off
241 .RE
242 .PP
243 \fB\-\-dpparttree\fR
244 .RS 4
245 The PartTree algorithm is used with distances based on DP.  Slightly
246 more accurate and slower than \-\-parttree.  Recommended for a large
247 number (> ~10,000) of sequences are input.   Default: off
248 .RE
249 .PP
250 \fB\-\-fastaparttree\fR
251 .RS 4
252 The PartTree algorithm is used with distances based on FASTA.  Slightly more accurate and slower than \-\-parttree.  Recommended for a large number (> ~10,000) of sequences are input.  FASTA is required.  Default: off
253 .RE
254 .PP
255 \fB\-\-partsize\fR \fInumber\fR
256 .RS 4
257 The number of partitions in the PartTree algorithm.  Default: 50
258 .RE
259 .PP
260 \fB\-\-groupsize\fR \fInumber\fR
261 .RS 4
262 Do not make alignment larger than \fInumber\fR sequences. Valid only with the \-\-*parttree options.  Default: the number of input sequences
263 .RE
264 .RE
265 .SS "Parameter"
266 .RS 0
267 .PP
268 \fB\-\-op\fR \fInumber\fR
269 .RS 4
270 Gap opening penalty at group\-to\-group alignment.  Default: 1.53
271 .RE
272 .PP
273 \fB\-\-ep\fR \fInumber\fR
274 .RS 4
275 Offset value, which works like gap extension penalty, for
276 group\-to\-group alignment.  Deafult: 0.123
277 .RE
278 .PP
279 \fB\-\-lop\fR \fInumber\fR
280 .RS 4
281 Gap opening penalty at local pairwise 
282 alignment.  Valid when
283 the \-\-localpair or \-\-genafpair option is selected.  Default: \-2.00
284 .RE
285 .PP
286 \fB\-\-lep\fR \fInumber\fR
287 .RS 4
288 Offset value at local pairwise alignment.  Valid when
289 the \-\-localpair or \-\-genafpair option is selected.  Default: 0.1
290 .RE
291 .PP
292 \fB\-\-lexp\fR \fInumber\fR
293 .RS 4
294 Gap extension penalty at local pairwise alignment.  Valid when
295 the \-\-localpair or \-\-genafpair option is selected.  Default: \-0.1
296 .RE
297 .PP
298 \fB\-\-LOP\fR \fInumber\fR
299 .RS 4
300 Gap opening penalty to skip the alignment.  Valid when the
301 \-\-genafpair option is selected.   Default: \-6.00
302 .RE
303 .PP
304 \fB\-\-LEXP\fR \fInumber\fR
305 .RS 4
306 Gap extension penalty to skip the alignment.  Valid when the
307 \-\-genafpair option is selected.   Default: 0.00
308 .RE
309 .PP
310 \fB\-\-bl\fR \fInumber\fR
311 .RS 4
312 BLOSUM \fInumber\fR matrix (Henikoff and Henikoff 1992) is used.  \fInumber\fR=30, 45, 62 or 80.  Default: 62
313 .RE
314 .PP
315 \fB\-\-jtt\fR \fInumber\fR
316 .RS 4
317 JTT PAM \fInumber\fR (Jones et al. 1992) matrix is used.  \fInumber\fR>0.  Default: BLOSUM62
318 .RE
319 .PP
320 \fB\-\-tm\fR \fInumber\fR
321 .RS 4
322 Transmembrane PAM \fInumber\fR (Jones et al. 1994) matrix is used.  \fInumber\fR>0.  Default: BLOSUM62
323 .RE
324 .PP
325 \fB\-\-aamatrix\fR \fImatrixfile\fR
326 .RS 4
327 Use a user\-defined AA scoring matrix.  The format of \fImatrixfile\fR is
328 the same to that of BLAST.  Ignored when nucleotide sequences are input.   Default: BLOSUM62
329 .RE
330 .PP
331 \fB\-\-fmodel\fR
332 .RS 4
333 Incorporate the AA/nuc composition information into
334 the scoring matrix.  Deafult: off
335 .RE
336 .RE
337 .SS "Output"
338 .RS 0
339 .PP
340 \fB\-\-clustalout\fR
341 .RS 4
342 Output format: clustal format.  Default: off (fasta format)
343 .RE
344 .PP
345 \fB\-\-inputorder\fR
346 .RS 4
347 Output order: same as input.  Default: on
348 .RE
349 .PP
350 \fB\-\-reorder\fR
351 .RS 4
352 Output order: aligned.  Default: off (inputorder)
353 .RE
354 .PP
355 \fB\-\-treeout\fR
356 .RS 4
357 Guide tree is output to the \fIinput\fR.tree file.  Default: off
358 .RE
359 .PP
360 \fB\-\-quiet\fR
361 .RS 4
362 Do not report progress.  Default: off
363 .RE
364 .RE
365 .SS "Input"
366 .RS 0
367 .PP
368 \fB\-\-nuc\fR
369 .RS 4
370 Assume the sequences are nucleotide.  Deafult: auto
371 .RE
372 .PP
373 \fB\-\-amino\fR
374 .RS 4
375 Assume the sequences are amino acid.  Deafult: auto
376 .RE
377 .PP
378 \fB\-\-seed\fR \fIalignment1\fR [\fB--seed\fR \fIalignment2\fR \fB--seed\fR \fIalignment3\fR ...]
379 .RS 4
380 Seed alignments given in \fIalignment_n\fR (fasta format) are aligned with 
381 sequences in \fIinput\fR.  The alignment within every seed is preserved.
382 .RE
383 .RE
384 .SH "FILES"
385 .RS 0
386 .PP
387 Mafft stores the input sequences and other files in a temporary directory, which by default is located in
388 \fI/tmp\fR.
389 .RE
390 .SH "ENVIONMENT"
391 .RS 0
392 .PP
393 \fBMAFFT_BINARIES\fR
394 .RS 4
395 Indicates the location of the binary files used by mafft. By default, they are searched in
396 \fI/usr/local/lib/mafft\fR, but on Debian systems, they are searched in
397 \fI/usr/lib/mafft\fR.
398 .RE
399 .PP
400 \fBFASTA_4_MAFFT\fR
401 .RS 4
402 This variable can be set to indicate to mafft the location to the fasta34 program if it is not in the PATH.
403 .RE
404 .RE
405 .SH "SEE ALSO"
406 .RS 0
407 .PP
408
409 \fBmafft\-homologs\fR(1)
410 .RE
411 .SH "REFERENCES"
412 .RS 0
413 .SS "In English"
414 .sp
415 .RS 4
416 \h'-04'\(bu\h'+03'Katoh and Toh (Bioinformatics 23:372\-374, 2007) PartTree: an algorithm to build an approximate tree from a large number of unaligned sequences (describes the PartTree algorithm).
417 .RE
418 .sp
419 .RS 4
420 \h'-04'\(bu\h'+03'Katoh, Kuma, Toh and Miyata (Nucleic Acids Res. 33:511\-518, 2005) MAFFT version 5: improvement in accuracy of multiple sequence alignment (describes [ancestral versions of] the G\-INS\-i, L\-INS\-i and E\-INS\-i strategies)
421 .RE
422 .sp
423 .RS 4
424 \h'-04'\(bu\h'+03'Katoh, Misawa, Kuma and Miyata (Nucleic Acids Res. 30:3059\-3066, 2002) MAFFT: a novel method for rapid multiple sequence alignment based on fast Fourier transform (describes the FFT\-NS\-1, FFT\-NS\-2 and FFT\-NS\-i strategies)
425 .RE
426 .SS "In Japanese"
427 .sp
428 .RS 4
429 \h'-04'\(bu\h'+03'Katoh and Misawa (Seibutsubutsuri 46:312\-317, 2006) Multiple Sequence Alignments: the Next Generation
430 .RE
431 .sp
432 .RS 4
433 \h'-04'\(bu\h'+03'Katoh and Kuma (Kagaku to Seibutsu 44:102\-108, 2006) Jissen\-teki Multiple Alignment
434 .RE
435 .RE
436 .SH "AUTHORS"
437 .RS 0
438 .PP
439 \fBKazutaka Katoh\fR <\&katoh_at_bioreg.kyushu\-u.ac.jp\&>
440 .sp -1n
441 .IP "" 4
442 Wrote Mafft.
443 .PP
444 \fBCharles Plessy\fR <\&charles\-debian\-nospam_at_plessy.org\&>
445 .sp -1n
446 .IP "" 4
447 Wrote this manpage in DocBook XML for the Debian distribution, using Mafft's homepage as a template.
448 .RE
449 .SH "COPYRIGHT"
450 .RS 0
451 Copyright \(co 2002\-2007 Kazutaka Katoh (mafft)
452 .br
453 Copyright \(co 2007 Charles Plessy (this manpage)
454 .br
455 .PP
456 Mafft and its manpage are offered under the following conditions:
457 .PP
458 Redistribution and use in source and binary forms, with or without modification, are permitted provided that the following conditions are met:
459 .sp
460 .RS 4
461 \h'-04' 1.\h'+02'Redistributions of source code must retain the above copyright notice, this list of conditions and the following disclaimer.
462 .RE
463 .sp
464 .RS 4
465 \h'-04' 2.\h'+02'Redistributions in binary form must reproduce the above copyright notice, this list of conditions and the following disclaimer in the documentation and/or other materials provided with the distribution.
466 .RE
467 .sp
468 .RS 4
469 \h'-04' 3.\h'+02'The name of the author may not be used to endorse or promote products derived from this software without specific prior written permission.
470 .RE
471 .PP
472 THIS SOFTWARE IS PROVIDED BY THE AUTHOR "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE AUTHOR BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
473 .br
474 .RE