WSTester updated to work plus hopefully all the other changes that need to go into...
[jabaws.git] / binaries / src / ViennaRNA / man / RNAfold.1
diff --git a/binaries/src/ViennaRNA/man/RNAfold.1 b/binaries/src/ViennaRNA/man/RNAfold.1
new file mode 100644 (file)
index 0000000..467d841
--- /dev/null
@@ -0,0 +1,433 @@
+2.1.2
+
+.\" DO NOT MODIFY THIS FILE!  It was generated by help2man 1.38.2.
+.TH RNAFOLD "1" "July 2013" "RNAfold 2.1.2" "User Commands"
+.SH NAME
+RNAfold \- manual page for RNAfold 2.1.2
+.SH SYNOPSIS
+.B RNAfold
+[\fIOPTIONS\fR]...
+.SH DESCRIPTION
+RNAfold 2.1.2
+.PP
+Calculate minimum free energy secondary structures and partition function of
+RNAs
+.PP
+The program reads RNA sequences from stdin, calculates their minimum free
+energy (mfe) structure and prints to stdout the mfe structure in bracket
+notation and its free energy. If the \fB\-p\fR option was given it also computes the
+partition function (pf) and base pairing probability matrix, and prints the
+free energy of the thermodynamic ensemble, the frequency of the mfe structure
+in the ensemble, and the ensemble diversity to stdout.
+.PP
+It also produces PostScript files with plots of the resulting secondary
+structure graph and a "dot plot" of the base pairing matrix.
+The dot plot shows a matrix of squares with area proportional to the pairing
+probability in the upper right half, and one square for each pair in the
+minimum free energy structure in the lower left half. For each pair i\-j with
+probability p>10E\-6 there is a line of the form
+.PP
+i  j  sqrt(p)  ubox
+.PP
+in the PostScript file, so that the pair probabilities can be easily extracted.
+.PP
+Sequences may be provided in a simple text format where each sequence occupies
+a single line. Output files are named "rna.ps" and "dot.ps". Existing files
+of the same name will be overwritten.
+It is also possible to provide sequence data in FASTA format. In this case, the
+first word (max. 42 char) of the FASTA header will be used for output file
+names. PostScript files "name_ss.ps" and "name_dp.ps" are produced for the
+structure and dot plot, respectively.
+Once FASTA input was provided all following sequences must be in FASTA format
+too.
+The program will continue to read new sequences until a line consisting of the
+single character @ or an end of file condition is encountered.
+.TP
+\fB\-h\fR, \fB\-\-help\fR
+Print help and exit
+.TP
+\fB\-\-detailed\-help\fR
+Print help, including all details and hidden
+options, and exit
+.TP
+\fB\-\-full\-help\fR
+Print help, including hidden options, and exit
+.TP
+\fB\-V\fR, \fB\-\-version\fR
+Print version and exit
+.SS "General Options:"
+.IP
+Below are command line options which alter the general behavior of this
+program
+.TP
+\fB\-C\fR, \fB\-\-constraint\fR
+Calculate structures subject to constraints.
+(default=off)
+.IP
+The program reads first the sequence, then a string containing constraints on
+the structure encoded with the symbols:
+.IP
+\&. (no constraint for this base)
+.IP
+| (the corresponding base has to be paired
+.IP
+x (the base is unpaired)
+.IP
+< (base i is paired with a base j>i)
+.IP
+\f(CW> (base i is paired with a base j<i)\fR
+.IP
+and matching brackets ( ) (base i pairs base j)
+.IP
+With the exception of "|", constraints will disallow all pairs conflicting
+with the constraint. This is usually sufficient to enforce the constraint,
+but occasionally a base may stay unpaired in spite of constraints. PF folding
+ignores constraints of type "|".
+.TP
+\fB\-\-noconv\fR
+Do not automatically substitude nucleotide
+"T" with "U"
+.IP
+(default=off)
+.TP
+\fB\-\-noPS\fR
+Do not produce postscript drawing of the mfe
+structure.
+.IP
+(default=off)
+.SS "Algorithms:"
+.IP
+Select additional algorithms which should be included in the calculations.
+The Minimum free energy (MFE) and a structure representative are calculated
+in any case.
+.TP
+\fB\-p\fR, \fB\-\-partfunc\fR[=\fIINT\fR]
+Calculate the partition function and base
+pairing probability matrix.
+.IP
+(default=`1')
+.IP
+In addition to the MFE structure we print a coarse representation of the pair
+probabilities in form of a pseudo bracket notation, followed by the ensemble
+free energy, as well as the centroid structure derived from the pair
+probabilities together with its free energy and distance to the ensemble.
+Finally it prints the frequency of the mfe structure, and the structural
+diversity (mean distance between the structures in the ensemble).
+See the description of pf_fold() and mean_bp_dist() and centroid() in the
+RNAlib documentation for details.
+Note that unless you also specify \fB\-d2\fR or \fB\-d0\fR, the partition function and mfe
+calculations will use a slightly different energy model. See the discussion
+of dangling end options below.
+.IP
+An additionally passed value to this option changes the behavior of partition
+function calculation:
+\fB\-p0\fR Calculate the partition function but not the pair probabilities, saving
+about 50% in runtime. This prints the ensemble free energy \fB\-kT\fR ln(Z).
+\fB\-p2\fR Compute stack probabilities, i.e. the probability that a pair (i,j) and
+the immediately interior pair (i+1,j\-1) are formed simultaneously in addition
+to pair probabilities. A second postscript dot plot called "name_dp2.ps",
+or "dot2.ps" (if the sequence does not have a name), is produced that
+contains pair probabilities in the upper right half and stack probabilities
+in the lower left.
+.TP
+\fB\-\-MEA\fR[=\fIgamma\fR]
+Calculate an MEA (maximum expected accuracy)
+structure, where the expected accuracy is
+computed from the pair probabilities: each
+base pair (i,j) gets a score 2*gamma*p_ij and
+the score of an unpaired base is given by the
+probability of not forming a pair.
+.IP
+(default=`1.')
+.IP
+The parameter gamma tunes the importance of correctly predicted pairs versus
+unpaired bases. Thus, for small values of gamma the MEA structure will
+contain only pairs with very high probability.
+Using \fB\-\-MEA\fR implies \fB\-p\fR for computing the pair probabilities.
+.TP
+\fB\-S\fR, \fB\-\-pfScale\fR=\fIscaling\fR factor
+In the calculation of the pf use scale*mfe as
+an estimate for the ensemble free energy
+(used to avoid overflows).
+.IP
+The default is 1.07, useful values are 1.0 to 1.2. Occasionally needed for
+long sequences.
+You can also recompile the program to use double precision (see the README
+file).
+.TP
+\fB\-c\fR, \fB\-\-circ\fR
+Assume a circular (instead of linear) RNA
+molecule.
+.IP
+(default=off)
+.TP
+\fB\-\-ImFeelingLucky\fR
+Return exactly one stochastically backtracked
+structure
+.IP
+(default=off)
+.IP
+This function computes the partition function and returns exactly one
+secondary structure stochastically sampled from the Boltzmann equilibrium
+according to its probability in the ensemble
+.TP
+\fB\-\-bppmThreshold=\fR<value>
+Set the threshold for base pair probabilities
+included in the postscript output
+.IP
+(default=`1e\-5')
+.IP
+By setting the threshold the base pair probabilities that are included in the
+output can be varied. By default only those exceeding 1e\-5 in probability
+will be shown as squares in the dot plot. Changing the threshold to any other
+value allows for increase or decrease of data.
+.TP
+\fB\-g\fR, \fB\-\-gquad\fR
+Incoorporate G\-Quadruplex formation into the
+structure prediction algorithm
+.IP
+(default=off)
+.SS "Model Details:"
+.TP
+\fB\-T\fR, \fB\-\-temp\fR=\fIDOUBLE\fR
+Rescale energy parameters to a temperature of
+temp C. Default is 37C.
+.TP
+\fB\-4\fR, \fB\-\-noTetra\fR
+Do not include special tabulated stabilizing
+energies for tri\-, tetra\- and hexaloop
+hairpins. Mostly for testing.
+.IP
+(default=off)
+.TP
+\fB\-d\fR, \fB\-\-dangles\fR=\fIINT\fR
+How to treat "dangling end" energies for
+bases adjacent to helices in free ends and
+multi\-loops
+.IP
+(default=`2')
+.IP
+With \fB\-d1\fR only unpaired bases can participate in at most one dangling end,
+this is the default for mfe folding but unsupported for the partition
+function folding.
+.IP
+With \fB\-d2\fR this check is ignored, dangling energies will be added for the bases
+adjacent to a helix on both sides in any case; this is the default for
+partition function folding (\fB\-p\fR).
+The option \fB\-d0\fR ignores dangling ends altogether (mostly for debugging).
+With \fB\-d3\fR mfe folding will allow coaxial stacking of adjacent helices in
+multi\-loops. At the moment the implementation will not allow coaxial stacking
+of the two interior pairs in a loop of degree 3 and works only for mfe
+folding.
+.IP
+Note that by default (as well as with \fB\-d1\fR and \fB\-d3\fR) pf and mfe folding treat
+dangling ends differently. Use \fB\-d2\fR in addition to \fB\-p\fR to ensure that both
+algorithms use the same energy model.
+.TP
+\fB\-\-noLP\fR
+Produce structures without lonely pairs
+(helices of length 1).
+.IP
+(default=off)
+.IP
+For partition function folding this only disallows pairs that can only occur
+isolated. Other pairs may still occasionally occur as helices of length 1.
+.TP
+\fB\-\-noGU\fR
+Do not allow GU pairs
+.IP
+(default=off)
+.TP
+\fB\-\-noClosingGU\fR
+Do not allow GU pairs at the end of helices
+.IP
+(default=off)
+.TP
+\fB\-P\fR, \fB\-\-paramFile\fR=\fIparamfile\fR
+Read energy parameters from paramfile, instead
+of using the default parameter set.
+.IP
+A sample parameter file should accompany your distribution.
+See the RNAlib documentation for details on the file format.
+.TP
+\fB\-\-nsp\fR=\fISTRING\fR
+Allow other pairs in addition to the usual
+AU,GC,and GU pairs.
+.IP
+Its argument is a comma separated list of additionally allowed pairs. If the
+first character is a "\-" then AB will imply that AB and BA are allowed
+pairs.
+e.g. RNAfold \fB\-nsp\fR \fB\-GA\fR  will allow GA and AG pairs. Nonstandard pairs are
+given 0 stacking energy.
+.TP
+\fB\-e\fR, \fB\-\-energyModel\fR=\fIINT\fR
+Rarely used option to fold sequences from the
+artificial ABCD... alphabet, where A pairs B,
+C\-D etc.  Use the energy parameters for GC
+(\fB\-e\fR 1) or AU (\fB\-e\fR 2) pairs.
+.TP
+\fB\-\-betaScale\fR=\fIDOUBLE\fR
+Set the scaling of the Boltzmann factors
+(default=`1.')
+.IP
+The argument provided with this option enables to scale the thermodynamic
+temperature used in the Boltzmann factors independently from the temperature
+used to scale the individual energy contributions of the loop types. The
+Boltzmann factors then become exp(\fB\-dG\fR/(kT*betaScale)) where k is the
+Boltzmann constant, dG the free energy contribution of the state and T the
+absolute temperature.
+.SH EXAMPLES
+Single line sequence input and calculation of partition function and MEA structure
+
+.nf
+.ft CW
+  $ RNAfold --MEA -d2 -p
+.ft
+.fi
+  
+The program will then prompt for sequence input. Using the example sequence
+"CGACGTAGATGCTAGCTGACTCGATGC" and pressing ENTER the output of the program will be
+similar to
+
+.nf
+.ft CW
+  CGACGUAGAUGCUAGCUGACUCGAUGC
+  (((.((((.......)).)))))....
+   minimum free energy =  -1.90 kcal/mol
+  (((.((((.......))},})))....
+   free energy of ensemble =  -2.86 kcal/mol
+  (((.(.((.......))..)))).... {  0.80 d=2.81}
+  (((.((((.......))).)))).... { -1.90 MEA=22.32}
+   frequency of mfe structure in ensemble 0.20997; ensemble diversity 4.19
+.ft
+.fi
+
+
+Here, the first line just repeats the sequence input. The second line contains a
+MFE structure in dot bracket notation followed by the minimum free energy. After
+this, the pairing probabilities for each nucleotide are shown in a pseudo dot-bracket
+notation followed by the free energy of ensemble. The next two lines show the centroid
+structure with its free energy and its distance to the ensemble as well as the MEA structure,
+its free energy and the maximum expected accuracy, respectively. The last line finally
+contains the frequency of the MFE representative in the complete ensemble of secondary
+structures and the ensemble diversity. For further details about the calculation and
+interpretation of the given output refer to the reference manual of RNAlib.
+
+Since version 2.0 it is also possible to provide FASTA file sequence input. Assume
+you have a file containing two sequences in FASTA format, e.g
+
+.nf
+.ft CW
+  $ cat sequences.fa
+  >seq1
+  CGGCUCGCAACAGACCUAUUAGUUUUACGUAAUAUUUG
+  GAACGAUCUAUAACACGACUUCACUCUU
+  >seq2
+  GAAUGACCCGAUAACCCCGUAAUAUUUGGAACGAUCUA
+  UAACACGACUUCACUCUU
+.ft
+.fi
+
+In order to compute the MFE for the two sequences the user can use the following
+command
+
+.nf
+.ft CW
+  $ RNAfold < sequences.fa
+.ft
+.fi
+
+which would result in an output like this
+
+.nf
+.ft CW
+  >seq1
+  CGGCUCGCAACAGACCUAUUAGUUUUACGUAAUAUUUGGAACGAUCUAUAACACGACUUCACUCUU
+  .((.(((...((((..(((((........)))))))))...))).))................... ( -5.40)
+  >seq2
+  GAAUGACCCGAUAACCCCGUAAUAUUUGGAACGAUCUAUAACACGACUUCACUCUU
+  .......((((..............))))........................... ( -2.00)
+.ft
+.fi
+
+Secondary structure constraints may be given in addition to the sequence information, too.
+Using the first sequence of the previous example and restricting the nucleotides of the
+outermost helix to be unpaired, i.e. base pairs (2,47) and (3,46) the input file should
+have the following form
+
+.nf
+.ft CW
+  $ cat sequence_unpaired.fa
+  >seq1
+  CGGCUCGCAACAGACCUAUUAGUUUUACGUAAUAUUUG
+  GAACGAUCUAUAACACGACUUCACUCUU
+  .xx...................................
+  .......xx...................
+.ft
+.fi
+
+Calling RNAfold with the structure constraint option -C it shows the following result
+
+.nf
+.ft CW
+  $ RNAfold -C < sequence_unpaired.fa
+  >seq1
+  CGGCUCGCAACAGACCUAUUAGUUUUACGUAAUAUUUGGAACGAUCUAUAACACGACUUCACUCUU
+  ....(((...((((..(((((........)))))))))...)))...................... ( -4.20)
+.ft
+.fi
+
+This represents the minimum free energy and a structure representative of the RNA
+sequence given that nucleotides 2,3,46 and 47 must not be involved in any base pair.
+For further information about constrained folding refer to the details of the -C option
+and the reference manual of RNAlib.
+.SH AUTHOR
+
+Ivo L Hofacker, Walter Fontana, Sebastian Bonhoeffer, Peter F Stadler, Ronny Lorenz
+.SH REFERENCES
+.I If you use this program in your work you might want to cite:
+
+R. Lorenz, S.H. Bernhart, C. Hoener zu Siederdissen, H. Tafer, C. Flamm, P.F. Stadler and I.L. Hofacker (2011),
+"ViennaRNA Package 2.0",
+Algorithms for Molecular Biology: 6:26 
+
+I.L. Hofacker, W. Fontana, P.F. Stadler, S. Bonhoeffer, M. Tacker, P. Schuster (1994),
+"Fast Folding and Comparison of RNA Secondary Structures",
+Monatshefte f. Chemie: 125, pp 167-188
+
+
+M. Zuker, P. Stiegler (1981),
+"Optimal computer folding of large RNA sequences using thermodynamic and auxiliary information",
+Nucl Acid Res: 9, pp 133-148
+
+J.S. McCaskill (1990),
+"The equilibrium partition function and base pair binding probabilities for RNA secondary structures",
+Biopolymers: 29, pp 1105-1119
+
+I.L. Hofacker & P.F. Stadler (2006),
+"Memory Efficient Folding Algorithms for Circular RNA Secondary Structures",
+Bioinformatics
+
+A.F. Bompfuenewerer, R. Backofen, S.H. Bernhart, J. Hertel, I.L. Hofacker, P.F. Stadler, S. Will (2007),
+"Variations on {RNA} Folding and Alignment: Lessons from Benasque",
+J. Math. Biol.
+
+D. Adams (1979),
+"The hitchhiker's guide to the galaxy",
+Pan Books, London
+
+The calculation of mfe structures is based on dynamic programming algorithm originally developed by M. Zuker and P. Stiegler. The partition function algorithm is based on work by J.S. McCaskill.
+
+.I The energy parameters are taken from:
+
+D.H. Mathews, M.D. Disney, D. Matthew, J.L. Childs, S.J. Schroeder, J. Susan, M. Zuker, D.H. Turner (2004),
+"Incorporating chemical modification constraints into a dynamic programming algorithm for prediction of RNA secondary structure",
+Proc. Natl. Acad. Sci. USA: 101, pp 7287-7292
+
+D.H Turner, D.H. Mathews (2009),
+"NNDB: The nearest neighbor parameter database for predicting stability of nucleic acid secondary structure",
+Nucleic Acids Research: 38, pp 280-282
+.SH "REPORTING BUGS"
+If in doubt our program is right, nature is at fault.
+.br
+Comments should be sent to rna@tbi.univie.ac.at.