180a553227c443cd9afb98f8a4a7fdb5fcfa3cca
[jalview.git] / wiki / RIO.wiki
1 #summary resampled inference of orthologs
2
3 = RIO: Resampled Inference of Orthologs =
4
5 == Purpose ==
6
7 RIO (Resampled Inference of Orthologs) is a method for automated phylogenomics based on explicit phylogenetic inference. RIO analyses are performed over resampled phylogenetic trees to estimate the reliability of orthology assignments.
8
9 == Usage == 
10 {{{
11 java -Xmx1024m -cp
12 path/to/forester.jar org.forester.application.rio [options] <gene trees file> <species tree file> [outfile]
13 }}}
14 === Options ===
15
16   * -co: cutoff for ortholog output (default: 50) 
17   
18   * -t : file-name for output table
19   
20   * -q : name for query (sequence/node)
21
22   * -s : sort (default: 2)
23
24   * -u : to output ultra-paralogs (species specific expansions/paralogs)
25
26   * -cu: cutoff for ultra-paralog output (default: 50)
27
28 ==== Sort ====
29
30   * 0: orthologies
31   * 1: orthologies > super orthologies
32   * 2: super orthologies > orthologies
33
34 ==== Gene trees ====
35 The gene trees ideally are in phyloXML, but can also be in New Hamphshire (Newick) or Nexus format as long as species information can be extracted from the gene names
36   (e.g. "HUMAN" from "BCL2_HUMAN").
37
38 ==== Species tree ====
39 Must be in phyloXML format  ([http://forester.googlecode.com/files/species.xml example]).
40
41 === Output ===
42
43 Besides the main output of a gene tree with duplications and speciations assigned to all of its internal nodes, this program also produces the following:
44   * a log file, ending in `"_gsdi_log.txt"` ([http://forester.googlecode.com/files/wnt_gsdi_log.txt example])
45   * a species tree file which only contains external nodes with were needed for the reconciliation, ending in `"_species_tree_used.xml"`
46   * if the gene tree contains species with scientific species names such as "Pyrococcus horikoshii strain ATCC 700860" and if a mapping cannot be establish based on these, GSDI will attempt to map by removing the "strain" (or "subspecies") information, these will be listed in a file ending in `"_gsdi_remapped.txt"`.
47
48 === Taxonomic mapping between gene and species tree ===
49
50 GSDI can establish a taxonomic mapping between gene and species tree on the following three data fields:
51   * scientific names (e.g. "Pyrococcus horikoshii")
52   * taxonomic identifiers (e.g. "35932" from uniprot or ncbi)
53   * taxonomy codes (e.g. "PYRHO") 
54
55
56
57 === Example ===
58 `gsdi -g -q gene_tree.xml tree_of_life.nwk out.xml`
59
60
61 === Example files ===
62   * [http://forester.googlecode.com/files/wnt_gene_tree.xml gene tree]
63   * [http://forester.googlecode.com/files/species.xml species tree]
64   * [http://forester.googlecode.com/files/wnt_gsdi_log.txt log file (output)]
65
66
67 == References ==
68
69 Zmasek CM and Eddy SR "RIO: Analyzing proteomes by automated phylogenomics using resampled inference of orthologs" [http://www.biomedcentral.com/1471-2105/3/14/ BMC Bioinformatics 2002, 3:14]
70
71 Zmasek CM and Eddy SR "A simple algorithm to infer gene duplication and speciation events on a gene tree" [http://bioinformatics.oxfordjournals.org/content/17/9/821.abstract Bioinformatics, 17, 821-828]
72  
73
74
75 == Download ==
76
77 Download forester.jar here: http://code.google.com/p/forester/downloads/list