Edited wiki page RIO through web user interface.
[jalview.git] / wiki / GSDI.wiki
1 #summary generalized speciation duplication inference
2
3 = Generalized Speciation Duplication Inference =
4
5 == Purpose ==
6
7 To infer duplication events on a gene tree given a trusted species tree.
8
9 == Usage == 
10 {{{
11 java -Xmx1024m -cp
12 path/to/forester.jar org.forester.application.gsdi [-options] <gene tree in phyloXML format> <species tree> <outfile>
13 }}}
14 === Options ===
15
16   * -g: to allow stripping of gene tree nodes without a matching species in the species tree
17  
18   * -m: use most parimonious duplication model for GSDI: assign nodes as speciations which would otherwise be assiged as potential duplications due tp polytomies in the species tree
19
20   * -q: to allow species tree in other formats than phyloXML (i.e. Newick, NHX, Nexus)
21
22   * -b: to use SDIse algorithm instead of GSDI algorithm (for binary species trees)
23
24 ==== Gene tree ====
25 Must be in phyloXM format, with taxonomy and sequence data in appropriate fields ([http://forester.googlecode.com/files/wnt_gene_tree.xml example]).
26
27 ==== Species tree ====
28 Must be in phyloXML format unless option -q is used ([http://forester.googlecode.com/files/species.xml example]).
29
30 === Output ===
31
32 Besides the main output of a gene tree with duplications and speciations assigned to all of its internal nodes, this program also produces the following:
33   * a log file, ending in `"_gsdi_log.txt"` ([http://forester.googlecode.com/files/wnt_gsdi_log.txt example])
34   * a species tree file which only contains external nodes with were needed for the reconciliation, ending in `"_species_tree_used.xml"`
35   * if the gene tree contains species with scientific species names such as "Pyrococcus horikoshii strain ATCC 700860" and if a mapping cannot be establish based on these, GSDI will attempt to map by removing the "strain" (or "subspecies") information, these will be listed in a file ending in `"_gsdi_remapped.txt"`.
36
37 === Taxonomic mapping between gene and species tree ===
38
39 GSDI can establish a taxonomic mapping between gene and species tree on the following three data fields:
40   * scientific names (e.g. "Pyrococcus horikoshii")
41   * taxonomic identifiers (e.g. "35932" from uniprot or ncbi)
42   * taxonomy codes (e.g. "PYRHO") 
43
44
45
46 === Example ===
47 `gsdi -g -q gene_tree.xml tree_of_life.nwk out.xml`
48
49
50 === Example files ===
51   * [http://forester.googlecode.com/files/wnt_gene_tree.xml gene tree]
52   * [http://forester.googlecode.com/files/species.xml species tree]
53   * [http://forester.googlecode.com/files/wnt_gsdi_log.txt log file (output)]
54
55
56 == Reference ==
57
58 Zmasek CM and Eddy SR "A simple algorithm to infer gene duplication and speciation events on a gene tree" [http://bioinformatics.oxfordjournals.org/content/17/9/821.abstract Bioinformatics, 17, 821-828]
59  
60
61
62 == Download ==
63
64 Download forester.jar here: http://code.google.com/p/forester/downloads/list