applied LGPLv3 and source code formatting.
[vamsas.git] / src / uk / ac / vamsas / objects / utils / SeqSet.java
1 /*\r
2  * This file is part of the Vamsas Client version 0.1. \r
3  * Copyright 2009 by Jim Procter, Iain Milne, Pierre Marguerite, \r
4  *  Andrew Waterhouse and Dominik Lindner.\r
5  * \r
6  * Earlier versions have also been incorporated into Jalview version 2.4 \r
7  * since 2008, and TOPALi version 2 since 2007.\r
8  * \r
9  * The Vamsas Client is free software: you can redistribute it and/or modify\r
10  * it under the terms of the GNU Lesser General Public License as published by\r
11  * the Free Software Foundation, either version 3 of the License, or\r
12  * (at your option) any later version.\r
13  *  \r
14  * The Vamsas Client is distributed in the hope that it will be useful,\r
15  * but WITHOUT ANY WARRANTY; without even the implied warranty of\r
16  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the\r
17  * GNU Lesser General Public License for more details.\r
18  * \r
19  * You should have received a copy of the GNU Lesser General Public License\r
20  * along with the Vamsas Client.  If not, see <http://www.gnu.org/licenses/>.\r
21  */\r
22 package uk.ac.vamsas.objects.utils;\r
23 \r
24 import java.io.BufferedReader;\r
25 import java.io.BufferedWriter;\r
26 import java.io.IOException;\r
27 import java.io.InputStream;\r
28 import java.io.InputStreamReader;\r
29 import java.io.OutputStream;\r
30 import java.io.OutputStreamWriter;\r
31 import java.util.Hashtable;\r
32 import java.util.Vector;\r
33 import java.util.regex.Pattern;\r
34 \r
35 import uk.ac.vamsas.objects.core.*;\r
36 \r
37 /**\r
38  * @author jimp\r
39  * \r
40  *         TODO To change the template for this generated type comment go to\r
41  *         Window - Preferences - Java - Code Style - Code Templates\r
42  */\r
43 public class SeqSet {\r
44 \r
45   public static void write_Fasta(OutputStream os, SequenceType[] seqs)\r
46       throws IOException {\r
47     write_Fasta(os, seqs, 80);\r
48   }\r
49 \r
50   public static void write_Fasta(OutputStream os, SequenceType[] seqs,\r
51       boolean width80) throws IOException {\r
52     write_Fasta(os, seqs, (width80) ? 80 : 0);\r
53   }\r
54 \r
55   public static void write_Fasta(OutputStream os, SequenceType[] seqs, int width)\r
56       throws IOException {\r
57     int i, nseq = seqs.length;\r
58     BufferedWriter fasta_out = new BufferedWriter(new OutputStreamWriter(os));\r
59     System.err.println("NOT FULLY IMPLEMENTED!"); // TODO: Finish adapting this\r
60                                                   // method\r
61     for (i = 0; i < nseq; i++) {\r
62       fasta_out.write(">" + seqs[i].getName() + "\n");\r
63       if (width <= 0) {\r
64         fasta_out.write(seqs[i].getSequence() + "\n");\r
65       } else {\r
66         // TODO: adapt to SymbolDictionary labelwidths\r
67         String tempseq = seqs[i].getSequence();\r
68         int j = 0, k = tempseq.length();\r
69         while (j < k) {\r
70           int d = k - j;\r
71           if (d >= width) {\r
72             fasta_out.write(tempseq, j, width);\r
73           } else {\r
74             fasta_out.write(tempseq, j, d);\r
75           }\r
76           fasta_out.write("\n");\r
77           j += width;\r
78         }\r
79       }\r
80     }\r
81     fasta_out.flush();\r
82   }\r
83 \r
84   /**\r
85    * TODO: introduce a dictionary parameter for qualified sequence symbols Reads\r
86    * a sequence set from a stream - will only read prescribed amino acid\r
87    * symbols.\r
88    * \r
89    * @param os\r
90    * @return\r
91    * @throws IOException\r
92    */\r
93   public static Sequence[] read_SeqFasta(InputStream os) throws IOException {\r
94     Vector seqs = new Vector();\r
95     int nseq = 0;\r
96     BufferedReader infasta = new BufferedReader(new InputStreamReader(os));\r
97     System.err.println("NOT FULLY IMPLEMENTED!"); // TODO: Finish adapting this\r
98                                                   // method\r
99     // TODO: decide on return type - SequenceType is a partly complete vamsas\r
100     // Vobject - either for a dataset or alignment sequence\r
101     // so could go in either!\r
102     String line;\r
103     Sequence seq = null;\r
104     Pattern aaMatch = Pattern.compile("[ARNDCQEGHILKMFPSTUWYV]",\r
105         Pattern.CASE_INSENSITIVE);\r
106     String sname = "", seqstr = null;\r
107     do {\r
108       line = infasta.readLine();\r
109       if (line == null || line.startsWith(">")) {\r
110         if (seqstr != null)\r
111           seqs.add((Object) Seq.newSequence(sname.substring(1), seqstr,\r
112               SymbolDictionary.STANDARD_AA, 0, 0));\r
113         sname = line; // remove >\r
114         seqstr = "";\r
115       } else {\r
116         String subseq = Pattern.compile("//s+").matcher(line).replaceAll("");\r
117         seqstr += subseq;\r
118       }\r
119     } while (line != null);\r
120     nseq = seqs.size();\r
121     if (nseq > 0) {\r
122       // TODO:POSS: should really return a sequence if there's only one in the\r
123       // file.\r
124       Sequence[] seqset = new Sequence[nseq];\r
125       for (int i = 0; i < nseq; i++) {\r
126         seqset[i] = (Sequence) seqs.elementAt(i);\r
127       }\r
128       return seqset;\r
129     }\r
130 \r
131     return null;\r
132   }\r
133 \r
134   public static Hashtable uniquify(SequenceType[] sequences) {\r
135     System.err.println("NOT FULLY IMPLEMENTED!"); // TODO: Finish adapting this\r
136                                                   // method\r
137     // TODO: do we need this with vamsas sequences ?\r
138     // Generate a safely named sequence set and a hash to recover the sequence\r
139     // names\r
140     Hashtable map = new Hashtable();\r
141     for (int i = 0; i < sequences.length; i++) {\r
142       String safename = new String("Sequence" + i);\r
143       map.put(safename, sequences[i].getName());\r
144       sequences[i].setName(safename);\r
145     }\r
146     return map;\r
147   }\r
148 \r
149   public static boolean deuniquify(Hashtable map, SequenceType[] sequences) {\r
150     System.err.println("NOT FULLY IMPLEMENTED!"); // TODO: Finish adapting this\r
151                                                   // method\r
152     // TODO: do we need this with vamsas sequences ?\r
153     // recover unsafe sequence names for a sequence set\r
154     boolean allfound = true;\r
155     for (int i = 0; i < sequences.length; i++) {\r
156       if (map.containsKey(sequences[i].getName())) {\r
157         String unsafename = (String) map.get(sequences[i].getName());\r
158         sequences[i].setName(unsafename);\r
159       } else {\r
160         allfound = false;\r
161       }\r
162     }\r
163     return allfound;\r
164   }\r
165 \r
166 }\r