Formatted source
[jalview.git] / src / jalview / io / FastaFile.java
1 /*\r
2 * Jalview - A Sequence Alignment Editor and Viewer\r
3 * Copyright (C) 2005 AM Waterhouse, J Procter, G Barton, M Clamp, S Searle\r
4 *\r
5 * This program is free software; you can redistribute it and/or\r
6 * modify it under the terms of the GNU General Public License\r
7 * as published by the Free Software Foundation; either version 2\r
8 * of the License, or (at your option) any later version.\r
9 *\r
10 * This program is distributed in the hope that it will be useful,\r
11 * but WITHOUT ANY WARRANTY; without even the implied warranty of\r
12 * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the\r
13 * GNU General Public License for more details.\r
14 *\r
15 * You should have received a copy of the GNU General Public License\r
16 * along with this program; if not, write to the Free Software\r
17 * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA  02110-1301, USA\r
18 */\r
19 package jalview.io;\r
20 \r
21 import jalview.analysis.*;\r
22 \r
23 import jalview.datamodel.*;\r
24 \r
25 import java.io.*;\r
26 \r
27 import java.util.*;\r
28 \r
29 \r
30 public class FastaFile extends AlignFile {\r
31     public FastaFile() {\r
32     }\r
33 \r
34     public FastaFile(String inStr) {\r
35         super(inStr);\r
36     }\r
37 \r
38     public FastaFile(String inFile, String type) throws IOException {\r
39         super(inFile, type);\r
40     }\r
41 \r
42     public void parse() throws IOException {\r
43         String id = "";\r
44         StringBuffer seq = new StringBuffer();\r
45         int count = 0;\r
46         boolean flag = false;\r
47 \r
48         int sstart = 0;\r
49         int send = 0;\r
50 \r
51         String line;\r
52 \r
53         while ((line = nextLine()) != null) {\r
54             if (line.length() > 0) {\r
55                 // Do we have an id line?\r
56                 if (line.substring(0, 1).equals(">")) {\r
57                     if (count != 0) {\r
58                         if (sstart != 0) {\r
59                             seqs.addElement(new Sequence(id,\r
60                                     seq.toString().toUpperCase(), sstart, send));\r
61                         } else {\r
62                             seqs.addElement(new Sequence(id,\r
63                                     seq.toString().toUpperCase(), 1,\r
64                                     seq.length()));\r
65                         }\r
66                     }\r
67 \r
68                     count++;\r
69 \r
70                     StringTokenizer str = new StringTokenizer(line, " ");\r
71 \r
72                     id = str.nextToken();\r
73                     id = id.substring(1);\r
74 \r
75                     com.stevesoft.pat.Regex dbId = new com.stevesoft.pat.Regex(\r
76                             "[A-Za-z-]+/[A-Za-z-]+\\|(\\w+)\\|(.+)");\r
77 \r
78                     if (dbId.search(id)) {\r
79                         String dbid = dbId.stringMatched(1);\r
80                         String idname = dbId.stringMatched(2);\r
81 \r
82                         if ((idname.length() > 0) &&\r
83                                 (idname.indexOf("_") > -1)) {\r
84                             id = idname; // just use friendly name // JBPNote: we may lose uniprot standardised ID here.\r
85                         } else {\r
86                             id = dbid; // use dbid to ensure sensible queries\r
87                         }\r
88                     }\r
89 \r
90                     if (id.indexOf("/") > 0) {\r
91                         StringTokenizer st = new StringTokenizer(id, "/");\r
92 \r
93                         if (st.countTokens() == 2) {\r
94                             id = st.nextToken();\r
95 \r
96                             String tmp = st.nextToken();\r
97 \r
98                             st = new StringTokenizer(tmp, "-");\r
99 \r
100                             if (st.countTokens() == 2) {\r
101                                 sstart = Integer.valueOf(st.nextToken())\r
102                                                 .intValue();\r
103                                 send = Integer.valueOf(st.nextToken()).intValue();\r
104                             }\r
105                         }\r
106                     }\r
107 \r
108                     seq = new StringBuffer();\r
109                 } else {\r
110                     seq = seq.append(line);\r
111                 }\r
112             }\r
113         }\r
114 \r
115         if (count > 0) {\r
116             if (!isValidProteinSequence(seq.toString().toUpperCase())) {\r
117                 throw new IOException("Invalid protein sequence");\r
118             }\r
119 \r
120             if (sstart != 0) {\r
121                 seqs.addElement(new Sequence(id, seq.toString().toUpperCase(),\r
122                         sstart, send));\r
123             } else {\r
124                 seqs.addElement(new Sequence(id, seq.toString().toUpperCase(),\r
125                         1, seq.length()));\r
126             }\r
127         }\r
128     }\r
129 \r
130     public static String print(SequenceI[] s) {\r
131         return print(s, 72);\r
132     }\r
133 \r
134     public static String print(SequenceI[] s, int len) {\r
135         return print(s, len, true);\r
136     }\r
137 \r
138     public static String print(SequenceI[] s, int len, boolean gaps) {\r
139         return print(s, len, gaps, true);\r
140     }\r
141 \r
142     public static String print(SequenceI[] s, int len, boolean gaps,\r
143         boolean displayId) {\r
144         StringBuffer out = new StringBuffer();\r
145         int i = 0;\r
146 \r
147         while ((i < s.length) && (s[i] != null)) {\r
148             String seq = "";\r
149 \r
150             if (gaps) {\r
151                 seq = s[i].getSequence();\r
152             } else {\r
153                 seq = AlignSeq.extractGaps("-. ", s[i].getSequence());\r
154             }\r
155 \r
156             // used to always put this here: + "/" + s[i].getStart() + "-" + s[i].getEnd() +\r
157             out.append(">" +\r
158                 ((displayId) ? s[i].getDisplayId() : s[i].getName()) + "\n");\r
159 \r
160             int nochunks = (seq.length() / len) + 1;\r
161 \r
162             for (int j = 0; j < nochunks; j++) {\r
163                 int start = j * len;\r
164                 int end = start + len;\r
165 \r
166                 if (end < seq.length()) {\r
167                     out.append(seq.substring(start, end) + "\n");\r
168                 } else if (start < seq.length()) {\r
169                     out.append(seq.substring(start) + "\n");\r
170                 }\r
171             }\r
172 \r
173             i++;\r
174         }\r
175 \r
176         return out.toString();\r
177     }\r
178 \r
179     public String print() {\r
180         return print(getSeqsAsArray());\r
181     }\r
182 }\r