77a873ced38f77fa9283fbd6e4b2a411bdeefe2f
[jabaws.git] / website / man_configuration.html
1 <?xml version="1.0" encoding="UTF-8"?>\r
2 <!DOCTYPE html PUBLIC "XHTML 1.0 Strict"\r
3 "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">\r
4 <html xmlns="http://www.w3.org/1999/xhtml">\r
5 <head>\r
6 <meta name="Last-modified" content="Mon, 4 Apr 2011 12:00:00 GMT"/>\r
7 <title>Java Bioinformatics Analyses Web Services (JABAWS) Server Configuration manual</title>\r
8 <link href="ws.css" rel="stylesheet" type="text/css" media=\r
9 "screen, projection, handheld, tv" />\r
10 <link rel="stylesheet" type="text/css" media="print" href=\r
11 "print.css" />\r
12 <script type="text/javascript" src="prototype-1.6.0.3.js"></script>\r
13 </head>\r
14 <body>\r
15 <div id="page">\r
16 <div id="banner">\r
17 <table> \r
18 <tr><td style="width:158px;"><a href="http://www.dundee.ac.uk"><img src="images/uod_lt_long.gif"  alt="University of Dundee" width="158" height="90" class="logo"  title="University of Dundee" longdesc="http://www.dundee.ac.uk"/></a></td>\r
19 <td class="bg"><img src="images/jabaws2.png" alt="JABAWS-2.0:Disorder" width="353" height="67" title="JABAWS-2.0:Disorder"/></td>\r
20 <td class="bg"><img src="images/banner_right.png" alt="Disorder" width="200" height="80"/></td>\r
21 </tr>\r
22 </table>\r
23 </div><!-- banner end-->\r
24 \r
25 <div id="wrapper">\r
26 <div id="panel"><a href="index.html">Home</a> \r
27   <a href="quick_start.html">Getting Started</a> \r
28   <a class="selected" href="man_about.html">Manual</a> \r
29         <div id="submenu">\r
30                 <a href="man_about.html">About</a>\r
31                 <a href="man_servervm.html" title="JABAWS Server as Virtual Appliance">Server VA</a>\r
32                 <a href="man_serverwar.html" title="JABAWS Server as Web Application aRchive">Server WAR</a>\r
33                 <a class="selected" href="man_configuration.html" >Server<br/>\r
34                 Configuration</a>\r
35                 <a href="man_client.html" title="JABAWS Command Line Client">CMD Client</a>\r
36                 <a href="man_stats.html" title="JABAWS Usage Statistics">Usage Statistics</a>\r
37                 <a href="man_dev.html" title="Accessing JABAWS from your program">Accessing<br/>\r
38                 JABAWS</a>      \r
39                 <a href="man_server_dev.html" >JABAWS Development</a>\r
40         </div>\r
41 <a href="download.html">Download</a> \r
42 <a href="contacts.html">Contact Us</a>\r
43 <a href="PublicAnnualStat" title="JABAWS usage statistics">Usage Statistics</a>\r
44 <a href="http://www.compbio.dundee.ac.uk" title="University of Dundee, The Barton Group" >Barton Group</a>\r
45 </div>\r
46 \r
47 <!-- panel end-->\r
48 <div id="content">\r
49 <h2 id="headtitle">JABAWS MANUAL</h2>\r
50 \r
51 <h2>JABAWS Configuration </h2>\r
52 <ul>\r
53   <li><a href="#defjabaconf">JABAWS Configuration </a></li>\r
54   <li><a href="#locEngConf">Local Engine Configuration</a></li>\r
55   <li><a href="#clustEngConf">Cluster Engine Configuration</a></li>\r
56   <li><a href="#exec">Executable Configuration</a></li>\r
57   <li><a href="#setexecenv">Defining Environment Variables for\r
58     Executables</a></li>\r
59   <li><a href="#mafftconf">Configure JABAWS to Work\r
60 with Mafft</a></li>\r
61   <li><a href="#settinglimit">Limiting the size of the job accepted by JABAWS Server </a></li>\r
62   <li><a href="#diffbin">Using a different version of the alignment program with JABAWS</a></li>\r
63   <li><a href="#mixuse">Load balancing </a></li>\r
64   <li><a href="#testingJaba">Testing JABA Web Services</a></li>\r
65   <li><a href="#logs">JABAWS requests logging </a></li>\r
66   <li><a href="#logfiles">JABAWS internal logging </a></li>\r
67   <li><a href="#warfile">JABAWS War File Content</a></li>\r
68   <li><a href="#execstat">JABAWS Usage Statistics</a></li>\r
69   </ul>\r
70 <h3><a name="defjabaconf" id="defjabaconf"></a>JABAWS Configuration </h3>\r
71 <p>There are three parts of the system you can configure. The local\r
72 and the cluster engines, and the paths to the individual executables for\r
73 each engine. These settings are stored in configuration files\r
74 within the web application directory (for an overview, then take a\r
75 look at the <a href="#warfile">war file content table</a>). </p>\r
76 <p>Initially, JABAWS is configured with only the local engine\r
77   enabled, with job output written to directory called &quot;jobsout&quot;\r
78   within the web application itself. This means that JABAWS will work\r
79   out of the box, but may not be suitable for serving a whole lab or\r
80   a university.</p>\r
81 <h3><a name="locEngConf" id="locEngConf"></a>Local Engine Configuration</h3>\r
82 \r
83 <p>The Local execution engine configuration is defined in the\r
84 properties file <span class="hightlight">conf/Engine.local.properties. </span>The supported\r
85 configuration settings are:<br />\r
86  <span class="hightlight">engine.local.enable=true</span> - #\r
87 enable or disable local engine, valid values true | false<br />\r
88  <span class=\r
89 "hightlight">local.tmp.directory=D:\\clusterengine\\testoutput</span>\r
90 - a directory to use for temporary files storage, optional,\r
91 defaults to java temporary directory<br />\r
92  <span class="hightlight">engine.local.thread.number=4</span> -\r
93 Number of threads for tasks execution (valid values between 1 and\r
94 2x cpu. Where x is a number of cores available in the system).\r
95 Optional defaults to the number of cores for core number &lt;=4 and\r
96 number of cores-1 for greater core numbers.</p>\r
97 \r
98 <p>If the local engine going to be heavily loaded (which is often the case if you do not have a cluster) it is a good idea to increase\r
99 the amount of memory available for the web application server. If\r
100 you are using Apache-Tomcat, then you can define its memory\r
101 settings in the JAVA_OPTS environment variable. To specify which\r
102 JVM to use for Apache-Tomcat, put the full path to the JRE\r
103 installation in the JAVA_HOME environment variable (We would\r
104 recommend using Sun Java Virtual Machine (JVM) in preference to\r
105 Open JDK). Below is an example of code which can be added to <span\r
106 class="hightlight">&lt;tomcat_dir&gt;/bin/setenv.sh</span> script\r
107 to define which JVM to use and a memory settings for Tomcat server.\r
108 Tomcat server startup script (<span class=\r
109 "hightlight">catalina.sh</span>) will execute <span class=\r
110 "hightlight">setenv.sh</span> on each server start\r
111 automatically.<br />\r
112  <span class="code">export\r
113 JAVA_HOME=/homes/ws-dev2/jdk1.6.0_17/<br />\r
114  export JAVA_OPTS=&quot;-server -Xincgc -Xms512m -Xmx1024m&quot;</span></p>\r
115 \r
116 <h3><a name="clustEngConf" id="clustEngConf"></a>Cluster Engine Configuration</h3>\r
117 \r
118 <p>Supported configuration settings:<br />\r
119  <span class="hightlight">engine.cluster.enable=true</span> - #\r
120 enable or disable local engine true | false, defaults to\r
121 false<br />\r
122  <span class=\r
123 "hightlight">cluster.tmp.directory=/homes/clustengine/testoutput-</span>\r
124 a directory to use for temporary files storage. The value must be\r
125 an absolute path to the temporary directory. Required. The value\r
126 must be different from what is defined for local engine. This\r
127 directory must be accessible from all cluster nodes.<br />\r
128  For the cluster engine to work, the SGE_ROOT and LD_LIBRARY_PATH\r
129 environment variables have to be defined. They tell the cluster\r
130 engine where to find DRMAA libraries. These variables\r
131 should be defined when the web application server starts up, e.g.</p>\r
132 \r
133 <p class="code">SGE_ROOT=/gridware/sge<br />\r
134  LD_LIBRARY_PATH=/gridware/sge/lib/lx24-amd64</p>\r
135 \r
136 <p>Finally, do not forget to configure executables for the cluster\r
137 execution, they may be the same as for the local execution but may\r
138 be different. Please refer to the executable configuration section\r
139 for further details.</p>\r
140 \r
141 <h3><a name="exec" id="exec"></a>Executable Configuration</h3>\r
142 \r
143 <p>All the executable programs\r
144 are configured in <span class="hightlight">conf/Executable.properties</span> file. Each executable\r
145 is configured with a number of options. They are: <span class=\r
146 "code">local.X.bin.windows=&lt;path to executable under windows\r
147 system, optional&gt;<br />\r
148  local.X.bin=&lt;path to the executable under non-windows system,\r
149 optional&gt;<br />\r
150  cluster.X.bin=&lt;path to the executable on the cluster, all\r
151 cluster nodes must see it, optional&gt;<br />\r
152  X.bin.env=&lt;semicolon separated list of environment variables\r
153 for executable, use hash symbol as name value separator,\r
154 optional&gt;<br />\r
155  X.--aamatrix.path=&lt;path to the directory containing\r
156 substitution matrices, optional&gt;<br />\r
157  X.presets.file=&lt;path to the preset configuration file, optional\r
158 &gt;<br />\r
159  X.parameters.file=&lt;path to the parameters configuration file,\r
160 optional&gt;<br />\r
161  X.limits.file=&lt;path to the limits configuration file,\r
162 optional&gt;<br />\r
163  X.cluster.settings=&lt;list of the cluster specific options,\r
164 optional&gt;</span></p>\r
165 \r
166 <p>Where X is either  clustal, muscle, mafft, probcons or tcoffee. </p>\r
167 \r
168 <p>Default JABAWS configuration includes path to local executables\r
169 to be run by the local engine only, all cluster related settings\r
170 are commented out, but they are there for you as example. Cluster\r
171 engine is disabled by default. To configure executable for cluster\r
172 execution un comment the X.cluster settings and change them\r
173 appropriately. </p>\r
174 <p>By default limits are set well in excess of what you may want to offer to the users outside your lab, to make sure that the tasks are never rejected. The default limit is 100000 sequences of 100000 letters on average for all of the JABA web services.  You can adjust the limits according to your needs by editing <span class="hightlight">conf/settings/&lt;X&gt;Limit.xml</span> files.<br />\r
175   After you have completed the editing your configuration may look like\r
176   this:<span class="code">local.mafft.bin.windows=<br />\r
177     local.mafft.bin=binaries/mafft<br />\r
178     cluster.mafft.bin=/homes/cengine/mafft<br />\r
179     mafft.bin.env=MAFFT_BINARIES#/homes/cengine/mafft;FASTA_4_MAFFT#/bin/fasta34;<br />\r
180     mafft.--aamatrix.path=binaries/matrices<br />\r
181     mafft.presets.file=conf/settings/MafftPresets.xml<br />\r
182     mafft.parameters.file=conf/settings/MafftParameters.xml<br />\r
183     mafft.limits.file=conf/settings/MafftLimits.xml<br />\r
184     mafft.cluster.settings=-q bigmem.q -l h_cpu=24:00:00 -l\r
185     h_vmem=6000M -l ram=6000M</span></p>\r
186 <p>Please not that relative paths must only be specified for the\r
187 files that reside inside web application directory, all other paths\r
188 must be supplied as absolute!</p>\r
189 \r
190 <p>Furthermore, you should avoid using environment variables within the paths or options - since these will not be evaluated correctly.  Instead, please explicitly\r
191 specify the absolute path to anything\r
192 normally evaluated from an environment variable at execution time.</p>\r
193 \r
194 <p>If you are using JABAWS to submit jobs to the cluster (with\r
195 cluster engine enabled), executables must be available from all\r
196 cluster nodes the task can be sent to, also paths to the\r
197 executables on the cluster e.g. <span class=\r
198 "hightlight">cluster.&lt;exec_name&gt;.bin</span> must be\r
199 absolute.</p>\r
200 \r
201 <p>Executables can be located anywhere in your system, they do not\r
202 have to reside on the server as long as the web application server\r
203 can access and execute them.</p>\r
204 \r
205 <p>Cluster settings are treated as a black box, the system will\r
206 just pass whatever is specified in this line directly to the\r
207 cluster submission library. This is how DRMAA itself treats this\r
208 settings. More exactly DRMAA <span class="hightlight">JobTemplate.setNativeSpecification()</span> function will be called.</p>\r
209 \r
210 <h3><a name="setexecenv" />Defining Environment Variables for\r
211 Executables</h3>\r
212 \r
213 <p>Environment variables can be defined in property <span class=\r
214 "code">x.bin.env</span> Where <span class="hightlight">x</span> is\r
215 one of five executables supported by JABAWS. Several environment\r
216 variables can be specified in the same line. For example.<br />\r
217  <span class=\r
218 "code">mafft.bin.env=MAFFT_BINARIES#/homes/cengine/mafft;FASTA_4_MAFFT#/bin/fasta34;</span></p>\r
219 \r
220 <p>The example above defines two environment variables with names\r
221 MAFFT-BINARIES and FASTA_4_MAFFT and values /homes/cengine/mafft\r
222 and /bin/fasta34 respectively. Semicolon is used as a separator\r
223 between different environment variables whereas hash is used as a\r
224 separator for name and value of the variable.</p>\r
225 \r
226 <h3><a name="mafftconf" id="mafftconf"></a>Configure JABAWS to Work\r
227 with Mafft</h3>\r
228 \r
229 <p>If you use default configuration you do not need to read any\r
230 further. The default configuration will work for you without any\r
231 changes, however, if you want to install Mafft yourself then there\r
232 is a couple of more steps to do.</p>\r
233 \r
234 <p>Mafft executable needs to know the location of other files\r
235 supplied with Mafft. In addition some Mafft functions depends on\r
236 the fasta executable, which is not supplied with Mafft, but is a\r
237 separate package. Mafft needs to know the location of fasta34\r
238 executable.</p>\r
239 \r
240 <p>To let Mafft know where the other files from its package are\r
241 change the value of MAFFT-BINARIES environment variables. To let\r
242 Mafft know where is the fasta34 executable set the value of\r
243 FASTA_4_MAFFT environment variable to point to a location of\r
244 fasta34 program. The latter can be added to the PATH variable\r
245 instead. If you are using executables supplied with JABAWS, the\r
246 path to Mafft binaries would be like <span class=\r
247 "hightlight">&lt;relative path to web application\r
248 directory&gt;/binaries/src/mafft/binaries</span> and the path to\r
249 fasta34 binary would be <span class="hightlight">&lt;relative path\r
250 to web application\r
251 directory&gt;/binaries/src/fasta34/fasta34</span>. You can specify\r
252 the location of Mafft binaries as well as fasta34 program elsewhere\r
253 by providing an absolute path to them. All these settings are\r
254 defined in <span class=\r
255 "hightlight">conf/Executable.properties</span> file.</p>\r
256 <h3><a name="settinglimit" id="settinglimit"></a>Limiting the size of the job accepted by JABAWS </h3>\r
257 <p>JABAWS can be configured to reject excessively large tasks.  This is useful if you operate JABAWS service for many users. By defining a  maximum allowed task size you can provide an even service for all users and  prevents waist of resources on the tasks too large to complete  successfully. You can define the maximum number of sequences and the maximum average  sequence length that JABAWS accepts for each JABA Web Service independently. \r
258 Furthermore, you can define different limits for different  presets of the same web service. <br />\r
259 By default limits are set well in excess of what you may  want to offer to the users outside your lab, to make sure that the tasks are  never rejected. The default limit is 100000 sequences of 100000 letters on  average for all of the JABA web services. You can adjust the limits according  to your needs by editing <span class="hightlight">conf/settings/&lt;X&gt;Limit.xml</span> files.</p>\r
260 <h3><a name="diffbin" id="diffbin"></a>Using a different version of the alignment program with JABAWS</h3>\r
261 <p>JABAWS supplied with binaries and source code of the executables which version it supports. So normally you would not need to install your own executables. However, if you have a different version of an executable (e.g. an alignment program) which you prefer, you could use it as long as it supports all the functions JABAWS executable supported. This could be the case with more recent executable. If the options supported by your chosen executable is different when the standard JABAWS executable, than you need to edit <em>ExecutableName</em>Paramaters.xml&nbsp; configuration file. </p>\r
262 <h3><a name="mixuse" id="mixuse"></a>Load balancing </h3>\r
263 <p>If your cluster is busy and have significant waiting times you can achieve a faster response by allowing the server machine to calculate small tasks and the reserve the cluster for bigger jobs. This works especially well if your server is a powerful machine with many CPUs. To do this you need to enable and configure both the cluster and the local engines. Once this is done decide on the maximum size of a task to be run on the server locally. Then, edit <span class="hightlight">&quot;# LocalEngineExecutionLimit #&quot; </span>preset in<span class="hightlight"> &lt;ServiceName&gt;Limits.xml</span> file accordingly. JABAWS server then will balance the load according to the following rule: If the task size is smaller then the maximum task size for local engine, and the local engine has idle threads, then calculate task locally otherwise submit the task to the cluster. </p>\r
264 <h3><a name="testingJaba" id="testingJaba"></a>Testing JABA Web Services</h3>\r
265 <p>You can use a command line client (part of the client only\r
266   package) to test your JABAWS installation as described <a href="man_client.html">here</a>. If you downloaded a JABAWS\r
267   server package, you can use <span class=\r
268 "hightlight">&lt;your_jaba_context_name&gt;/WEB-INF/lib/jaba-client.jar</span> to test JABAWS installation as described in <a href=\r
269 "man_serverwar.html#usingWsTester">here</a>. If you downloaded the source\r
270   code, then you could run a number of test suits defined in the\r
271   build.xml Apache Ant  file.</p>\r
272 <h3><a name="logs" id="logs"></a>JABAWS requests logging </h3>\r
273 <p>Enable Tomcat log valve. To do this uncomment the following section of <span class="hightlight">&lt;tomcat_root&gt;/conf/server.xml</span> configuration file. </p>\r
274 <p class="code"> &lt;Valve className=&quot;org.apache.catalina.valves.AccessLogValve&quot; directory=&quot;logs&quot; <br />\r
275   prefix=&quot;localhost_access_log.&quot; suffix=&quot;.txt&quot; pattern=&quot;common&quot; resolveHosts=&quot;false&quot;/&gt;</p>\r
276 <p> The following information will be logged:</p>\r
277 <table width="100%" border="0" style="margin:0">\r
278   <tr>\r
279     <th>Remote IP</th>\r
280     <th>Date</th>\r
281     <th>Method server_URL protocol </th>\r
282     <th>HTTP status </th>\r
283     <th>Response size in bytes </th>\r
284   </tr>\r
285   <tr>\r
286     <td>10.31.11.159</td>\r
287     <td>[10/Feb/2010:16:51:32 +0000]</td>\r
288     <td>&quot;POST /jws2/MafftWS HTTP/1.1&quot;</td>\r
289     <td>200</td>\r
290     <td>2067</td>\r
291   </tr>\r
292 </table>\r
293 <p>Which can be processed in various programs for log analysis , such as <a href="http://www.webalizer.org/">WebAlizer</a>, <a href="http://www.analog.cx/">Analog</a>, <a href="http://awstats.sourceforge.net/">AWStats</a>. </p>\r
294 <h3><a name="logfiles" id="logfiles"></a>JABAWS internal logging </h3>\r
295 <p>JABAWS can be configured to log what it is doing. This comes\r
296   handy if you would like to see who is using your web services or\r
297   need to chase some problems. JABAWS uses <a href=\r
298 "http://logging.apache.org/log4j/1.2/">log4j</a> to do the logging,\r
299   the example of log4j configuration is bundled with JABAWS war file.\r
300   You will find it in the <span class=\r
301 "hightlight">/WEB-INF/classes/log4j.properties</span> file. All the\r
302   lines in this file are commented out. The reason why the logging is\r
303   disabled by default it simple, log4j have to know the exact\r
304   location where the log files should be stored. This is not known up\r
305   until the deployment time. To enable the logging you need to\r
306   define<span class="hightlight"> logDir</span> property in the <span\r
307 class="hightlight">log4j.properties</span> and uncomment section of\r
308   the file which corresponds to your need. More information is given\r
309   in the <span class="hightlight">log4j.properties</span> file\r
310   itself. Restart the Tomcat or the JABAWS web application to apply\r
311   the settings.</p>\r
312 <p>After you have done this, assuming that you did not change the\r
313   log4j.properties file yourself, you should see the application log\r
314   file called <span class="hightlight">activity.log</span>. The\r
315   amount of information logged can be adjusted using different\r
316   logging levels, it is reduced in the following order of log levels\r
317   TRACE, DEBUG, INFO, WARN, ERROR, FATAL.</p>\r
318 <p>If you would like to know who is using your services, you might\r
319   want to <a href="#logs">enable Tomcat request\r
320     logging</a>.</p>\r
321 <h3><a name="warfile" id="warfile"></a>JABAWS War File Content</h3>\r
322 <table width="100%">\r
323   <tr>\r
324     <th style="width:19%">Directory</th>\r
325     <th style="width:81%">Content description</th>\r
326   </tr>\r
327   <tr>\r
328     <td>conf/</td>\r
329     <td>contains configuration files such as Executable.properties,\r
330       Engine.local.properties, Engine.cluster.properties</td>\r
331   </tr>\r
332   <tr>\r
333     <td>conf/settings</td>\r
334     <td>Contains individual executable description files. In particular\r
335       XXXParameters.xml, XXXPresets.xml, XXXLimits.xml where XXX is the\r
336       name of the executable</td>\r
337   </tr>\r
338   <tr>\r
339     <td>jobsout/</td>\r
340     <td>Contains directories generated when running an individual executable. E.g. input and output files and some other task\r
341       related data. (optional)</td>\r
342   </tr>\r
343   <tr>\r
344     <td>binaries/</td>\r
345     <td>Directory contains native executables - programs,\r
346       windows binaries (optional)</td>\r
347   </tr>\r
348   <tr>\r
349     <td>binaries/src</td>\r
350     <td>Contains source of native executables and Linux i386\r
351       binaries.</td>\r
352   </tr>\r
353   <tr>\r
354     <td>binaries/matrices</td>\r
355     <td>Substitution matrices\r
356       <!-- what format ? --></td>\r
357   </tr>\r
358   <tr>\r
359     <td>WEB-INF</td>\r
360     <td>Web application descriptor</td>\r
361   </tr>\r
362   <tr>\r
363     <td>WEB-INF/lib</td>\r
364     <td>Web application libraries</td>\r
365   </tr>\r
366   <tr>\r
367     <td>WEB-INF/classes</td>\r
368     <td>log4j.properties - log configuration file (optional)</td>\r
369   </tr>\r
370   <tr>\r
371     <td colspan="2"><strong>Help Pages</strong> </td>\r
372   </tr>\r
373   <tr>\r
374     <td>/</td>\r
375     <td>help pages, index.html is the starting page</td>\r
376   </tr>\r
377   <tr>\r
378     <td>dm_javadoc</td>\r
379     <td>javadoc for JABAWS client (the link is available from How To\r
380       pages)</td>\r
381   </tr>\r
382   <tr>\r
383     <td>prog_docs</td>\r
384     <td>documentation for programs that JABAWS uses</td>\r
385   </tr>\r
386   <tr>\r
387     <td>images</td>\r
388     <td>images referenced by html pages</td>\r
389   </tr>\r
390 </table>\r
391 </div>\r
392 <!-- content end-->\r
393 <div id="copyright">Last update: 1 April 2011<br />\r
394  Peter Troshin, Jim Procter and Geoff Barton, The Barton Group, University of\r
395 Dundee, UK</div>\r
396 </div>\r
397 \r
398 <!-- wrapper end-->\r
399 </div>\r
400 <!-- page end-->\r
401 \r
402 <!-- Google analitics -->\r
403 <script type="text/javascript">\r
404 var gaJsHost = (("https:" == document.location.protocol) ? "https://ssl." : "http://www.");\r
405 document.write(unescape("%3Cscript src='" + gaJsHost + "google-analytics.com/ga.js' type='text/javascript'%3E%3C/script%3E"));\r
406 </script>\r
407 <script type="text/javascript">\r
408 try{\r
409 var pageTracker = _gat._getTracker("UA-5356328-1");\r
410 pageTracker._trackPageview();\r
411 } catch(err) {}\r
412 </script>\r
413 </body>\r
414 </html>\r
415 \r