new web site design and updates to the web pages
[jabaws.git] / website / man_configuration.html
1 <?xml version="1.0" encoding="UTF-8"?>\r
2 <!DOCTYPE html PUBLIC "XHTML 1.0 Strict"\r
3 "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">\r
4 <html xmlns="http://www.w3.org/1999/xhtml">\r
5 <head>\r
6 <meta name="Last-modified" content="Mon, 4 Apr 2011 12:00:00 GMT"/>\r
7 <title>Java Bioinformatics Analyses Web Services (JABAWS) Server Configuration manual</title>\r
8 <link href="ws.css" rel="stylesheet" type="text/css" media=\r
9 "screen, projection, handheld, tv" />\r
10 <link rel="stylesheet" type="text/css" media="print" href=\r
11 "print.css" />\r
12 <script type="text/javascript" src="prototype-1.6.0.3.js"></script>\r
13 </head>\r
14 <body>\r
15 <div id="page">\r
16 <div id="banner">\r
17 <table> \r
18 <tr><td style="width:158px;"><a href="http://www.dundee.ac.uk"><img src="images/uod_lt_long.gif"  alt="University of Dundee" width="158" height="90" class="logo"  title="University of Dundee" longdesc="http://www.dundee.ac.uk"/></a></td>\r
19 <td class="bg"><img src="images/jabaws2.png" alt="JABAWS-2.0:Disorder" width="353" height="67" title="JABAWS-2.0:Disorder"/></td>\r
20 <td class="bg"><img src="images/banner_right.png" alt="Disorder" width="200" height="80"/></td>\r
21 </tr>\r
22 </table>\r
23 </div><!-- banner end-->\r
24 \r
25 <div id="wrapper">\r
26 <div id="panel"><a href="index.html">Home</a> \r
27   <a href="quick_start.html">Getting Started</a> \r
28   <a class="selected" href="man_about.html">Manual</a> \r
29         <div id="submenu">\r
30                 <a href="man_about.html">About</a>\r
31                 <a href="man_servervm.html" title="JABAWS Server as Virtual Appliance">Server VA</a>\r
32                 <a href="man_serverwar.html" title="JABAWS Server as Web Application aRchive">Server WAR</a>\r
33                 <a class="selected" href="man_configuration.html" >Server<br/>\r
34                 Configuration</a>\r
35                 <a href="man_client.html" title="JABAWS Command Line Client">CMD Client</a>\r
36                 <a href="man_stats.html" title="JABAWS Usage Statistics">Usage Statistics</a>\r
37                 <a href="man_dev.html" title="Accessing JABAWS from your program">Accessing<br/>\r
38                 JABAWS</a>      \r
39         </div>\r
40 <a href="download.html">Download</a> \r
41 <a href="contacts.html">Contact Us</a>\r
42 <a href="PublicAnnualStat" title="JABAWS usage statistics">Usage Statistics</a>\r
43 <a href="http://www.compbio.dundee.ac.uk" title="University of Dundee, The Barton Group" >Barton Group</a>\r
44 </div>\r
45 \r
46 <!-- panel end-->\r
47 <div id="content">\r
48 <h2 id="headtitle">JABAWS MANUAL</h2>\r
49 \r
50 <h2>JABAWS Configuration </h2>\r
51 <ul>\r
52   <li><a href="#defjabaconf">JABAWS Configuration </a></li>\r
53   <li><a href="#locEngConf">Local Engine Configuration</a></li>\r
54   <li><a href="#clustEngConf">Cluster Engine Configuration</a></li>\r
55   <li><a href="#exec">Executable Configuration</a></li>\r
56   <li><a href="#setexecenv">Defining Environment Variables for\r
57     Executables</a></li>\r
58   <li><a href="#mafftconf">Configure JABAWS to Work\r
59 with Mafft</a></li>\r
60   <li><a href="#settinglimit">Limiting the size of the job accepted by JABAWS Server </a></li>\r
61   <li><a href="#diffbin">Using a different version of the alignment program with JABAWS</a></li>\r
62   <li><a href="#mixuse">Load balancing </a></li>\r
63   <li><a href="#testingJaba">Testing JABA Web Services</a></li>\r
64   <li><a href="#logs">JABAWS requests logging </a></li>\r
65   <li><a href="#logfiles">JABAWS internal logging </a></li>\r
66   <li><a href="#warfile">JABAWS War File Content</a></li>\r
67   <li><a href="#execstat">JABAWS Usage Statistics</a></li>\r
68   </ul>\r
69 <h3><a name="defjabaconf" id="defjabaconf"></a>JABAWS Configuration </h3>\r
70 <p>There are three parts of the system you can configure. The local\r
71 and the cluster engines, and the paths to the individual executables for\r
72 each engine. These settings are stored in configuration files\r
73 within the web application directory (for an overview, then take a\r
74 look at the <a href="#warfile">war file content table</a>). </p>\r
75 <p>Initially, JABAWS is configured with only the local engine\r
76   enabled, with job output written to directory called &quot;jobsout&quot;\r
77   within the web application itself. This means that JABAWS will work\r
78   out of the box, but may not be suitable for serving a whole lab or\r
79   a university.</p>\r
80 <h3><a name="locEngConf" id="locEngConf"></a>Local Engine Configuration</h3>\r
81 \r
82 <p>The Local execution engine configuration is defined in the\r
83 properties file <span class="hightlight">conf/Engine.local.properties. </span>The supported\r
84 configuration settings are:<br />\r
85  <span class="hightlight">engine.local.enable=true</span> - #\r
86 enable or disable local engine, valid values true | false<br />\r
87  <span class=\r
88 "hightlight">local.tmp.directory=D:\\clusterengine\\testoutput</span>\r
89 - a directory to use for temporary files storage, optional,\r
90 defaults to java temporary directory<br />\r
91  <span class="hightlight">engine.local.thread.number=4</span> -\r
92 Number of threads for tasks execution (valid values between 1 and\r
93 2x cpu. Where x is a number of cores available in the system).\r
94 Optional defaults to the number of cores for core number &lt;=4 and\r
95 number of cores-1 for greater core numbers.</p>\r
96 \r
97 <p>If the local engine going to be heavily loaded (which is often the case if you do not have a cluster) it is a good idea to increase\r
98 the amount of memory available for the web application server. If\r
99 you are using Apache-Tomcat, then you can define its memory\r
100 settings in the JAVA_OPTS environment variable. To specify which\r
101 JVM to use for Apache-Tomcat, put the full path to the JRE\r
102 installation in the JAVA_HOME environment variable (We would\r
103 recommend using Sun Java Virtual Machine (JVM) in preference to\r
104 Open JDK). Below is an example of code which can be added to <span\r
105 class="hightlight">&lt;tomcat_dir&gt;/bin/setenv.sh</span> script\r
106 to define which JVM to use and a memory settings for Tomcat server.\r
107 Tomcat server startup script (<span class=\r
108 "hightlight">catalina.sh</span>) will execute <span class=\r
109 "hightlight">setenv.sh</span> on each server start\r
110 automatically.<br />\r
111  <span class="code">export\r
112 JAVA_HOME=/homes/ws-dev2/jdk1.6.0_17/<br />\r
113  export JAVA_OPTS=&quot;-server -Xincgc -Xms512m -Xmx1024m&quot;</span></p>\r
114 \r
115 <h3><a name="clustEngConf" id="clustEngConf"></a>Cluster Engine Configuration</h3>\r
116 \r
117 <p>Supported configuration settings:<br />\r
118  <span class="hightlight">engine.cluster.enable=true</span> - #\r
119 enable or disable local engine true | false, defaults to\r
120 false<br />\r
121  <span class=\r
122 "hightlight">cluster.tmp.directory=/homes/clustengine/testoutput-</span>\r
123 a directory to use for temporary files storage. The value must be\r
124 an absolute path to the temporary directory. Required. The value\r
125 must be different from what is defined for local engine. This\r
126 directory must be accessible from all cluster nodes.<br />\r
127  For the cluster engine to work, the SGE_ROOT and LD_LIBRARY_PATH\r
128 environment variables have to be defined. They tell the cluster\r
129 engine where to find DRMAA libraries. These variables\r
130 should be defined when the web application server starts up, e.g.</p>\r
131 \r
132 <p class="code">SGE_ROOT=/gridware/sge<br />\r
133  LD_LIBRARY_PATH=/gridware/sge/lib/lx24-amd64</p>\r
134 \r
135 <p>Finally, do not forget to configure executables for the cluster\r
136 execution, they may be the same as for the local execution but may\r
137 be different. Please refer to the executable configuration section\r
138 for further details.</p>\r
139 \r
140 <h3><a name="exec" id="exec"></a>Executable Configuration</h3>\r
141 \r
142 <p>All the executable programs\r
143 are configured in <span class="hightlight">conf/Executable.properties</span> file. Each executable\r
144 is configured with a number of options. They are: <span class=\r
145 "code">local.X.bin.windows=&lt;path to executable under windows\r
146 system, optional&gt;<br />\r
147  local.X.bin=&lt;path to the executable under non-windows system,\r
148 optional&gt;<br />\r
149  cluster.X.bin=&lt;path to the executable on the cluster, all\r
150 cluster nodes must see it, optional&gt;<br />\r
151  X.bin.env=&lt;semicolon separated list of environment variables\r
152 for executable, use hash symbol as name value separator,\r
153 optional&gt;<br />\r
154  X.--aamatrix.path=&lt;path to the directory containing\r
155 substitution matrices, optional&gt;<br />\r
156  X.presets.file=&lt;path to the preset configuration file, optional\r
157 &gt;<br />\r
158  X.parameters.file=&lt;path to the parameters configuration file,\r
159 optional&gt;<br />\r
160  X.limits.file=&lt;path to the limits configuration file,\r
161 optional&gt;<br />\r
162  X.cluster.settings=&lt;list of the cluster specific options,\r
163 optional&gt;</span></p>\r
164 \r
165 <p>Where X is either  clustal, muscle, mafft, probcons or tcoffee. </p>\r
166 \r
167 <p>Default JABAWS configuration includes path to local executables\r
168 to be run by the local engine only, all cluster related settings\r
169 are commented out, but they are there for you as example. Cluster\r
170 engine is disabled by default. To configure executable for cluster\r
171 execution un comment the X.cluster settings and change them\r
172 appropriately. </p>\r
173 <p>By default limits are set well in excess of what you may want to offer to the users outside your lab, to make sure that the tasks are never rejected. The default limit is 100000 sequences of 100000 letters on average for all of the JABA web services.  You can adjust the limits according to your needs by editing <span class="hightlight">conf/settings/&lt;X&gt;Limit.xml</span> files.<br />\r
174   After you have completed the editing your configuration may look like\r
175   this:<span class="code">local.mafft.bin.windows=<br />\r
176     local.mafft.bin=binaries/mafft<br />\r
177     cluster.mafft.bin=/homes/cengine/mafft<br />\r
178     mafft.bin.env=MAFFT_BINARIES#/homes/cengine/mafft;FASTA_4_MAFFT#/bin/fasta34;<br />\r
179     mafft.--aamatrix.path=binaries/matrices<br />\r
180     mafft.presets.file=conf/settings/MafftPresets.xml<br />\r
181     mafft.parameters.file=conf/settings/MafftParameters.xml<br />\r
182     mafft.limits.file=conf/settings/MafftLimits.xml<br />\r
183     mafft.cluster.settings=-q bigmem.q -l h_cpu=24:00:00 -l\r
184     h_vmem=6000M -l ram=6000M</span></p>\r
185 <p>Please not that relative paths must only be specified for the\r
186 files that reside inside web application directory, all other paths\r
187 must be supplied as absolute!</p>\r
188 \r
189 <p>Furthermore, you should avoid using environment variables within the paths or options - since these will not be evaluated correctly.  Instead, please explicitly\r
190 specify the absolute path to anything\r
191 normally evaluated from an environment variable at execution time.</p>\r
192 \r
193 <p>If you are using JABAWS to submit jobs to the cluster (with\r
194 cluster engine enabled), executables must be available from all\r
195 cluster nodes the task can be sent to, also paths to the\r
196 executables on the cluster e.g. <span class=\r
197 "hightlight">cluster.&lt;exec_name&gt;.bin</span> must be\r
198 absolute.</p>\r
199 \r
200 <p>Executables can be located anywhere in your system, they do not\r
201 have to reside on the server as long as the web application server\r
202 can access and execute them.</p>\r
203 \r
204 <p>Cluster settings are treated as a black box, the system will\r
205 just pass whatever is specified in this line directly to the\r
206 cluster submission library. This is how DRMAA itself treats this\r
207 settings. More exactly DRMAA <span class="hightlight">JobTemplate.setNativeSpecification()</span> function will be called.</p>\r
208 \r
209 <h3><a name="setexecenv" />Defining Environment Variables for\r
210 Executables</h3>\r
211 \r
212 <p>Environment variables can be defined in property <span class=\r
213 "code">x.bin.env</span> Where <span class="hightlight">x</span> is\r
214 one of five executables supported by JABAWS. Several environment\r
215 variables can be specified in the same line. For example.<br />\r
216  <span class=\r
217 "code">mafft.bin.env=MAFFT_BINARIES#/homes/cengine/mafft;FASTA_4_MAFFT#/bin/fasta34;</span></p>\r
218 \r
219 <p>The example above defines two environment variables with names\r
220 MAFFT-BINARIES and FASTA_4_MAFFT and values /homes/cengine/mafft\r
221 and /bin/fasta34 respectively. Semicolon is used as a separator\r
222 between different environment variables whereas hash is used as a\r
223 separator for name and value of the variable.</p>\r
224 \r
225 <h3><a name="mafftconf" id="mafftconf"></a>Configure JABAWS to Work\r
226 with Mafft</h3>\r
227 \r
228 <p>If you use default configuration you do not need to read any\r
229 further. The default configuration will work for you without any\r
230 changes, however, if you want to install Mafft yourself then there\r
231 is a couple of more steps to do.</p>\r
232 \r
233 <p>Mafft executable needs to know the location of other files\r
234 supplied with Mafft. In addition some Mafft functions depends on\r
235 the fasta executable, which is not supplied with Mafft, but is a\r
236 separate package. Mafft needs to know the location of fasta34\r
237 executable.</p>\r
238 \r
239 <p>To let Mafft know where the other files from its package are\r
240 change the value of MAFFT-BINARIES environment variables. To let\r
241 Mafft know where is the fasta34 executable set the value of\r
242 FASTA_4_MAFFT environment variable to point to a location of\r
243 fasta34 program. The latter can be added to the PATH variable\r
244 instead. If you are using executables supplied with JABAWS, the\r
245 path to Mafft binaries would be like <span class=\r
246 "hightlight">&lt;relative path to web application\r
247 directory&gt;/binaries/src/mafft/binaries</span> and the path to\r
248 fasta34 binary would be <span class="hightlight">&lt;relative path\r
249 to web application\r
250 directory&gt;/binaries/src/fasta34/fasta34</span>. You can specify\r
251 the location of Mafft binaries as well as fasta34 program elsewhere\r
252 by providing an absolute path to them. All these settings are\r
253 defined in <span class=\r
254 "hightlight">conf/Executable.properties</span> file.</p>\r
255 <h3><a name="settinglimit" id="settinglimit"></a>Limiting the size of the job accepted by JABAWS </h3>\r
256 <p>JABAWS can be configured to reject excessively large tasks.  This is useful if you operate JABAWS service for many users. By defining a  maximum allowed task size you can provide an even service for all users and  prevents waist of resources on the tasks too large to complete  successfully. You can define the maximum number of sequences and the maximum average  sequence length that JABAWS accepts for each JABA Web Service independently. \r
257 Furthermore, you can define different limits for different  presets of the same web service. <br />\r
258 By default limits are set well in excess of what you may  want to offer to the users outside your lab, to make sure that the tasks are  never rejected. The default limit is 100000 sequences of 100000 letters on  average for all of the JABA web services. You can adjust the limits according  to your needs by editing <span class="hightlight">conf/settings/&lt;X&gt;Limit.xml</span> files.</p>\r
259 <h3><a name="diffbin" id="diffbin"></a>Using a different version of the alignment program with JABAWS</h3>\r
260 <p>JABAWS supplied with binaries and source code of the executables which version it supports. So normally you would not need to install your own executables. However, if you have a different version of an executable (e.g. an alignment program) which you prefer, you could use it as long as it supports all the functions JABAWS executable supported. This could be the case with more recent executable. If the options supported by your chosen executable is different when the standard JABAWS executable, than you need to edit <em>ExecutableName</em>Paramaters.xml&nbsp; configuration file. </p>\r
261 <h3><a name="mixuse" id="mixuse"></a>Load balancing </h3>\r
262 <p>If your cluster is busy and have significant waiting times you can achieve a faster response by allowing the server machine to calculate small tasks and the reserve the cluster for bigger jobs. This works especially well if your server is a powerful machine with many CPUs. To do this you need to enable and configure both the cluster and the local engines. Once this is done decide on the maximum size of a task to be run on the server locally. Then, edit <span class="hightlight">&quot;# LocalEngineExecutionLimit #&quot; </span>preset in<span class="hightlight"> &lt;ServiceName&gt;Limits.xml</span> file accordingly. JABAWS server then will balance the load according to the following rule: If the task size is smaller then the maximum task size for local engine, and the local engine has idle threads, then calculate task locally otherwise submit the task to the cluster. </p>\r
263 <h3><a name="testingJaba" id="testingJaba"></a>Testing JABA Web Services</h3>\r
264 <p>You can use a command line client (part of the client only\r
265   package) to test your JABAWS installation as described <a href="man_client.html">here</a>. If you downloaded a JABAWS\r
266   server package, you can use <span class=\r
267 "hightlight">&lt;your_jaba_context_name&gt;/WEB-INF/lib/jaba-client.jar</span> to test JABAWS installation as described in <a href=\r
268 "man_serverwar.html#usingWsTester">here</a>. If you downloaded the source\r
269   code, then you could run a number of test suits defined in the\r
270   build.xml Apache Ant  file.</p>\r
271 <h3><a name="logs" id="logs"></a>JABAWS requests logging </h3>\r
272 <p>Enable Tomcat log valve. To do this uncomment the following section of <span class="hightlight">&lt;tomcat_root&gt;/conf/server.xml</span> configuration file. </p>\r
273 <p class="code"> &lt;Valve className=&quot;org.apache.catalina.valves.AccessLogValve&quot; directory=&quot;logs&quot; <br />\r
274   prefix=&quot;localhost_access_log.&quot; suffix=&quot;.txt&quot; pattern=&quot;common&quot; resolveHosts=&quot;false&quot;/&gt;</p>\r
275 <p> The following information will be logged:</p>\r
276 <table width="100%" border="0" style="margin:0">\r
277   <tr>\r
278     <th>Remote IP</th>\r
279     <th>Date</th>\r
280     <th>Method server_URL protocol </th>\r
281     <th>HTTP status </th>\r
282     <th>Response size in bytes </th>\r
283   </tr>\r
284   <tr>\r
285     <td>10.31.11.159</td>\r
286     <td>[10/Feb/2010:16:51:32 +0000]</td>\r
287     <td>&quot;POST /jws2/MafftWS HTTP/1.1&quot;</td>\r
288     <td>200</td>\r
289     <td>2067</td>\r
290   </tr>\r
291 </table>\r
292 <p>Which can be processed in various programs for log analysis , such as <a href="http://www.webalizer.org/">WebAlizer</a>, <a href="http://www.analog.cx/">Analog</a>, <a href="http://awstats.sourceforge.net/">AWStats</a>. </p>\r
293 <h3><a name="logfiles" id="logfiles"></a>JABAWS internal logging </h3>\r
294 <p>JABAWS can be configured to log what it is doing. This comes\r
295   handy if you would like to see who is using your web services or\r
296   need to chase some problems. JABAWS uses <a href=\r
297 "http://logging.apache.org/log4j/1.2/">log4j</a> to do the logging,\r
298   the example of log4j configuration is bundled with JABAWS war file.\r
299   You will find it in the <span class=\r
300 "hightlight">/WEB-INF/classes/log4j.properties</span> file. All the\r
301   lines in this file are commented out. The reason why the logging is\r
302   disabled by default it simple, log4j have to know the exact\r
303   location where the log files should be stored. This is not known up\r
304   until the deployment time. To enable the logging you need to\r
305   define<span class="hightlight"> logDir</span> property in the <span\r
306 class="hightlight">log4j.properties</span> and uncomment section of\r
307   the file which corresponds to your need. More information is given\r
308   in the <span class="hightlight">log4j.properties</span> file\r
309   itself. Restart the Tomcat or the JABAWS web application to apply\r
310   the settings.</p>\r
311 <p>After you have done this, assuming that you did not change the\r
312   log4j.properties file yourself, you should see the application log\r
313   file called <span class="hightlight">activity.log</span>. The\r
314   amount of information logged can be adjusted using different\r
315   logging levels, it is reduced in the following order of log levels\r
316   TRACE, DEBUG, INFO, WARN, ERROR, FATAL.</p>\r
317 <p>If you would like to know who is using your services, you might\r
318   want to <a href="#logs">enable Tomcat request\r
319     logging</a>.</p>\r
320 <h3><a name="warfile" id="warfile"></a>JABAWS War File Content</h3>\r
321 <table width="100%">\r
322   <tr>\r
323     <th style="width:19%">Directory</th>\r
324     <th style="width:81%">Content description</th>\r
325   </tr>\r
326   <tr>\r
327     <td>conf/</td>\r
328     <td>contains configuration files such as Executable.properties,\r
329       Engine.local.properties, Engine.cluster.properties</td>\r
330   </tr>\r
331   <tr>\r
332     <td>conf/settings</td>\r
333     <td>Contains individual executable description files. In particular\r
334       XXXParameters.xml, XXXPresets.xml, XXXLimits.xml where XXX is the\r
335       name of the executable</td>\r
336   </tr>\r
337   <tr>\r
338     <td>jobsout/</td>\r
339     <td>Contains directories generated when running an individual executable. E.g. input and output files and some other task\r
340       related data. (optional)</td>\r
341   </tr>\r
342   <tr>\r
343     <td>binaries/</td>\r
344     <td>Directory contains native executables - programs,\r
345       windows binaries (optional)</td>\r
346   </tr>\r
347   <tr>\r
348     <td>binaries/src</td>\r
349     <td>Contains source of native executables and Linux i386\r
350       binaries.</td>\r
351   </tr>\r
352   <tr>\r
353     <td>binaries/matrices</td>\r
354     <td>Substitution matrices\r
355       <!-- what format ? --></td>\r
356   </tr>\r
357   <tr>\r
358     <td>WEB-INF</td>\r
359     <td>Web application descriptor</td>\r
360   </tr>\r
361   <tr>\r
362     <td>WEB-INF/lib</td>\r
363     <td>Web application libraries</td>\r
364   </tr>\r
365   <tr>\r
366     <td>WEB-INF/classes</td>\r
367     <td>log4j.properties - log configuration file (optional)</td>\r
368   </tr>\r
369   <tr>\r
370     <td colspan="2"><strong>Help Pages</strong> </td>\r
371   </tr>\r
372   <tr>\r
373     <td>/</td>\r
374     <td>help pages, index.html is the starting page</td>\r
375   </tr>\r
376   <tr>\r
377     <td>dm_javadoc</td>\r
378     <td>javadoc for JABAWS client (the link is available from How To\r
379       pages)</td>\r
380   </tr>\r
381   <tr>\r
382     <td>prog_docs</td>\r
383     <td>documentation for programs that JABAWS uses</td>\r
384   </tr>\r
385   <tr>\r
386     <td>images</td>\r
387     <td>images referenced by html pages</td>\r
388   </tr>\r
389 </table>\r
390 </div>\r
391 <!-- content end-->\r
392 <div id="copyright">Last update: 1 April 2011<br />\r
393  Peter Troshin, Jim Procter and Geoff Barton, The Barton Group, University of\r
394 Dundee, UK</div>\r
395 </div>\r
396 \r
397 <!-- wrapper end-->\r
398 </div>\r
399 <!-- page end-->\r
400 \r
401 <!-- Google analitics -->\r
402 <script type="text/javascript">\r
403 var gaJsHost = (("https:" == document.location.protocol) ? "https://ssl." : "http://www.");\r
404 document.write(unescape("%3Cscript src='" + gaJsHost + "google-analytics.com/ga.js' type='text/javascript'%3E%3C/script%3E"));\r
405 </script>\r
406 <script type="text/javascript">\r
407 try{\r
408 var pageTracker = _gat._getTracker("UA-5356328-1");\r
409 pageTracker._trackPageview();\r
410 } catch(err) {}\r
411 </script>\r
412 </body>\r
413 </html>\r
414 \r