MSblender TACC: Difference between revisions

Latest revision as of 20:39, 29 June 2015

Before you start

To use this setting, your TACC account needs to be allocated to our lab project('A-cm10'). If you don't have an account, create it at https://portal.tacc.utexas.edu/. Then, ask Edward to assign your account as a member of lab project.
This document is for 'stampede'.
Currently in most cases I use three search engines: comet, X!Tandem, and MS-GF+.
You don't need to run 'MSblender' modeling on TACC, because it does not take that long. I normally run all searches at TACC, then transfer the output to my local machine to run MSblender. So it only covers 'search' part. For running MSblender, please see MSblender page.

Install MSblender (and comet, MSGF+, X!Tandem)

$ cd ~
$ mkdir git
$ cd git
$ git clone https://github.com/marcottelab/MSblender.git

Prepare a working space

$ module load python
$ cd $SCRATCH
$ mkdir myProject
$ cd myProject
$ mkdir mzXML
$ mkdir DB
$ mkdir comet
$ mkdir MSGF+
$ mkdir tandemK

Prepare database

You can run this process on any computer. If it takes longer than a minute, it would be better to process it on other than TACC login node (your account may be locked).

$ python $HOME/git/MSblender/pre/fasta-reverse.py my_seq.fa
$ cat my_seq.fa.* > my_seq.combined.fa

DB setup for X!tandem

 $ $HOME/git/MSblender/extern/fasta_pro.exe my_seq.combined.fa

You may see the message like below:

$ ~/git/MSblender/extern/fasta_pro.exe my_seq.combined.fa 
fasta_pro file conversion utility, v. 2006.09.15
 input path = my_seq.combined.fa
output path = my_seq.combined.fa.pro
db type = plain

DB setup for comet

You don't need to do anything for this.

DB setup for MSGF+

It uses significant amount of computing resources (i.e. memory), so it may not be suitable to run on login node.

$ module load jdk64
$ java -Xmx4000M -cp /home1/00992/linusben/git/MSblender/extern/MSGFPlus.jar edu.ucsd.msjava.msdbsearch.BuildSA -d XenopusHybrid_xlJGIv16_xtJGIv83.combined.fa -tda 0

Prepare mzXML files

Copy your mzXML files on this diretory ($SCRATCH/myProject/mzXML).

Run comet

$ cd $SCRATCH/myProject/comet
$ ~/git/MSblender/extern/comet.linux.exe -p

Edit 'comet.params.new' file. Typically, you need to change the following lines.

num_threads = 16

peptide_mass_tolerance = 20.0
peptide_mass_units = 2

search_enzyme_number = 2   ## See the end of param file for the type of enzymes

output_txtfile = 1
output_pepxmlfile = 0

Then, create the launcher script (called 'stampede-comet.sh') as below.

#!/bin/bash
#SBATCH -n 16
#SBATCH -p normal
#SBATCH -t 24:00:00

#SBATCH -o cmt.o%j
COMET="$HOME/git/MSblender/extern/comet.linux.exe"

DB="../DB/my_seq.combined.fa"
DBNAME=$(basename $DB)
DBNAME=${DBNAME/.fa/}

PARAM="./comet.params.new"

#SBATCH -J "cmt"
for MZXML in $(ls ../mzXML/*mzXML)
do
  OUT=$(basename $MZXML)
  OUT=${OUT/.mzXML/}"."$DBNAME".comet"
  time $COMET -P$PARAM -D$DB -N$OUT $MZXML
done

Then, submit the job by typing 'sbatch stampede-comet.sh'

Run MSGF+

Create 'stampede-MSGF+.sh' file as below.

#!/bin/bash
#SBATCH -n 16
#SBATCH -p normal
#SBATCH -t 24:00:00

#SBATCH -o mg+.o%j
set -x

module load jdk64

MSGFplus_JAR="$HOME/git/MSblender/extern/MSGFPlus.jar"

DB="../DB/my_seq.combined.fa"

DBNAME=$(basename $DB)
DBNAME=${DBNAME/.fa/}

#SBATCH -J "mg+"
for MZXML in $(ls ../mzXML/*mzXML)
do
  OUT=$(basename $MZXML)
  OUT=${OUT/.mzXML/}"."$DBNAME".MSGF+.mzid"
  TBL=${OUT/.mzid/.tsv}
  time java -Xmx20000M -jar $MSGFplus_JAR -d $DB -s $MZXML -o $OUT -t 20ppm -tda 0 -ntt 2 -e 1 -inst 3
  time java -Xmx20000M -cp $MSGFplus_JAR edu.ucsd.msjava.ui.MzIDToTsv -i $OUT -o $TBL -showQValue 1 -showDecoy 1 -unroll 0
done

Then, submit the job by typing 'sbatch stampede-MSGF+.sh'

Run X!Tandem

$ cd $SCRATCH/myProject/tandemK
$ ~/git/MSblender/search/prepare-tandemK-high.py ../mzXML/ ../DB/my_seq.combined.fa.pro

First argument of prepare-tendemK-high.py is a directory for mzXML, and second one is for .pro database generated by fasta_pro.exe as above.

You will see *.xml files matched to your mzXML files (X!Tandem input), 'tandem-taxonomy.xml' file (another X!Tandem input), and run-tandemK.sh (a script to run X!tandem).

Make the following launcher ('stampede-tandemK.sh'), and submit it as 'sbatch stampede-tandemK.sh'.

#!/bin/bash
#SBATCH -n 16
#SBATCH -p normal
#SBATCH -t 24:00:00

#SBATCH -o tK.o%j
#SBATCH -J "tK"
set -x

bash ./run-tandemK.sh

If you have many mzXML files, you can run it parallel by splitting run-tandemK.sh with 'split -l' command, and run individual splitted script at 'stampede-tandemK.sh'.

@@ Line 2: / Line 2: @@
 * To use this setting, your TACC account needs to be allocated to our lab project('A-cm10'). If you don't have an account, create it at https://portal.tacc.utexas.edu/. Then, ask Edward to assign your account as a member of lab project.
 * This document is for [https://portal.tacc.utexas.edu/user-guides/stampede 'stampede'].
-* Always work at $SCRATCH directory, not at /corral or your $HOME.
+* Currently in most cases I use three search engines: comet, X!Tandem, and MS-GF+.
+* You don't need to run 'MSblender' modeling on TACC, because it does not take that long. I normally run all searches at TACC, then transfer the output to my local machine to run MSblender. So it only covers 'search' part. For running MSblender, please see [[MSblender]] page.
-== Install MSblender (and comet, MSGFDB, X!Tandem) ==
+== Install MSblender (and comet, MSGF+, X!Tandem) ==
 <pre>$ cd ~
 $ mkdir git
@@ Line 16: / Line 17: @@
 $ cd myProject
 $ mkdir mzXML
-$ mkdir DB</pre>
+$ mkdir DB
+$ mkdir comet
+$ mkdir MSGF+
+$ mkdir tandemK</pre>
 == Prepare database ==
@@ Line 25: / Line 29: @@
 === DB setup for X!tandem ===
-<pre> $ $HOME/git/MSblender/extern/fasta_pro.exe my_seq.conbind.fa</pre>
+<pre> $ $HOME/git/MSblender/extern/fasta_pro.exe my_seq.combined.fa</pre>
 You may see the message like below:
@@ Line 41: / Line 45: @@
 It uses significant amount of computing resources (i.e. memory), so it may not be suitable to run on login node.
-<pre> $ module load jdk64
+<pre>$ module load jdk64
-$ java -Xmx4000M -cp /home1/00992/linusben/git/MSblender/extern/MSGFPlus.jar edu.ucsd.msjava.msdbsearch.BuildSA -d XenopusHybrid_xlJGIv16_xtJGIv83.combined.fa -tda 0
+$ java -Xmx4000M -cp /home1/00992/linusben/git/MSblender/extern/MSGFPlus.jar edu.ucsd.msjava.msdbsearch.BuildSA -d XenopusHybrid_xlJGIv16_xtJGIv83.combined.fa -tda 0</pre>
 == Prepare mzXML files ==
@@ Line 48: / Line 52: @@
 Copy your mzXML files on this diretory ($SCRATCH/myProject/mzXML).
-== Prepare search ==
+== Run comet ==
-<pre>$ python ~/git/MS-toolbox/bin/prepare-tandemK.py
+<pre>$ cd $SCRATCH/myProject/comet
-Create /scratch/00992/linusben/xenopus.prot/TXGP_XENLA_Prot_Kwon201109/tandemK.
+$ ~/git/MSblender/extern/comet.linux.exe -p</pre>
-Write /scratch/00992/linusben/xenopus.prot/TXGP_XENLA_Prot_Kwon201109/tandemK/tandem-taxonomy.xml.
-Write /scratch/00992/linusben/xenopus.prot/TXGP_XENLA_Prot_Kwon201109/tandemK/20110713_XENLA_Egg1_1.tandemK.xml
-...
-TandemK is ready. Run /scratch/00992/linusben/xenopus.prot/TXGP_XENLA_Prot_Kwon201109/scripts/run-tandemK.sh.</pre>
+Edit 'comet.params.new' file. Typically, you need to change the following lines.
+<pre>num_threads = 16
-<pre>$ python ~/git/MS-toolbox/bin/prepare-inspect.py
+peptide_mass_tolerance = 20.0
-Create /scratch/00992/linusben/xenopus.prot/TXGP_XENLA_Prot_Kwon201109/inspect.
+peptide_mass_units = 2
-Write /scratch/00992/linusben/xenopus.prot/TXGP_XENLA_Prot_Kwon201109/inspect/20110713_XENLA_Egg1_1.inspect_in.
-Write /scratch/00992/linusben/xenopus.prot/TXGP_XENLA_Prot_Kwon201109/inspect/20110713_XENLA_Egg1_2.inspect_in.
-...
-InsPecT is ready. Run /scratch/00992/linusben/xenopus.prot/TXGP_XENLA_Prot_Kwon201109/scripts/run-inspect.sh.</pre>
+search_enzyme_number = 2   ## See the end of param file for the type of enzymes
-<pre>$ python ~/git/MS-toolbox/bin/prepare-MSGFDB.py
+output_txtfile = 1
-Create /scratch/00992/linusben/xenopus.prot/TXGP_XENLA_Prot_Kwon201109/MSGFDB.
+output_pepxmlfile = 0</pre>
-20110713_XENLA_Egg1_1.mzXML
-20110713_XENLA_Egg1_2.mzXML
-....
-MSGFDB is ready. Run /scratch/00992/linusben/xenopus.prot/TXGP_XENLA_Prot_Kwon201109/scripts/run-MSGFDB.sh.</pre>
+Then, create the launcher script (called 'stampede-comet.sh') as below.
-== Run search ==
+<pre>#!/bin/bash
-In a standalone workstation, you can run ./script/run-(search_engine).sh directly to start. But you shouldn't do this in TACC login terminal. Put the following parameters on each run-*.sh script, then submit a job by qsub.
+#SBATCH -n 16
+#SBATCH -p normal
+#SBATCH -t 24:00:00
+#SBATCH -o cmt.o%j
+COMET="$HOME/git/MSblender/extern/comet.linux.exe"
+DB="../DB/my_seq.combined.fa"
+DBNAME=$(basename $DB)
+DBNAME=${DBNAME/.fa/}
+PARAM="./comet.params.new"
+#SBATCH -J "cmt"
+for MZXML in $(ls ../mzXML/*mzXML)
+do
+  OUT=$(basename $MZXML)
+  OUT=${OUT/.mzXML/}"."$DBNAME".comet"
+  time $COMET -P$PARAM -D$DB -N$OUT $MZXML
+done
+</pre>
+Then, submit the job by typing 'sbatch stampede-comet.sh'
-* If you use lonestar, replace '4way 8' to '8way to 24'. See [http://www.tacc.utexas.edu/user-services/user-guides/lonestar-user-guide Lonestar user guide] and [http://www.tacc.utexas.edu/user-services/user-guides/longhorn-user-guide Longhorn user guide] for detail.
+== Run MSGF+ ==
-* Don't forget to put your email address at -M.
-* Put short job name to check the status easily.
+Create 'stampede-MSGF+.sh' file as below.
 <pre>#!/bin/bash
-#$ -V                   # Inherit the submission environment
+#SBATCH -n 16
-#$ -cwd                 # Start job in submission directory
+#SBATCH -p normal
-#$ -j y                 # Combine stderr and stdout
+#SBATCH -t 24:00:00
-#$ -o $JOB_NAME.o$JOB_ID
-#$ -pe 4way 8
+#SBATCH -o mg+.o%j
-#$ -q long
-#$ -l h_rt=24:00:00     # Run time (hh:mm:ss)
-#$ -M (your email)
-#$ -m be                # Email at Begin and End of job
-#$ -P hpc
 set -x
-#$ -N (job name)
+module load jdk64
-(put the remaining part of run-* script after #!/bin/bash line) </pre>
+MSGFplus_JAR="$HOME/git/MSblender/extern/MSGFPlus.jar"
+DB="../DB/my_seq.combined.fa"
+DBNAME=$(basename $DB)
+DBNAME=${DBNAME/.fa/}
+#SBATCH -J "mg+"
+for MZXML in $(ls ../mzXML/*mzXML)
+do
+  OUT=$(basename $MZXML)
+  OUT=${OUT/.mzXML/}"."$DBNAME".MSGF+.mzid"
+  TBL=${OUT/.mzid/.tsv}
+  time java -Xmx20000M -jar $MSGFplus_JAR -d $DB -s $MZXML -o $OUT -t 20ppm -tda 0 -ntt 2 -e 1 -inst 3
+  time java -Xmx20000M -cp $MSGFplus_JAR edu.ucsd.msjava.ui.MzIDToTsv -i $OUT -o $TBL -showQValue 1 -showDecoy 1 -unroll 0
+done</pre>
+Then, submit the job by typing 'sbatch stampede-MSGF+.sh'
+== Run X!Tandem ==
+<pre>$ cd $SCRATCH/myProject/tandemK
+$ ~/git/MSblender/search/prepare-tandemK-high.py ../mzXML/ ../DB/my_seq.combined.fa.pro</pre>
+First argument of prepare-tendemK-high.py is a directory for mzXML, and second one is for .pro database generated by fasta_pro.exe as above.
+You will see *.xml files matched to your mzXML files (X!Tandem input), 'tandem-taxonomy.xml' file (another X!Tandem input), and run-tandemK.sh (a script to run X!tandem).
+Make the following launcher ('stampede-tandemK.sh'), and submit it as 'sbatch stampede-tandemK.sh'.
+<pre>#!/bin/bash
+#SBATCH -n 16
+#SBATCH -p normal
+#SBATCH -t 24:00:00
+#SBATCH -o tK.o%j
+#SBATCH -J "tK"
+set -x
+bash ./run-tandemK.sh</pre>
+If you have many mzXML files, you can run it parallel by splitting run-tandemK.sh with 'split -l' command, and run individual splitted script at 'stampede-tandemK.sh'.

MSblender TACC: Difference between revisions

Latest revision as of 20:39, 29 June 2015

Contents

Before you start

Install MSblender (and comet, MSGF+, X!Tandem)

Prepare a working space

Prepare database

DB setup for X!tandem

DB setup for comet

DB setup for MSGF+

Prepare mzXML files

Run comet

Run MSGF+

Run X!Tandem

Navigation menu

Page actions

Page actions

Personal tools

Navigation

Search

Projects

Classes

Tools