Revision as of 17:49, 31 July 2014

Information about Xenopus laevis gene annotation released on July, 2014.

Browser

You can see/search final gene model (UTA201407f) and all other sequences mentioned in this page at http://daudin.icmb.utexas.edu/XENLA_JGIv72/

It should be noted that XENLA_JGIv72 is slightly modified version of JGI version 7.1 genome (ftp://ftp.xenbase.org/pub/Genomics/JGI/Xenla7.1/):
- 1. assign chromosome name based on chromosome FISH data from NIG/Japan
  2. split mis-joint scaffolds (http://daudin.icmb.utexas.edu/XENLA_JGIv72/raw/Fucui201405_chimera.txt)

Raw materials

Xenopus laevis Reference sequences - http://daudin.icmb.utexas.edu/xenopus-pub/ref/
- mgEST_Xl4jul2012.fa - Michael Gilchrist's assembled transcript (2012 July version)
- XENLA_XBv5_cdna.fa - XenBase NCBI mRNA sequences (2012 June version)
- XENLA_UG94.fa - X. laevis' UniGene (version 94)
- XENLA_xb201405_mrna.fa - XenBase NCBI mRNA sequences (2014 May version)
- XGI_022511_TC.fa.gz - John Quackenbush's assembled ESTs (XGI 022511 version)
- XENTR_UG52_uniq.fa.gz - X. tropicalis UniGene (version 52).
- XENTR_xb201405_mrna.fa.gz - XenBase NCBI mRNA sequences (2014 May version)

Reference species proteome sequence - http://daudin.icmb.utexas.edu/xenopus-pub/ens72/
- CHICK_ens72_prot_annot_longest.fa.gz - Chicken
- DANRE_ens72_prot_annot_longest.fa.gz - Zebrafish
- MOUSE_ens72_prot_annot_longest.fa.gz - Mouse
- XENTR_ens72_prot_annot_longest.fa.gz - X. tropicalis
- HUMAN_ens72_prot_annot_longest.fa.gz - Human

JGI gene annotation data -http://daudin.icmb.utexas.edu/xenopus-pub/annot/JGI/

De novo assembled transcripts from RNA-seq - http://daudin.icmb.utexas.edu/xenopus-pub/tx/pub.201406
- Amin201106_XENLA.cdna_pub.fa.gz - Frank Conlon lab, University of North Carolina, USA
- Audic201207_XENLA.cdna_pub.fa.gz - Yann Audic, Université de RENNES I, France
- Blower201306_XENLAab.cdna_pub.fa.gz, Blower201306_XENLAcap.cdna_pub.fa.gz, Blower201306_XENLApA.cdna_pub.fa.gz - Michael Blower lab, Harvard Medical School, USA (published here)
- Chang2013_XENLA.cdna_pub.fa.gz - Chenbei Chang lab, University of Alabama, USA]
- Chung201110_XENLA.cdna_pub.fa.gz - Mei-I Chung/John Wallingford lab, University of Texas at Austin, USA]
- Ismailoglu201203_XENLA.cdna_pub.fa.gz - Ali Brivanlou lab, Rockefeller University, USA]
- Park201106_XENLA.cdna_pub.fa.gz - Tae Joo Park lab, UNIST, Republic of Korea
- Quigley201112_XENLA.cdna_pub.fa.gz, Quigley201207_XENLA.cdna_pub.fa.gz, Quigley201212_XENLA.cdna_pub.fa.gz, Quigley201307_XENLA.cdna_pub.fa.gz - Ian Quigley/Chris Kintner lab, Salk Institute, USA
- Taira201203_XENLA_stage.cdna_pub.fa.gz, Taira201203_XENLA_tissue.cdna_pub.fa.gz - Masanori Taira/Naoto Ueno/Shuji Takahashi (genome consortium)
- TeperekTkacz201202_XENLA.cdna_pub.fa.gz, TeperekTkacz201205_XENLA.cdna_pub.fa.gz, TeperekTkacz201206_XENLA.cdna_pub.fa.gz - Marta Teperek/John Gurdon lab, Cambridge, UK
- TXGP201107_XENLA.cdna_pub.fa.gz - John Wallingford/Edward Marcotte lab (genome consortium)
- Ueno201210_XENLA_stage.cdna_pub.fa.gz, Ueno201210_XENLA_tissue.cdna_pub.fa.gz, Ueno201302_XENLA_stage.cdna_pub.fa.gz - Masanori Taira/Naoto Ueno/Shuji Takahashi (genome consortium)

Merge

Map on JGI ver 7.1 genome with GMAP (default setting).
Sort all transcripts based on CDS length identified by GMAP (from longest to shortest). For transcripts with identical CDS length, sort them based on exon length also identified by GMAP (from shortest to longest; when I did this second sorting in opposite way, there were so many fused genes produced so I decide to sacrifice long UTRs instead).
Choose longest transcripts per give genome scaffold region and direction of transcription.

Translation

Translate non-redundant transcripts into all possible 6 frames, with standard codon usage table.
Search it against Reference species proteome (human, mouse, zebrafish, chicken, X. tropicalis; EnsEMBL ver. 72)
Determine the translation frame

= Merge

@@ Line 1: / Line 1: @@
+Information about ''Xenopus laevis'' gene annotation released on July, 2014.
-== Known Bugs ==
+= Browser =
-* Magainins http://www.ncbi.nlm.nih.gov/pubmed/3299384
+* You can see/search final gene model (UTA201407f) and all other sequences mentioned in this page at http://daudin.icmb.utexas.edu/XENLA_JGIv72/
-** mgEST_1013088128, magainins|XB-GENE-6252596|gi|126683|XL
+* It should be noted that XENLA_JGIv72 is slightly modified version of JGI version 7.1 genome (ftp://ftp.xenbase.org/pub/Genomics/JGI/Xenla7.1/):
+**# assign chromosome name based on chromosome FISH data from NIG/Japan
+**# split mis-joint scaffolds (http://daudin.icmb.utexas.edu/XENLA_JGIv72/raw/Fucui201405_chimera.txt)
+= Raw materials =
+* ''Xenopus laevis'' Reference sequences - http://daudin.icmb.utexas.edu/xenopus-pub/ref/
+** mgEST_Xl4jul2012.fa - Michael Gilchrist's assembled transcript (2012 July version)
+** XENLA_XBv5_cdna.fa - XenBase NCBI mRNA sequences (2012 June version)
+** XENLA_UG94.fa - ''X. laevis' UniGene (version 94)
+** XENLA_xb201405_mrna.fa - XenBase NCBI mRNA sequences (2014 May version)
+** XGI_022511_TC.fa.gz - John Quackenbush's assembled ESTs (XGI 022511 version)
+** XENTR_UG52_uniq.fa.gz - ''X. tropicalis'' UniGene (version 52).
+** XENTR_xb201405_mrna.fa.gz - XenBase NCBI mRNA sequences (2014 May version)
+* Reference species proteome sequence - http://daudin.icmb.utexas.edu/xenopus-pub/ens72/
+** CHICK_ens72_prot_annot_longest.fa.gz - Chicken
+** DANRE_ens72_prot_annot_longest.fa.gz - Zebrafish
+** MOUSE_ens72_prot_annot_longest.fa.gz - Mouse
+** XENTR_ens72_prot_annot_longest.fa.gz - ''X. tropicalis''
+** HUMAN_ens72_prot_annot_longest.fa.gz - Human
+* JGI gene annotation data -http://daudin.icmb.utexas.edu/xenopus-pub/annot/JGI/
+* De novo assembled transcripts from RNA-seq - http://daudin.icmb.utexas.edu/xenopus-pub/tx/pub.201406
+** Amin201106_XENLA.cdna_pub.fa.gz - [http://www.unc.edu/~fconlon/ Frank Conlon lab, University of North Carolina, USA]
+** Audic201207_XENLA.cdna_pub.fa.gz - [http://www.xenbase.org/community/person.do?method=display&personId=1100 Yann Audic, Université de RENNES I, France]
+** Blower201306_XENLAab.cdna_pub.fa.gz, Blower201306_XENLAcap.cdna_pub.fa.gz, Blower201306_XENLApA.cdna_pub.fa.gz - [http://molbio.mgh.harvard.edu/laboratories/blower Michael Blower lab, Harvard Medical School, USA] (published [http://www.plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0077700 here])
+** Chang2013_XENLA.cdna_pub.fa.gz - [http://www.xenbase.org/community/person.do?method=display&personId=1885 Chenbei Chang lab, University of Alabama, USA]]
+** Chung201110_XENLA.cdna_pub.fa.gz - [http://www.bio.utexas.edu/faculty/wallingford/ Mei-I Chung/John Wallingford lab, University of Texas at Austin, USA]]
+** Ismailoglu201203_XENLA.cdna_pub.fa.gz - [http://www.rockefeller.edu/research/faculty/labheads/AliBrivanlou/ Ali Brivanlou lab, Rockefeller University, USA]]
+** Park201106_XENLA.cdna_pub.fa.gz - [https://sites.google.com/site/unistmorphogenesis/ Tae Joo Park lab, UNIST, Republic of Korea]
+** Quigley201112_XENLA.cdna_pub.fa.gz, Quigley201207_XENLA.cdna_pub.fa.gz, Quigley201212_XENLA.cdna_pub.fa.gz, Quigley201307_XENLA.cdna_pub.fa.gz - [http://www.salk.edu/faculty/kintner.html Ian Quigley/Chris Kintner lab, Salk Institute, USA]
+** Taira201203_XENLA_stage.cdna_pub.fa.gz, Taira201203_XENLA_tissue.cdna_pub.fa.gz - Masanori Taira/Naoto Ueno/Shuji Takahashi (genome consortium)
+** TeperekTkacz201202_XENLA.cdna_pub.fa.gz, TeperekTkacz201205_XENLA.cdna_pub.fa.gz, TeperekTkacz201206_XENLA.cdna_pub.fa.gz - [http://www.gurdon.cam.ac.uk/research/gurdon Marta Teperek/John Gurdon lab, Cambridge, UK]
+** TXGP201107_XENLA.cdna_pub.fa.gz - John Wallingford/Edward Marcotte lab (genome consortium)
+** Ueno201210_XENLA_stage.cdna_pub.fa.gz, Ueno201210_XENLA_tissue.cdna_pub.fa.gz, Ueno201302_XENLA_stage.cdna_pub.fa.gz - Masanori Taira/Naoto Ueno/Shuji Takahashi (genome consortium)
+= Merge =
+# Map on JGI ver 7.1 genome with GMAP (default setting).
+# Sort all transcripts based on CDS length identified by GMAP (from longest to shortest). For transcripts with identical CDS length, sort them based on exon length also identified by GMAP (from shortest to longest; when I did this second sorting in opposite way, there were so many fused genes produced so I decide to sacrifice long UTRs instead).
+# Choose longest transcripts per give genome scaffold region and direction of transcription.
+= Translation =
+# Translate non-redundant transcripts into all possible 6 frames, with standard codon usage table.
+# Search it against Reference species proteome (human, mouse, zebrafish, chicken, ''X. tropicalis''; EnsEMBL ver. 72)
+# Determine the translation frame
+= Merge

Difference between revisions of "XENLA WorldCup"

Revision as of 17:49, 31 July 2014

Contents

Browser

Raw materials

Merge

Translation

Navigation menu

Views

Personal tools

Navigation

Projects

Classes

Search

Toolbox