RNA-seq拼接结果数据提交NCBI

RNA-seq的拼接结果也可以向NCBI提交,第一次提交,还是费了不少事,这里简单总结一下。RNA-seq的拼接结果应该提交到TSA库,TSA全称Transcriptome Shotgun Assembly Sequence Database,TSA is an archive of computationally assembled sequences from primary data such as ESTs, traces and Next Generation Sequencing Technologies.

对于注释信息的要求

TSA数据提交前,首先需要将原始的序列提交到SRA数据库,与提交普通核酸、EST类似,TSA还需要提供DBlink关于BioProject、SRA接收号、BioSample;提供拼接信息以及对于拼接过程的描述。

对于序列的要求

  • 必须是原始的测序结果的拼接数据
  • 需要去除载体或者测序引物
  • 序列长度不能少于200bp
  • 序列不能包括太多的N,少于10%或者小于14个N

提交流程

  • NCBI注册,获取注册账号,登录
  • 注册BioProject,获得一个编号
  • 将Raw reads提交到SRA,在SRA提交页面创建一个SRA提交,创建Sample,创建Experiment、在Experiment中创建RUN,需要提供测序平台、文件名、文件格式(Illumina_native、bam、fastq、srf)以及MD5验证码,创建好后,给NCBI发邮件,他们会提供数据上传的FTP,压缩后上传到FTP
  • 使用Sequin或者tbl2asn准备提交的文件,需要用到的数据包括拼接的序列(fasta格式)、拼接说明、BioProject编号、SRR接收号、单位信息、样本信息等
  • 将注释好的文件压缩通过GenomesMacroSend提交,提交后会获得一个GDSub编号,将这些信息以及数据发布日期email给ncbi
  • OK,等待回复,有问题解决问题,没有问题收纳接收号。

注意事项

  • window下TSA的注释
    开始在window下(win 7 64bit)使用sequin,总是序列加载后,开始填写注释信息时就没有响应,估计是卡在内存上,因为其需要将所有数据都加载到内存中,结果内存只增加到100多M就不动了,试了几次,每次都挺花时间的,最后还是失败了,sequin的主页上说适合于1万条以内的序列注释,NRS拼接的结果基本都是10万的级别。最后还不得不改用 tbl2asn,虽然是命令行的,NCBI都提供了在线的模板、拼接信息生成CGI,但是序列多在dos下还是很慢,最后改在64位linux,几乎就是瞬间的事情。
  • tbl2asn的使用注意-y与-Y参数的差别,-y后面可以直接跟注释信息,-Y是指存放注释信息的文件,另外就是在fasta文件中,在序列的defline 部分可以使用[key=value][key=value]的形式给序列添加注释信息,比如[tech=TSA] [SRA=SRRXXXXXX1,SRRXXXXXX2][bioproject=PRJNAXXXX1][moltype=mRNA]下面是命令示例:
tbl2asn -t template.sbt -p. -a s -w assembly.cmt -Y comment -M t
  • 关于序列中的N,序列中的N必须少于14个,或许是NCBI处于质控的角度考虑制定的规则,但是如果使用两端测序,难免序列中有很多N来填补缺位,N的价值是及其有意义的,如果要提交必须将这些序列去掉或者拆开,从文章的角度却又是不妥的,挺为难的。
没了,算是初次提交者的一个快速指南吧。更具体的请阅读NCBI官方说明。

参考

RNA-seq拼接结果数据提交NCBI》上有3条评论

    • 可能是linux内存以及cpu不同的缘故,我使用的服务器是32G内存,8个CPU,每个四核,可能会快些。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

请启用Javascript,以完成验证!