文章来源数据拼接的一下实践

进来发现许多文章随之发表的都是其原始的二代测序的结果,很少将拼接好的序列一并发布,当然做可能有许多原因,比如编辑没有要求、拼接结果是此生数据、或者增加了工作量等等,所以需要用数据,还得拼一把,当然也是好事,可以用新的方法和文章中的处理方法进行比较,可以对于结果有一个验证。许多时候,我们自己的测序的拼接结果都是公司一起做的,我们拿到的就是拼接好的结果。而又或者对于自己的测序数据各方面了解的都非常清楚,完全下载的数据,如何进行拼接,需要注意什么样的问题,如何进行结果的比较,这里进行一些总结。以一篇以测序数据拼接与数据分析为主题的文章为例(Illumina RNA-seq测序),从NCBI SRA下载数据对其进行拼接,使用的拼接软件是velvet。

下载的SRA格式的文件,需要转换为Fastq格式,如果是两端测序(Paired end data),从哪里可以看出是?

以Fastq格式的测序结果的序列编号可以看出是否是两端测序,其编号形式是:

@<READNAME>[#<index>]/<read_number>

Read Number: 1 for single reads; 1 or 2 for paired ends.

在使用SRA tool时,fastq-dump转换SRA格式为fastq格式时,提供–split-files以及–split-3参数,支持将两端测序的数据分割到不同的文件中(a_1, a_2),注意需要版本在2.12以上,详细的解释:

 --split-files                    Dump each read into a separate file.Files will received suffix corresponding to read number
 --split-3                        Legacy 3-file splitting for mate-pairs:
                                  First 2 biological reads satisfying dumping conditions
                                  are placed in files *_1.fastq and *_2.fastq
                                  If only 1 biological read is dumpable - it is placed in *.fastq
fastq-dump --split-files SRR189044.sra

对于如何使用paired-end reads进行拼接的看另一篇博客。

在使用Fastx-toolbox进行低质序列过滤时,如何得到测序使用的adapter信息?

由于对于Illumina 测序过程不是特别的了解,可能需要更多的看看文献,一般都会讲使用的是什么多样的adapter,而至于adapter是否通用或者有限集,需要后面再看些资料。比如对于RNA-seq是否有5‘端的接头,3’端的接头。

却发现只用文章发表的数据,很难拼接处于文章中一样的结果,当然拼接方法不同,但是如何看待或者比较拼接的结果呢?

我们能否得到比文章作者还要好的结果?如果只是对于文章的本身进行验证,比如同样的方法,而得不到同样的结果,也似乎很好解释,比如是否使用了第三方的数据?。得到更好的结果,不只是拼接到的N50序列的长度,更重要的数据的质量,数据的真实性,这个方面方面我们或许会更有优势,会更容易客观。如何的进行比较,还需要更多的实践,而了解数据更为全面的信息,比如库的构建方法,测序的流程等等,更多的了解才能更好的利用这些数据。是的,按照某个流程我走完了,却发现如果我只是得到这样的结果,我是没有办法发表文章的,数据就是这样,这样的数量,这样的质量,但是如何获得更多的信息,比如提高N50的长度,获得更好的拼接结果(或许不但是拼接质量),这个才是“工作中”的挑战。或许后面我还应该有个总结《低质序列的完美拼接》,可以做到吗?

待续!

文章来源数据拼接的一下实践》上有2条评论

发表评论

电子邮件地址不会被公开。 必填项已用*标注

请启用Javascript,以完成验证!