如何鉴定rRNA

核糖体RNA,与蛋白质结合而形成核糖体,其功能是作为mRNA的支架,使mRNA分子在其上展开,形成肽链的合成。
rRNA占RNA总量的82%左右
原核生物的rRNA分三类:5SrRNA、16SrRNA和23SrRNA。
真核生物的rRNA分四类:5SrRNA、5.8SrRNA、18SrRNA和28SrRNA
人基因组的四种rRNA基因中, 18S、5.8S和28S rRNA基因是串联在一起的,每个基因被间隔区隔开, 5S的rRNA基因则是编码在另一条染色体上
Image
Image

Continue reading

CummeRbund的安装与使用(for linux)

Exploration, analysis and visualization of Cufflinks high-throughput RNA-Seq data

CummeRbund is an R package that is designed to aid and simplify the task of analyzing Cufflinks RNA-Seq output.

CummeRbund是针对Cufflinks RNA-Seq输出结果分析与可视化开发的R包,极大的简化了后续的分析。

RNA高通量测序已经得到广泛的应用,比如转录组拼接、qantitation、以及差异表达分析。这些数据分析的结果往往数据量大、数据种类多样,差异巨大,而CummeRbund设计的目的就是为了帮助简化这些分析。

High-throughput sequencing of RNA-fragments is a powerful technique that has many applications, including but not limited to transcript assembly, qantitation, and differential expression analysis. The results of these analyses is often very large data sets with a high degree of relations between various data types and can be somewhat overwhelming. CummeRbund was designed to help simplify the analysis and exploration portion of RNA-Seq data derrived from the output of a differential expression analysis using cuffdiff with the goal of providing fast and intuitive access to your results.

CummeRbund takes the various output files from a cuffdiff run and creates a SQLite database of the results describing appropriate relationships betweeen genes, transcripts, transcription start sites, and CDS regions. Once stored and indexed, data for these features, even across multiple samples or conditions, can be retrieved very efficiently and allows the user to explore subfeatures of individual genes, or genesets as the analysis requires. We have implemented numerous plotting functions as well for commonly used visualizations. Check back often as we are constantly updating features.

CummeRbund创建了一个SQLite数据库,将cuffdiff运行产生的结果都存储到数据库中,将genes、transcripts、transcription start sites、以及CDS建立关联。将这些数据存储到数据库中,并建立相关的索引,就可以很容易的对多个样本之间或者其他条件的数据进行查询检索,允许用户对于单个或者一组基因的各种feature进行比较分析。同时还提供了诸多的绘图函数,可以满足一般的数据可视化需要。 Continue reading

RNA-seq差异表达基因分析之TopHat篇

TopHat是基于Bowtie的将RNA-Seq数据mapping到参考基因组上,从而鉴定可变剪切(exon-exon splice junctions)。

安装

最简单的安装方法,注意版本

  • 下载Bowtie、TopHat、Cufflinks的二进制发布包,解压到相同的目录
  • 下载samtools,make,将生成的可执行samtools程序也cp到同一个目录
  • 增加该目录到PATH

参数与使用

Usage: tophat [options]* <index_base> <reads1_1[,…,readsN_1]> [reads1_2,…readsN_2]

  • -o  输出目录,默认值为 “./tophat_out”。
  • –solexa-quals/solexa1.3-quals 质量编码,关于质量编码格式请参考《Fastq格式详解
  • -p 线程数,默认值为单线程1.,可以使用多线程
  • -G/–GTFSupply TopHat with a set of gene model annotations and/or known transcripts, as a GTF 2.2 or GFF3 formatted file.指定已有转录本信息
  • –no-novel-juncs 不查找新的可变剪切
  • -r 比对时两成对引物间的距离中值。比如说,如果你的插入片段有300bp,而每个引物有50bp,那么r值就应该是200=(300+50*2)/2。没有默认值,如果是末端配对比对时这个值是必须的。
  • –mate-std-dev 末端配对时中间插入片段的长度的标准差,默认值为20bp

paired-end数据应该如何做 Continue reading

RNA-seq拼接结果数据提交NCBI

RNA-seq的拼接结果也可以向NCBI提交,第一次提交,还是费了不少事,这里简单总结一下。RNA-seq的拼接结果应该提交到TSA库,TSA全称Transcriptome Shotgun Assembly Sequence Database,TSA is an archive of computationally assembled sequences from primary data such as ESTs, traces and Next Generation Sequencing Technologies.

对于注释信息的要求

TSA数据提交前,首先需要将原始的序列提交到SRA数据库,与提交普通核酸、EST类似,TSA还需要提供DBlink关于BioProject、SRA接收号、BioSample;提供拼接信息以及对于拼接过程的描述。

对于序列的要求

  • 必须是原始的测序结果的拼接数据
  • 需要去除载体或者测序引物
  • 序列长度不能少于200bp
  • 序列不能包括太多的N,少于10%或者小于14个N Continue reading

paired-end reads的拼接

Velvet中paired-end reads的拼接

文件格式

要将两头测序(paired-end)的reads放到同一个文件当中,fastq格式,必须成对的依次放置reads [interleaved],velvet是成对读取的,另外Velvet假设来自两头read是反向互补的,如果不是,需要用反向互补序列来代替第一个read。Fastq格式中paired-end reads的编号相同,但是其有/1或者/2的后缀,通过这种方式来标示paired-end reads。

如果两端测序的reads放在不同的两个文件中,可以使用Velvet提供的perl脚本shuffleSequences fasta.pl进行转换合并,命令格式如下:

> ./shuffleSequences_fasta.pl forward_reads.fa reverse_reads.fa output.fa

低质序列过滤

在拼接前,首要要进行去除低质序列、接头等预处理,比如使用FASTX-Toolkit中的fastq_quality_filter去除低质序列:

fastq_quality_filter  -q 20 –p 100 -i s_1_1_sequence.txt -o s_1_1_sequence.txt_filtered_q20_p100.fastq
fastq_quality_filter  -q 20 –p 100 -i s_1_2_sequence.txt -o s_1_2_sequence.txt_filtered_q20_p100.fastq

这样势必带来一个问题,有些paired-end的前面序列被剔除,有些后面的序列被剔除,paired-end序列无法成对的错落出现,下面需要做的就是必须将单独的reads挑出来,方法有很多,下面是其中一个: Continue reading

文章来源数据拼接的一下实践

进来发现许多文章随之发表的都是其原始的二代测序的结果,很少将拼接好的序列一并发布,当然做可能有许多原因,比如编辑没有要求、拼接结果是此生数据、或者增加了工作量等等,所以需要用数据,还得拼一把,当然也是好事,可以用新的方法和文章中的处理方法进行比较,可以对于结果有一个验证。许多时候,我们自己的测序的拼接结果都是公司一起做的,我们拿到的就是拼接好的结果。而又或者对于自己的测序数据各方面了解的都非常清楚,完全下载的数据,如何进行拼接,需要注意什么样的问题,如何进行结果的比较,这里进行一些总结。以一篇以测序数据拼接与数据分析为主题的文章为例(Illumina RNA-seq测序),从NCBI SRA下载数据对其进行拼接,使用的拼接软件是velvet。

Continue reading

SAM格式定义

SAM是一种序列比对格式标准, 由sanger制定,是以TAB为分割符的文本格式。主要应用于测序序列mapping到基因组上的结果表示,当然也可以表示任意的多重比对结果。

不同的软件,不同的时期,不同的研究方向,都会创建一种或者多种格式标准,当然根据当时的需要,创建符合需求的标准,也是最容易的事情,而反过来想要真正的理解标准,也必须理解为什么要创建这样的标准,解决什么样的需要。我前面的有篇文章已经对于现有的多重比对的格式进行总结,但其更多的站在比较基因组学的角度。当我们去了解sam标准格式是什么的时候,就要思考既然以及有了这么多得标准,为什么还要定义SAM标准,当然拿所有的格式进行比较也并非易事,但是简单的对比,就可以了解其中一二,比如aln格式,是比对视图化的展示,存储的信息不够结构化,无法方便的作为另外程序的输入;表示信息的有限性,如果100个多重比对序列放到一个文件中,查看维护就会非常困难;还有些格式标准挺强大,但是太繁琐,同时不够灵活。那么反过来就是SAM格式的优点,那么SAM如何做到这一点的呢? Continue reading

二代测序数据预处理与分析

Next generation sequencing (NGS)

主要的测序技术及其产生数据的差异

常使用的工具列表

  • 质量控制Quality Control:FastQC、Fastx-toolkit
  • 拼接Aligner:BWA,Bowtie, Tophat, SOAP2
  • Mapper:Tophat, Cufflinks
  • 基因定量 Gene Quantification: Cufflinks, Avadis NGS
  • 质量改进 Quality improvement: Genome Analysis Toolkit(GATK)
  • SNP: Unified Genotyper,Glfmultiple, SAMtools, Avadis NGS
  • CNV: CNVnator
  • Indel: Pindel, Dindel, Unified Genotyper, Avadis NGS
  • Mapping to a gene: Cufflinks, Rsamtools, Genomic Features

Continue reading

使用CAP3拼接构建uniGene

RNA-seq对于两个处理样本进行分别测序,现在需要比对这两个测序结果的差别,使用CAP3,仍然是一个不错的选择。另外一个用途就是对于不断增加的转录组数据进行拼接,建立UniGene。

Cap3简介

Huang, X. 和 Madan, A 开发的一套用于序列拼接的软件,此软件适用于小的数据集或 EST 拼接,它有如下特征:

  • 利用正反向进行拼接,更正拼接错误、连接 contigs。
  • 应用 reads 的质量信息。
  • 自动截去 reads5`端、3`端的低质量区。
  • 产生 Consed 程序可读的 ace 格式。
  •  CAP3 能用于 Staden 软件包的中的 GAP4 软件。

下载安装

下载地址http://seq.cs.iastate.edu/cap3.html。下载操作系统,下载相应版本的,加压后,就可以使用。

CAP3 详细参考文档可见http://deepc2.psi.iastate.edu/aat/cap/capdoc.html Continue reading