高通量测序结果报告系统常见问题

  • 基因组测序,转录组测序的数据分析可以同时使用这个报告系统吗?

不同的样本,不同的研究基础,同样的测序,数据分析差异较大,报告也不同,系统设计时已经充分考虑了这样的情况,将每个分析拆分为不同的任务,每个 任务可以根据分析的内容,报告的形式,定义多个模版,然后根据分析任务订制项目模版,项目相当于一个产品,或者可以为一个产品线设计一系列的项目模版。 NGS报告系统是一个框架,可以灵活的订制任意风格的报告,就比如提供了一套画板,画笔以及可以临摹的模版。 Continue reading

高通量测序结果报告系统-专注于提高测序数据分析效率

高通量测序结果报告系统聚焦于项目的实施与交付,从项目合同签订后,明确项目范围,明确任务,明确关系人。该系统的目的是提高项目交付的效率,缩短项目交 付时间,增加用户满意度。规范化,可视化项目流程,标准化、自动化、固定化一系列任务,实现项目报告自动化生成,形成新型的与客户的关系。

提高项目实施效率

  • 项目进展的可视化,可跟踪,项目的可控性;
  • 流程化,标准化,自动化,相辅相成;
  • 将分析人员从琐碎的事情中解放出来,维护流程,优化流程;
  • 知识传承与共享,同类问题,分秒解决;
  • 改善人机交互环境,更多的事情交给计算机完成,提升资源利用率
  • 可度量性,容易发现流程的短板,暴露问题,解决问题
  • 人员利用率,人员重叠,任务明确,遇到问题有章可循
  • 管理,绩效度量

提高客户满意度

  • 项目状态在线查询,客户可以实时查看项目的进展,查看阶段性报告
  • 工单管理系统,客户问题直接和分析人员的交互,及时发现问题,及时解决问题,搭建沟通桥梁
  • 数据分析的标准化,严格的质控,实时的审核,保证数据的准确性
  • 数据报告的标准化,格式化,提升公司形象
  • 缩短项目的交付时间,时间就是金钱
  • 用户的参与与决策,分析的针对性、个性化,提升数据的价值,不再只是漂亮的图表

from:http://biolinevo.com/report

CummeRbund的安装与使用(for linux)

Exploration, analysis and visualization of Cufflinks high-throughput RNA-Seq data

CummeRbund is an R package that is designed to aid and simplify the task of analyzing Cufflinks RNA-Seq output.

CummeRbund是针对Cufflinks RNA-Seq输出结果分析与可视化开发的R包,极大的简化了后续的分析。

RNA高通量测序已经得到广泛的应用,比如转录组拼接、qantitation、以及差异表达分析。这些数据分析的结果往往数据量大、数据种类多样,差异巨大,而CummeRbund设计的目的就是为了帮助简化这些分析。

High-throughput sequencing of RNA-fragments is a powerful technique that has many applications, including but not limited to transcript assembly, qantitation, and differential expression analysis. The results of these analyses is often very large data sets with a high degree of relations between various data types and can be somewhat overwhelming. CummeRbund was designed to help simplify the analysis and exploration portion of RNA-Seq data derrived from the output of a differential expression analysis using cuffdiff with the goal of providing fast and intuitive access to your results.

CummeRbund takes the various output files from a cuffdiff run and creates a SQLite database of the results describing appropriate relationships betweeen genes, transcripts, transcription start sites, and CDS regions. Once stored and indexed, data for these features, even across multiple samples or conditions, can be retrieved very efficiently and allows the user to explore subfeatures of individual genes, or genesets as the analysis requires. We have implemented numerous plotting functions as well for commonly used visualizations. Check back often as we are constantly updating features.

CummeRbund创建了一个SQLite数据库,将cuffdiff运行产生的结果都存储到数据库中,将genes、transcripts、transcription start sites、以及CDS建立关联。将这些数据存储到数据库中,并建立相关的索引,就可以很容易的对多个样本之间或者其他条件的数据进行查询检索,允许用户对于单个或者一组基因的各种feature进行比较分析。同时还提供了诸多的绘图函数,可以满足一般的数据可视化需要。 Continue reading

RNA-seq差异表达基因分析之TopHat篇

TopHat是基于Bowtie的将RNA-Seq数据mapping到参考基因组上,从而鉴定可变剪切(exon-exon splice junctions)。

安装

最简单的安装方法,注意版本

  • 下载Bowtie、TopHat、Cufflinks的二进制发布包,解压到相同的目录
  • 下载samtools,make,将生成的可执行samtools程序也cp到同一个目录
  • 增加该目录到PATH

参数与使用

Usage: tophat [options]* <index_base> <reads1_1[,…,readsN_1]> [reads1_2,…readsN_2]

  • -o  输出目录,默认值为 “./tophat_out”。
  • –solexa-quals/solexa1.3-quals 质量编码,关于质量编码格式请参考《Fastq格式详解
  • -p 线程数,默认值为单线程1.,可以使用多线程
  • -G/–GTFSupply TopHat with a set of gene model annotations and/or known transcripts, as a GTF 2.2 or GFF3 formatted file.指定已有转录本信息
  • –no-novel-juncs 不查找新的可变剪切
  • -r 比对时两成对引物间的距离中值。比如说,如果你的插入片段有300bp,而每个引物有50bp,那么r值就应该是200=(300+50*2)/2。没有默认值,如果是末端配对比对时这个值是必须的。
  • –mate-std-dev 末端配对时中间插入片段的长度的标准差,默认值为20bp

paired-end数据应该如何做 Continue reading

使用速铂Aspera下载NGS数据

关于速铂Aspera

速铂Aspera是一套商业的高速文件传输解决方案,随着高通量数据的大量产生,从而对于大文件快速传输的需求,开始应用到生物领域,目前NCBI、EBI的SRA库都提供这样的服务。

传统的FTP、HTTP等数据传输协议都是基于TCP的,TCP在远距离数据传输中存在一些先天的不足,文件越大、距离越远,其丢包、延时等问题对于传输速度的影响就越大。速铂Aspera通过应用了一个名为fasp™ 的底层技术,替换了传统的TCP传输协议。它彻底克服了TCP固有瓶颈,实现了在各种共享和私有网络环境中传输速度的最大化。这种技术可以获得完美的传输效率,不为网络延迟和丢包所限制。并且,用户享有对传输速度以及不同传输流之间带宽共享的无以伦比的控制。不管网络距离和动态性能如何,即便是在最困难的网络条件下(例如卫星,无线和洲际远程链接),文件传输时间仍然可以得到保障。FASP具有内置的,完整的安全性,包括连接节点安全验证,传输中数据加密以及数据完整性验证。与FTP传输相比快了3-184倍。它可以灵活地部署在C/S 或B/S构架的应用上,并利用普通的IP网络最大限度地利用带宽进行高效传输。同时,它也有着极好的跨平台性,支持几乎所有的主要操作系统。该软件同时也 包含一种文件接力技术,使得在传输大量极小文件时,其效率与传输单个大尺寸文件有着相同的效率与速度。

一句话,远距离,大文件,Aspera优势巨大。

客户端的下载与安装

即便Aspera是商业软件,但是作为客户应用方(相对于NCBI),我们使用其客户对进行数据的上传与下载是不用支付费用的。

  • Aspera Connect下载, 下载地址:http://www.asperasoft.com/downloads,根据不同的操作系统,下载相应的版本。注意下载的是Aspera Connect。Aspera Connect
  • 安装,windows下直接双击,下一步,安装,注意安装目录有别与常规软件,安装目录为C:\Users\[usename]\AppData\Local\Programs\Aspera\Aspera Connect。linux下
sh aspera-connect-xx-linux-64.sh

浏览器下使用Aspera下载SRA数据(win 7) Continue reading

Fastq格式详解

FASTQ是基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式。其序列以及质量信息都是使用一个ASCII字符标示,最初由Sanger开发,目的是将FASTA序列与质量数据放到一起,目前已经成为高通量测序结果的事实标准。

格式说明

FASTQ文件中每个序列通常有四行:

  1. 序列标识以及相关的描述信息,以‘@’开头;
  2. 第二行是序列
  3. 第三行以‘+’开头,后面是序列标示符、描述信息,或者什么也不加
  4. 第四行,是质量信息,和第二行的序列相对应,每一个序列都有一个质量评分,根据评分体系的不同,每个字符的含义表示的数字也不相同。
例如:
@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

Continue reading

paired-end reads的拼接

Velvet中paired-end reads的拼接

文件格式

要将两头测序(paired-end)的reads放到同一个文件当中,fastq格式,必须成对的依次放置reads [interleaved],velvet是成对读取的,另外Velvet假设来自两头read是反向互补的,如果不是,需要用反向互补序列来代替第一个read。Fastq格式中paired-end reads的编号相同,但是其有/1或者/2的后缀,通过这种方式来标示paired-end reads。

如果两端测序的reads放在不同的两个文件中,可以使用Velvet提供的perl脚本shuffleSequences fasta.pl进行转换合并,命令格式如下:

> ./shuffleSequences_fasta.pl forward_reads.fa reverse_reads.fa output.fa

低质序列过滤

在拼接前,首要要进行去除低质序列、接头等预处理,比如使用FASTX-Toolkit中的fastq_quality_filter去除低质序列:

fastq_quality_filter  -q 20 –p 100 -i s_1_1_sequence.txt -o s_1_1_sequence.txt_filtered_q20_p100.fastq
fastq_quality_filter  -q 20 –p 100 -i s_1_2_sequence.txt -o s_1_2_sequence.txt_filtered_q20_p100.fastq

这样势必带来一个问题,有些paired-end的前面序列被剔除,有些后面的序列被剔除,paired-end序列无法成对的错落出现,下面需要做的就是必须将单独的reads挑出来,方法有很多,下面是其中一个: Continue reading

文章来源数据拼接的一下实践

进来发现许多文章随之发表的都是其原始的二代测序的结果,很少将拼接好的序列一并发布,当然做可能有许多原因,比如编辑没有要求、拼接结果是此生数据、或者增加了工作量等等,所以需要用数据,还得拼一把,当然也是好事,可以用新的方法和文章中的处理方法进行比较,可以对于结果有一个验证。许多时候,我们自己的测序的拼接结果都是公司一起做的,我们拿到的就是拼接好的结果。而又或者对于自己的测序数据各方面了解的都非常清楚,完全下载的数据,如何进行拼接,需要注意什么样的问题,如何进行结果的比较,这里进行一些总结。以一篇以测序数据拼接与数据分析为主题的文章为例(Illumina RNA-seq测序),从NCBI SRA下载数据对其进行拼接,使用的拼接软件是velvet。

Continue reading