生物信息学数据分析与皇帝的新装

本文是主要面向生命科学研究人员的一篇科普性文章,旨在探讨生物学数据分析背后的真与假,对与错,难与易的问题。

二十一世纪的前十年是生物芯片技术的天下,然而不经意间,高通量测序风起云涌,二代测序、三代测序(统称为下一代测序,简称NGS)接踵而来,并造就了中国BGI的崛起。高通量技术的迅猛发展也使得其价格的跌势丝毫不亚于中国股市。两年前一个真菌基因组的测序费用在三十万到五十万元人民币,而今只需区区十多万元甚至更低,如果考虑到国际上人民币升值而国内通货膨胀和CPI高涨的因素,其相对价格是折上加折。作为一个直接效应,起码在实验室水平NGS已经平民化,科研水平的竞争也逐步地从数据的获取转化为数据的分析和解读。 Continue reading

生物信息云分析平台常见问题

生物信息云分析平台是什么?

  • 生物信息云平台是基于阿里云服务器ECS构建的, ECS 是一个虚拟的计算环境,包含 CPU、内存等最基础的计算组件,是云服务器呈献给每个用户的实际操作实体;
  • Linux系统 + 开发运行环境 + 分析应用软件 + 数据(库);
  • 用户只需要通过WEB登录系统,何时何地自由访问;
  • 相当于您有了自己的一台服务器,综合您的数据,您的分析环境,但是却不用担心系统维护升级、软件安装、数据维护;
  • 技能培训,丰富的文档,用户交流、知识分享、疑问解答的社区;

Continue reading

生物信息云分析平台

建立于阿里云服务器ECS之上,置身于您的研究方向您的数据,建立自己实验室的科研平台,实现信息管理,数据分析,展示共享。

私人定制

自己的数据,自己的主题,自己的分析平台,实验室测序有了很多自己的数据,有自己明确的研究方法,并想以此为方向开展更多的工作,而大的公用的数据分析平台,使用起来很麻烦,而想做一些本地化的分析,会遇到很多的问题,举步维艰 Continue reading

如何鉴定rRNA

核糖体RNA,与蛋白质结合而形成核糖体,其功能是作为mRNA的支架,使mRNA分子在其上展开,形成肽链的合成。
rRNA占RNA总量的82%左右
原核生物的rRNA分三类:5SrRNA、16SrRNA和23SrRNA。
真核生物的rRNA分四类:5SrRNA、5.8SrRNA、18SrRNA和28SrRNA
人基因组的四种rRNA基因中, 18S、5.8S和28S rRNA基因是串联在一起的,每个基因被间隔区隔开, 5S的rRNA基因则是编码在另一条染色体上
Image
Image

Continue reading

二代测序数据预处理与分析

Next generation sequencing (NGS)

主要的测序技术及其产生数据的差异

常使用的工具列表

  • 质量控制Quality Control:FastQC、Fastx-toolkit
  • 拼接Aligner:BWA,Bowtie, Tophat, SOAP2
  • Mapper:Tophat, Cufflinks
  • 基因定量 Gene Quantification: Cufflinks, Avadis NGS
  • 质量改进 Quality improvement: Genome Analysis Toolkit(GATK)
  • SNP: Unified Genotyper,Glfmultiple, SAMtools, Avadis NGS
  • CNV: CNVnator
  • Indel: Pindel, Dindel, Unified Genotyper, Avadis NGS
  • Mapping to a gene: Cufflinks, Rsamtools, Genomic Features

Continue reading

基于HMM的基因功能鉴定

前提:基因组测序或者转录组测序

目的:

  • 鉴定该物种中某个基因家族的所有成员;
  • 每个基因的功能鉴定;

什么是HMM:

HMM(Hidden Markov Model,隐马尔科夫模型)是一种用参数表示的用于描述随机过程统计特性的概率模型,是一个双重随机过程, 由两个部分组成:马尔可夫链和一般随机过程。 其中马尔可夫链用来描述状态的转移,用转移概率描述。一般随机过程用来描述状态与观察序列间的关系,用观察值概率描述。对于HMM模型,其的状态转换过程是不可观察的,因而称之为“隐”马尔可夫模型。

为什么要用HMM: Continue reading

生物信息学编程语言选择

我们应该选择什么样的编程语言呢,因为要投入很多,所以这个选择显得很慎重,又因为是刚刚开始,掌握的信息有极其有限,面对选择就很茫然,如何选择呢?看看身边的人用什么编程语言,看看相关的招聘广告中要求什么语言,看看什么语言的书买得多,当然只看这些因素不同时间,不同地点,不同的环境,带着许多偶然性,下面就让我们跟随Paul Graham, 看看黑客们是如何选择编程语言的: Continue reading

比较认可的生物信息学定义与分类

最近在读《结构生物信息学》,补充以及对于分子结构预测方面多些了解,其前言中,关于生物信息学的定义与分类,给我很深的印象,或者说形成了很强的共鸣,许多次交流,我都引用了其观点,但是意思好像没有完全说明白。这里就将其摘录下来。在给别人介绍起来,我是做什么的,就可以说,是做生物信息应用的,我的博客主题也是这个方面——应用。 Continue reading