hmmer的安装与使用

从功能基因研究的角度来讲,相关的搜索,比如从序列数据库中,找同源的序列,或者对一个对一个新的基因功能进行鉴定,使用hmmer比使用blast有着更高的灵敏度已经更高的搜索速度,但其应用还远没有blast普及,这里是一篇入门级的介绍文章。

hmmer下载与安装

对于Mac OS/X, Linux, UNIX系统,用源代码编译安装:

   % wget ftp://selab.janelia.org/pub/software/hmmer3/3.0/hmmer-3.0.tar.gz
   % tar zxf hmmer-3.0.tar.gz
   % cd hmmer-3.0
   % ./configure
   % make
   % make check

windows系统,直接下载二进制压缩包,解压就可以使用,下载地址: 继续阅读

基于HMM的基因功能鉴定

前提:基因组测序或者转录组测序

目的:

  • 鉴定该物种中某个基因家族的所有成员;
  • 每个基因的功能鉴定;

什么是HMM:

HMM(Hidden Markov Model,隐马尔科夫模型)是一种用参数表示的用于描述随机过程统计特性的概率模型,是一个双重随机过程, 由两个部分组成:马尔可夫链和一般随机过程。 其中马尔可夫链用来描述状态的转移,用转移概率描述。一般随机过程用来描述状态与观察序列间的关系,用观察值概率描述。对于HMM模型,其的状态转换过程是不可观察的,因而称之为“隐”马尔可夫模型。

为什么要用HMM: 继续阅读

蛋白质的分类与注释资源

随着蛋白质数量的增加,对于这些蛋白质的分类与注释成为一个非常活跃的课题。这里将包含所有蛋白质序列的集合称为nr库,在nr库中,序列与序列的相似性是不均等的,当我们使用blast进行序列两两比对的时候,会发现有些序列有着较高的相似性,有些则完全不相同。我们将相似的序列分为一组,进行多重比对,然后再用不同的算法或者模型去剖析,对构建的多重比对序列进行注释,并以注释的结果为基础,对蛋白质进行分类。当有新的蛋白质出现的时候,再以这些算法为依据,对蛋白质进行注释或者分类。

下面是主要的数据库、工具以及基于的算法: 继续阅读