构建批量基因结构域鉴定分析平台

构建批量蛋白质结构域鉴定的分析平台,可以使用hmmscan(hmmer3)、hhsearch、InterProScan等,这里主要介绍hmmscan与hhsearch。

hmmscan

hmmscan是hmmer3的一个程序,关于hmmer3的安装请参看《hmmer的安装与使用》,其将输入的蛋白质序列与HMM结构域库进行比对,返回每个蛋白质包含的结构域。命令如下:

hmmscan [options] <hmmdb> <seqfile>

hmmdb为hmm结构域数据库,其实质为包含N个HMM模型的文件,经过hmmpress格式化后,就可以供hmmscan使用。hmmpress也是hmmer3下面的一个程序。seqfile为输入的蛋白质序列,默认为fasta格式。

hmmscan还有很多参数可供使用,包括控制输出的参数,比如-o, 将比对结果输出到指定文件,通过指定E-value, bit score控制搜索结果,–cpu指定使用的cpu数目,–qformat指定输入蛋白质序列的格式等,可以使用-h参数参看参数帮助说明。

hmmscan

hhsearch

hhsearch是基于HMM-HMM comparison算法实现的,鉴定蛋白质包含的结构域的命令行软件包,在linux、windows下都有相应的软件包发布。其在线版的名称为HHpred。其首先根据输入的蛋白质序列构建hmm模型,再用这个模型与库中的hmm模型进行比对。

HHsearch is a software suite for detecting remote homologues of proteins and generating highquality alignments for homology modeling and function prediction.

hhsearch构建的hmm模型格式为hhm格式,要注意与hmmer中hmm格式的区别。

下载地址:ftp://ftp.tuebingen.mpg.de/pub/protevo/HHsearch/

程序包括:

  • hhmake 通过多重比对序列构建HMM模型
  • hhsearch 执行数据库搜索
  • hhalign 比对两个HMMs模型或者多重比对序列MSAs
  • hhfilter 过滤多重比对序列,Filter MSA by maximum sequence identity, coverage, etc.
  • 还有一组pl脚本,供格式转换等数据处理使用。

可以通过FTP下载许多供搜索的数据库,包括:

1* pdb70 {c) J. S\”oding, based on PDB, updated weekly
2* scop70 (c) J. S\”oding, based on SCOP, updated with SCOP
3* PfamA \url{http://www.sanger.ac.uk/Software/Pfam/}
4* SMART \url{http://smart.embl-heidelberg.de/}, downloaded from NCBI site
5* PfamB based on ProDom, downloaded from Pfam site
6* COG \url{http://www.ncbi.nlm.nih.gov/COG/new/}
7* KOG \url{http://www.ncbi.nlm.nih.gov/COG/new}
8* CD/NCBI \url{http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml}
9 Panther \url{http://www.pantherdb.org/}, from InterPro
10 TIGRFAMs \url{http://tigrblast.tigr.org/web-hmm}/, from InterPro
11 PIRSF \url{http://pir.georgetown.edu/pirsf}/, from InterPro
12 Superfamily \url{http://supfam.mrc-lmb.cam.ac.uk/SUPERFAMILY/}, from InterPro
13 CATH/Gene3D \url{http://cathwww.biochem.ucl.ac.uk/latest/}, from InterPro

大致处理流程就是首先将下载的文件进行格式转换,如果是多重比对序列,使用hhmake构建hhm格式的hmm模型,将这个模型放到一个文件中,就可以使用hhsearch进行搜索了。

> cd scop70_1.72pre
> tar -xzvf scop70_1.72pre.hhm.tar.gz

> cat *.hhm > scop70_1.72pre.hhm

> ./hhsearch -i d1hxn__.a3m -d scop70_1.72pre.hhm

相关命令的参数,以及搜索原理、结果解读请参考软件包中的pdf格式的帮助文件。

注意,对于单个蛋白质序列的分析可以使用在线的分析平台:

 

构建批量基因结构域鉴定分析平台》上有4条评论

  1. 您好,我想了解更多关于批量蛋白特定结构域预测的方法,有什么好的方法推荐吗?HHpred在线软件如何实现批量预测呐?或者恳请加微信更方便maliaichiyu,非常感谢!

发表评论

电子邮件地址不会被公开。 必填项已用*标注

请启用Javascript,以完成验证!