直系同源预测方法

直系同源的基因通常具有相似的生物学功能,所以我们在进行一个未知序列的功能的鉴定的时候,其实质在找功能已知的同源基因。功能基因组的研究过程中,对于两个或者多个物种的同源基因进行鉴定,是功能基因鉴定、比较基因组、功能基因分类、pathway预测等待的基础。

基因相似性、一致性与同源性

  • 同源性是序列同源或者不同源的一种论断,而一致性和相似性是一种描述序列相关性的量;
  • 如果两条序列有一个共同的进化祖先,那么他们就是同源的,不存在同源性的程度问题,要么同源,要么不同源;
  • 同源蛋白总是在三维结构上有显著的相似性;
  • 两条蛋白即使没有统计上显著的一致性,其也可能是同源的;
  • 两条蛋白质是否同源的最强的证据来自于结构研究和进化分析;
  • 一致性(identity)表示了两个序列相同的程度;
  • 两条序列的相似性百分比(percent similarity)是相等于相似匹配之和;
  • 一般的一致性比相似性更有用些,因为相似性的衡量依赖于如何定义两个氨基酸残基是如何相似的;
  • 双序列的比对是排列两条序列以达到最大程度相同的过程,其目的是衡量两个分子的相似性和同源的可能性;
    Continue reading

去除重复序列

对于基因组序列进行分析时,首要的事情就是去除重复序列,本文详细介绍重复序列的种类,标记重复序列的流程,使用的工具,以及总结目前网上的数据库、wiki文档资源。

重复序列的种类

  • Interspersed repeats 散落重复
    • Transposon (Transposable elements (TEs) )转座子
  • DNA transposon DNA转座子
    • MER1MER2, Mariners
    • TIR(Terminal Inverted Repeat) 末端方向重复
  • Genomic island
  • Continue reading

    构建批量基因结构域鉴定分析平台

    构建批量蛋白质结构域鉴定的分析平台,可以使用hmmscan(hmmer3)、hhsearch、InterProScan等,这里主要介绍hmmscan与hhsearch。

    hmmscan

    hmmscan是hmmer3的一个程序,关于hmmer3的安装请参看《hmmer的安装与使用》,其将输入的蛋白质序列与HMM结构域库进行比对,返回每个蛋白质包含的结构域。命令如下:

    hmmscan [options] <hmmdb> <seqfile>

    hmmdb为hmm结构域数据库,其实质为包含N个HMM模型的文件,经过hmmpress格式化后,就可以供hmmscan使用。hmmpress也是hmmer3下面的一个程序。seqfile为输入的蛋白质序列,默认为fasta格式。 Continue reading