blast+与blast的差异

很早就打算写一下blast+的差异,因为用的少了,所以草稿了很久,无意看到一篇介绍这方面的文章,写的挺好,就转载一下,作为补充了。

BLAST已经成为序列比对软件代名词,且其词性也已经开始变化,诸如BLASTing之类的词汇在各种论文中已是屡见不鲜,可见其影响之深,使用之广,如同分子生物学领域中的PCR。

自从1997年释出现有的BLAST版本后,这十多年来,BLAST经历了多次的升级,功能、性能一版比一版好,相应的其Source code也被修改的凌乱不堪,难于维护,极大的限制了对BLAST进一步 的修改、功能提升。再加上NCBI C++ Toolkit项目的开展,促使BLAST的维护者们决定从头开始,重新编写 BLAST代码。

2009年7月,NCBI发布了BLAST升级版——BLAST+,BLAST+使用了BLAST的核心算法,延 续了BLAST的优势功能,发展并增强了如BLAST的fastacmd程序,新增了如update_blastdb.pl等 程序。下面简单列举此次修改的主要内容: 继续阅读

SAM格式定义

SAM是一种序列比对格式标准, 由sanger制定,是以TAB为分割符的文本格式。主要应用于测序序列mapping到基因组上的结果表示,当然也可以表示任意的多重比对结果。

不同的软件,不同的时期,不同的研究方向,都会创建一种或者多种格式标准,当然根据当时的需要,创建符合需求的标准,也是最容易的事情,而反过来想要真正的理解标准,也必须理解为什么要创建这样的标准,解决什么样的需要。我前面的有篇文章已经对于现有的多重比对的格式进行总结,但其更多的站在比较基因组学的角度。当我们去了解sam标准格式是什么的时候,就要思考既然以及有了这么多得标准,为什么还要定义SAM标准,当然拿所有的格式进行比较也并非易事,但是简单的对比,就可以了解其中一二,比如aln格式,是比对视图化的展示,存储的信息不够结构化,无法方便的作为另外程序的输入;表示信息的有限性,如果100个多重比对序列放到一个文件中,查看维护就会非常困难;还有些格式标准挺强大,但是太繁琐,同时不够灵活。那么反过来就是SAM格式的优点,那么SAM如何做到这一点的呢? 继续阅读

直系同源预测方法

直系同源的基因通常具有相似的生物学功能,所以我们在进行一个未知序列的功能的鉴定的时候,其实质在找功能已知的同源基因。功能基因组的研究过程中,对于两个或者多个物种的同源基因进行鉴定,是功能基因鉴定、比较基因组、功能基因分类、pathway预测等待的基础。

基因相似性、一致性与同源性

  • 同源性是序列同源或者不同源的一种论断,而一致性和相似性是一种描述序列相关性的量;
  • 如果两条序列有一个共同的进化祖先,那么他们就是同源的,不存在同源性的程度问题,要么同源,要么不同源;
  • 同源蛋白总是在三维结构上有显著的相似性;
  • 两条蛋白即使没有统计上显著的一致性,其也可能是同源的;
  • 两条蛋白质是否同源的最强的证据来自于结构研究和进化分析;
  • 一致性(identity)表示了两个序列相同的程度;
  • 两条序列的相似性百分比(percent similarity)是相等于相似匹配之和;
  • 一般的一致性比相似性更有用些,因为相似性的衡量依赖于如何定义两个氨基酸残基是如何相似的;
  • 双序列的比对是排列两条序列以达到最大程度相同的过程,其目的是衡量两个分子的相似性和同源的可能性;
    继续阅读

序列、序列比对需要弄明白的关键概念

概念,有些你看着知道,其实让你说,又说不出多少;有些你以为自己知道,但你不知道自己仅仅了解了其中的一部分。许多概念,虽说只是一个词,但是其背后是一个专业的领域模型,每一个概念在不同的环境有着不同的故事,看见过许多解释,但是每次都不一样,而每一次的辨析与反思后,发现自己曾经的薄浅。下面是暂时收集的列表,包括英文给出的定义,以及我个人的理解。

Domain保守域
Conserved structural entities with distinctive secondary structure content and an hydrophobic core. In small disulphide-rich and Zn2+-binding or Ca2+– binding domains the hydrophobic core may be provided by cystines and metal ions, respectively. Homologous domains with common functions usually show sequence similarities.
结构域(structure domain)是在蛋白质三级结构中介于二级和三级结构之间的可以明显区分但又相对独立的折叠单元,每个结构域自身形成紧实的三维结构,可以独立存在或折叠,但结构域与结构域之间关系较为松散。
结构功能域通常由25~300个氨基酸残基组成,不同蛋白质分子中结构域的数目不同,同一个蛋白质分子中的几个结构域彼此相似或者不尽相同。结构域是蛋白质的功能、结构和进化单位,结构功能域分析对于蛋白质结构的分类和预测有着重要的作用。 继续阅读

Blastz安装与使用说明

安装(linux)

Blastz是由C写的,源代码可以从这里下载,解压后,make一下就可以使用了。

 $ wget http://www.bx.psu.edu/miller_lab/dist/blastz-2004-12-27.tar.gz
 $ tar -zxvf blastz-2004-12-27.tar.gz
 $ cd blastz-source/
 $ make
cc -O bz_main.c bz_align.c bz_extend.c bz_chain.c bz_dna.c bz_print.c bz_table.c bz_census.c bz_hit19.c bz_inner.c util.c seq.c args.c edit.c dna.c charvec.c nib.c astack.c \
          \
         -lm \
         -o blastz
 $ ls
blastz编译后文件列表