蛋白质的分类与注释资源

随着蛋白质数量的增加,对于这些蛋白质的分类与注释成为一个非常活跃的课题。这里将包含所有蛋白质序列的集合称为nr库,在nr库中,序列与序列的相似性是不均等的,当我们使用blast进行序列两两比对的时候,会发现有些序列有着较高的相似性,有些则完全不相同。我们将相似的序列分为一组,进行多重比对,然后再用不同的算法或者模型去剖析,对构建的多重比对序列进行注释,并以注释的结果为基础,对蛋白质进行分类。当有新的蛋白质出现的时候,再以这些算法为依据,对蛋白质进行注释或者分类。

下面是主要的数据库、工具以及基于的算法: 继续阅读

多重比对序列的格式及其应用

这里对多重序列比对格式(Multiple sequence alignment – MSA)进行总结。在做系统演化分析、序列功能分析、基因预测等,都需要涉及到多重序列比对。特别是当需要用不同软件对多重比对序列进行批量操作时,会遇到各种的格式,而这些格式是如何产生的,有什么区别,格式之间如何转换,从哪里可以下载到相关的格式序列,不同的格式又有什么特殊的用途等,本篇文章将就这些问题进行总结与讨论。因为涉及内容较多,不足之处,欢迎大家补充或者批判。

生物信息学的基础是基于这样的一个假设:序列相似,结构相似,功能相似。所以相似的一组序列,就可能同属于一个基因家族,而这样的一组序列相似的部分,就可能使其功能之所在,称其为结构域。这是对于基因家族分类的一种方式,将结构与功能进行联系,从而实现从结构预测功能(序列称为一级结构)。

多重序列数据分析流程
继续阅读

利用ClusterW2构建多重比对的web服务3:Jalview查看结果

多重比对的结果的可视化(以不同的颜色区分等)、多重比对结果的编辑等,是多重比对服务中另一个重要的需求,可以帮助用户更好的分辨序列的变异,多重比对结果的微调等,桌面软件中BioEdit在这方面做的非常不错,那么页面上有没有这样的应用呢,这里就要隆重的推出Jalview。

“alview is a multiple alignment editor written in Java. It is used widely in a variety of web pages (e.g. the EBI Clustalw server and the Pfam protein domain database) but is available as a general purpose alignment editor.”

JalView是用java开发的多重比对编辑器,被广泛应用于各种页面,比如EBI的Clustalw服务器、Pfam蛋白质结构域数据库等。

主页:http://www.jalview.org/

支持:Fasta, PFAM, MSF, Clustal, BLC, PIR 等多种格式。

下载:

安装:

深入应用:

  • Viewing 观看
    • Reads and writes alignments in a variety of formats (Fasta, PFAM, MSF, Clustal, BLC, PIR)
    • Save alignments and associated trees in Jalview XML format.
  • Editing 编辑
    • Gaps can be inserted/deleted using the mouse or keyboard. Simple instructions…
    • Group editing (insertion deletion of gaps in groups of sequences).
    • Removal of gapped columns.
  • Analysis 分析
    • Align sequences using Web Services (Clustal, Muscle…)
    • Amino acid conservation analysis similar to that of AMAS.
    • Alignment sorting options (by name, tree order, percent identity, group).
    • UPGMA and NJ trees calculated and drawn based on percent identity distances.
    • Sequence clustering using principal component analysis.
    • Removal of redundant sequences.
    • Smith Waterman pairwise alignment of selected sequences.
  • Annotation注释
    • Use web based secondary structure prediction programs (JNet).
    • User predefined or custom colour schemes to colour alignments or groups.
    • Sequence feature retrieval and display on the alignment.
  • Publishing发布
    • Print your alignment with colours and annotations.打印
    • Create HTML pages.创建HTML
    • Output alignment as portable network graphics image (PNG).输出为PNG
    • Output alignment as encapsulated postscript file (EPS).

利用ClusterW2构建多重比对的web服务:如何实现批量比对

ClusterW是最长用的一个多重比对工具,如何利用ClusterW构建一个多重比对的Web 服务,遇到的第二个问题就是如何根据用户的选择现实批量比对。我一直在琢磨着这件事情,时不时搜索一番,始终没有一个好的方案,却看到网上有很多这样的服务,却不开放源代码。这一次终于醒悟了,ClusterW提供了很多的参数,本来就可以实现,我却一直认为其只能交互式的使用,原来就在眼前,我却在苦苦寻找。

哦,为什么要建立web服务,有这么几点考虑: 继续阅读

linux:ClusterW2的编译与安装

ClusterW是最长用的一个多重比对工具,如何利用ClusterW构建一个多重比对的Web 服务,那么首要的问题就是软件在不同linux版本下的安装,这就是这篇文章的出发点。不但版本不一样,拥有的权限也不一样,所以需要了解详细的安装方法。

编译环境

linux或者Unix,windows下可以使用cygwin,需要有C++编译环境,GCC>=4.2

下载

http://www.ebi.ac.uk/Tools/clustalw2/index.html 继续阅读