blast+与blast的差异

很早就打算写一下blast+的差异,因为用的少了,所以草稿了很久,无意看到一篇介绍这方面的文章,写的挺好,就转载一下,作为补充了。

BLAST已经成为序列比对软件代名词,且其词性也已经开始变化,诸如BLASTing之类的词汇在各种论文中已是屡见不鲜,可见其影响之深,使用之广,如同分子生物学领域中的PCR。

自从1997年释出现有的BLAST版本后,这十多年来,BLAST经历了多次的升级,功能、性能一版比一版好,相应的其Source code也被修改的凌乱不堪,难于维护,极大的限制了对BLAST进一步 的修改、功能提升。再加上NCBI C++ Toolkit项目的开展,促使BLAST的维护者们决定从头开始,重新编写 BLAST代码。

2009年7月,NCBI发布了BLAST升级版——BLAST+,BLAST+使用了BLAST的核心算法,延 续了BLAST的优势功能,发展并增强了如BLAST的fastacmd程序,新增了如update_blastdb.pl等 程序。下面简单列举此次修改的主要内容: Continue reading

使用速铂Aspera下载NGS数据

关于速铂Aspera

速铂Aspera是一套商业的高速文件传输解决方案,随着高通量数据的大量产生,从而对于大文件快速传输的需求,开始应用到生物领域,目前NCBI、EBI的SRA库都提供这样的服务。

传统的FTP、HTTP等数据传输协议都是基于TCP的,TCP在远距离数据传输中存在一些先天的不足,文件越大、距离越远,其丢包、延时等问题对于传输速度的影响就越大。速铂Aspera通过应用了一个名为fasp™ 的底层技术,替换了传统的TCP传输协议。它彻底克服了TCP固有瓶颈,实现了在各种共享和私有网络环境中传输速度的最大化。这种技术可以获得完美的传输效率,不为网络延迟和丢包所限制。并且,用户享有对传输速度以及不同传输流之间带宽共享的无以伦比的控制。不管网络距离和动态性能如何,即便是在最困难的网络条件下(例如卫星,无线和洲际远程链接),文件传输时间仍然可以得到保障。FASP具有内置的,完整的安全性,包括连接节点安全验证,传输中数据加密以及数据完整性验证。与FTP传输相比快了3-184倍。它可以灵活地部署在C/S 或B/S构架的应用上,并利用普通的IP网络最大限度地利用带宽进行高效传输。同时,它也有着极好的跨平台性,支持几乎所有的主要操作系统。该软件同时也 包含一种文件接力技术,使得在传输大量极小文件时,其效率与传输单个大尺寸文件有着相同的效率与速度。

一句话,远距离,大文件,Aspera优势巨大。

客户端的下载与安装

即便Aspera是商业软件,但是作为客户应用方(相对于NCBI),我们使用其客户对进行数据的上传与下载是不用支付费用的。

  • Aspera Connect下载, 下载地址:http://www.asperasoft.com/downloads,根据不同的操作系统,下载相应的版本。注意下载的是Aspera Connect。Aspera Connect
  • 安装,windows下直接双击,下一步,安装,注意安装目录有别与常规软件,安装目录为C:\Users\[usename]\AppData\Local\Programs\Aspera\Aspera Connect。linux下
sh aspera-connect-xx-linux-64.sh

浏览器下使用Aspera下载SRA数据(win 7) Continue reading

二代测序数据预处理与分析

Next generation sequencing (NGS)

主要的测序技术及其产生数据的差异

常使用的工具列表

  • 质量控制Quality Control:FastQC、Fastx-toolkit
  • 拼接Aligner:BWA,Bowtie, Tophat, SOAP2
  • Mapper:Tophat, Cufflinks
  • 基因定量 Gene Quantification: Cufflinks, Avadis NGS
  • 质量改进 Quality improvement: Genome Analysis Toolkit(GATK)
  • SNP: Unified Genotyper,Glfmultiple, SAMtools, Avadis NGS
  • CNV: CNVnator
  • Indel: Pindel, Dindel, Unified Genotyper, Avadis NGS
  • Mapping to a gene: Cufflinks, Rsamtools, Genomic Features

Continue reading

KEGG Pathway数据结构

实体关系图

KEGG实体关系图

实体

名称 定义
Pathway specifies graph information stored in the KEGG pathway map 代谢通路图 path:ko00010
Entry The entry element contains information about a node of the pathway. 节点信息
Component a subelement of the entry element, and is used when the entry element is a complex node; namely, when the type attribute value of the entry element is “group”. 组件,一个复杂的节点,比如节点为Group类型时,包含的节点,可以存放到组件中
Graphics a subelement of the entry element, specifying drawing information about the graphics object. 节点在图位信息
Relation relationship between two proteins (gene products) or two KOs (ortholog groups) or protein and compound, which is indicated by an arrow or a line connecting two nodes in the KEGG pathways. 节点之间的关系
Subtype more detailed information about the nature of the interaction or the relation. 节点之间关系的更详细信息
Reaction chemical reaction between a substrate and a product indicated by an arrow connecting two circles in the KEGG pathways. 在KEGG通路中,用两个圆圈加箭头表示底物与产物之间的化学反应。 rn:(accession)rn:R02749
Substrate the substrate node of this reaction. 反应的底物 cpd:(accession)
gl:(accession)
Product the product node of this reaction. 产物 cpd:(accession)
gl:(accession)
Alt the alternative name of its parent element. 别名 cpd:(accession)
gl:(accession)

Continue reading

转换GFF工具–大汇总

汇总,将各种格式转换为GFF格式的脚本。这些脚本分散在不同的软件包中,可以根据需要下载使用。

bioPerl

  • search2gff              This script will turn a protein Search report (BLASTP, FASTP, SSEARCH, AXT, WABA) into a GFF File.
  • genbank2gff3.pl       — Genbank->gbrowse-friendly GFF3
  • gff2ps                    This script provides GFF to postscript handling. Continue reading

构建批量基因结构域鉴定分析平台

构建批量蛋白质结构域鉴定的分析平台,可以使用hmmscan(hmmer3)、hhsearch、InterProScan等,这里主要介绍hmmscan与hhsearch。

hmmscan

hmmscan是hmmer3的一个程序,关于hmmer3的安装请参看《hmmer的安装与使用》,其将输入的蛋白质序列与HMM结构域库进行比对,返回每个蛋白质包含的结构域。命令如下:

hmmscan [options] <hmmdb> <seqfile>

hmmdb为hmm结构域数据库,其实质为包含N个HMM模型的文件,经过hmmpress格式化后,就可以供hmmscan使用。hmmpress也是hmmer3下面的一个程序。seqfile为输入的蛋白质序列,默认为fasta格式。 Continue reading

蛋白质的分类与注释资源

随着蛋白质数量的增加,对于这些蛋白质的分类与注释成为一个非常活跃的课题。这里将包含所有蛋白质序列的集合称为nr库,在nr库中,序列与序列的相似性是不均等的,当我们使用blast进行序列两两比对的时候,会发现有些序列有着较高的相似性,有些则完全不相同。我们将相似的序列分为一组,进行多重比对,然后再用不同的算法或者模型去剖析,对构建的多重比对序列进行注释,并以注释的结果为基础,对蛋白质进行分类。当有新的蛋白质出现的时候,再以这些算法为依据,对蛋白质进行注释或者分类。

下面是主要的数据库、工具以及基于的算法: Continue reading

Blastz安装与使用说明

安装(linux)

Blastz是由C写的,源代码可以从这里下载,解压后,make一下就可以使用了。

 $ wget http://www.bx.psu.edu/miller_lab/dist/blastz-2004-12-27.tar.gz
 $ tar -zxvf blastz-2004-12-27.tar.gz
 $ cd blastz-source/
 $ make
cc -O bz_main.c bz_align.c bz_extend.c bz_chain.c bz_dna.c bz_print.c bz_table.c bz_census.c bz_hit19.c bz_inner.c util.c seq.c args.c edit.c dna.c charvec.c nib.c astack.c \
          \
         -lm \
         -o blastz
 $ ls
blastz编译后文件列表

UCSC genome browser tutorial

UCSC Genome Bioinformatics Group, Center for Biomolecular Science and Engineering, University of California Santa Cruz, Santa Cruz, CA 95064, USA. ann@soe.ucsc.edu

The University of California Santa Cruz (UCSC) Genome Bioinformatics website consists of a suite of free, open-source, on-line tools that can be used to browse, analyze, and query genomic data. These tools are available to anyone who has an Internet browser and an interest in genomics. The website provides a quick and easy-to-use visual display of genomic data. It places annotation tracks beneath genome coordinate positions, allowing rapid visual correlation of different types of information. Many of the annotation tracks are submitted by scientists worldwide; the others are computed by the UCSC Genome Bioinformatics group from publicly available sequence data. It also allows users to upload and display their own experimental results or annotation sets by creating a custom track. The suite of tools, downloadable data files, and links to documentation and other information can be found at http://genome.ucsc.edu/ . Continue reading

JBrowse: A next-generation genome browser.

We describe an open source, portable, JavaScript-based genome browser, JBrowse, that can be used to navigate genome annotations over the web. JBrowse helps preserve the user’s sense of location by avoiding discontinuous transitions, instead offering smoothly-animated panning, zooming, navigation and track selection. Unlike most existing genome browsers, where the genome is rendered into images on the webserver and the role of the client is restricted to displaying those images, JBrowse distributes work between the server and client and therefore uses significantly less server overhead than previous genome browsers. We report benchmark results empirically comparing server- and client-side rendering strategies, review the architecture and design considerations of JBrowse, and describe a simple wiki plugin that allows users to upload and share annotation tracks. Continue reading