使用速铂Aspera下载NGS数据

关于速铂Aspera

速铂Aspera是一套商业的高速文件传输解决方案,随着高通量数据的大量产生,从而对于大文件快速传输的需求,开始应用到生物领域,目前NCBI、EBI的SRA库都提供这样的服务。

传统的FTP、HTTP等数据传输协议都是基于TCP的,TCP在远距离数据传输中存在一些先天的不足,文件越大、距离越远,其丢包、延时等问题对于传输速度的影响就越大。速铂Aspera通过应用了一个名为fasp™ 的底层技术,替换了传统的TCP传输协议。它彻底克服了TCP固有瓶颈,实现了在各种共享和私有网络环境中传输速度的最大化。这种技术可以获得完美的传输效率,不为网络延迟和丢包所限制。并且,用户享有对传输速度以及不同传输流之间带宽共享的无以伦比的控制。不管网络距离和动态性能如何,即便是在最困难的网络条件下(例如卫星,无线和洲际远程链接),文件传输时间仍然可以得到保障。FASP具有内置的,完整的安全性,包括连接节点安全验证,传输中数据加密以及数据完整性验证。与FTP传输相比快了3-184倍。它可以灵活地部署在C/S 或B/S构架的应用上,并利用普通的IP网络最大限度地利用带宽进行高效传输。同时,它也有着极好的跨平台性,支持几乎所有的主要操作系统。该软件同时也 包含一种文件接力技术,使得在传输大量极小文件时,其效率与传输单个大尺寸文件有着相同的效率与速度。

一句话,远距离,大文件,Aspera优势巨大。

客户端的下载与安装

即便Aspera是商业软件,但是作为客户应用方(相对于NCBI),我们使用其客户对进行数据的上传与下载是不用支付费用的。

  • Aspera Connect下载, 下载地址:http://www.asperasoft.com/downloads,根据不同的操作系统,下载相应的版本。注意下载的是Aspera Connect。Aspera Connect
  • 安装,windows下直接双击,下一步,安装,注意安装目录有别与常规软件,安装目录为C:\Users\[usename]\AppData\Local\Programs\Aspera\Aspera Connect。linux下
sh aspera-connect-xx-linux-64.sh

浏览器下使用Aspera下载SRA数据(win 7) Continue reading

文章来源数据拼接的一下实践

进来发现许多文章随之发表的都是其原始的二代测序的结果,很少将拼接好的序列一并发布,当然做可能有许多原因,比如编辑没有要求、拼接结果是此生数据、或者增加了工作量等等,所以需要用数据,还得拼一把,当然也是好事,可以用新的方法和文章中的处理方法进行比较,可以对于结果有一个验证。许多时候,我们自己的测序的拼接结果都是公司一起做的,我们拿到的就是拼接好的结果。而又或者对于自己的测序数据各方面了解的都非常清楚,完全下载的数据,如何进行拼接,需要注意什么样的问题,如何进行结果的比较,这里进行一些总结。以一篇以测序数据拼接与数据分析为主题的文章为例(Illumina RNA-seq测序),从NCBI SRA下载数据对其进行拼接,使用的拼接软件是velvet。

Continue reading

主流的生物信息数据库模型

什么是数据库,相关的概念

数据库充斥着生物信息的每个角落,要数清楚这个主题,首先要解释一下,在不同场合下“数据库”的不同含义,主要包含4个方面:

数据库管理系统

数据库管理系统(Database management systems , DBMSs)是管理数据的软件系统,比如Oracle、MySQL、PostgreSQL、Sybase、DB2、MS SQL等等,其是数据库的容器,是管理数据库综合软件系统。

数据库模式(Database Schema)

数据库模式指特定数据库的设计,也就是其内容的组织方式,就关系型数据库来说,就是其表、表中的列,以及表之间关系的设计。其可以在不同的数据库管理系统中实现,可以重复使用,构建不同的数据库应用。

基于数据库的网站(Database Web Site)

常被我称为数据库信息系统,其后台以数据库作为支撑,所有信息都存储在数据库中,通过网页提供访问接口,实现对信息的查询管理,构成一个容易交互的信息系统。生物信息领域内常见的如s FlyBase (http://flybase.org) ,ParameciumDB (http://paramecium.cgm.cnrs-gif.fr)等。常说的生物信息数据库资源,也通常指的是该类别的数据库。 Continue reading

GBrowse的介绍与安装

什么是GBrowse?

  • The Generic Genome Browser (GBrowse) is a genome viewer.
  • GBrowse是个开源的基因组浏览器;
  • 是一个图形化展示基因组数据;
  • Ensemble、UCSC Genome Browser、mapviewer等同属一类,但其目的是开源工具本身,注重工具的易用性,可配置性,文档等,如果你也想展示自己的数据,GBrowse是最好的选择。包括数据的制备、多种数据库的支持、灵活而强大的配置语法、可以定制的插件库、完善的文档教程等等;
  • wiki: http://gmod.org/wiki/Gbrowse

GBrowse的安装

下面是基于技术构建对于GBrowse的描述

  • 是基于perl、bioperl的
  • 是基于B/S架构的web系统
  • linux、apache、mysql使其最理想的环境
  • 目前2.0版本还不太稳定

所以其安装,可以分为以下三个部分: Continue reading

比较认可的生物信息学定义与分类

最近在读《结构生物信息学》,补充以及对于分子结构预测方面多些了解,其前言中,关于生物信息学的定义与分类,给我很深的印象,或者说形成了很强的共鸣,许多次交流,我都引用了其观点,但是意思好像没有完全说明白。这里就将其摘录下来。在给别人介绍起来,我是做什么的,就可以说,是做生物信息应用的,我的博客主题也是这个方面——应用。 Continue reading

生物信息学与linux

讲到生物信息学的时候,时常会关联到linux,那么作为以生物学研究为主要目的,对于生物信息学分析同时有较多需求的科研人员如何来认识和学习linux,结合自己的经历,谈一下感受。

为什么要使用linux?

我想不外乎3个原因:

  1. 、因为linux系统是使用C写,所以本身集成了C的编译使用环境,而很多生物信息学的软件都是使用c写的,发行的C源代码包,需要编译安装后才能使用;
  2. linux稳定,是作为web、数据库服务器的首要选择
  3. linux系统本身是开源的

其实关键是第一点,但是比较成熟的软件都windows版本,或者都有web服务,除非有非常明确的需要,比如某个软件没有替代软件,而且只有在linux下使用,那么就找个机器安装个linux就可以了,我的意思是没有必要为了linux而linux,似乎只有学好linux才能做好生物信息学分析。

目前linux下有哪些系统,如何选择?

ubuntu http://www.ubuntu.com/
其图形界面做的非常漂亮,安装使用方便,文档丰富,使用的人数众多,社区比较多,遇到问题容易找到答案。

服务器级
Redhat Enterprise Linux v5.4
或者安装ubuntu server

生物信息专业的系统gentoo
http://www.gentoo.org/
集成了大量的生物信息学分析环境,但是需要熟手才能安装使用起来。

服务器与个人桌面系统的区别
服务器: 长时间运行,多用户通过客户端使用
个人桌面:方便操作,支持文档、多媒体,界面友好

应该将主要尽力放在实验流程的设计上

想要什么样的结果,如果可以将结果描绘清楚,基本上可以说已经事半功倍了,一些较为难得分析流程可以请专业的生物信息人员代为分析,或者交给生物信息分析的公司代为分析。

明确主题与人员招聘

鉴于对未来规划的明确——做生物信息数据库系统的开发,博耘生物的主题也将进一步明确,基本以此为中心。

随着二代测序技术的发展,测序越来越便宜,越来越多的实验室将自己的样本送出去测序,实验室也开始积累出自己特有的数据,这些数据虽然进行了处理和初步的分析,但是要更为灵活的应用起来,比如找出某个基因,比如不同处理的统计分析,比如不同实验室的有限共享,比如数据的注释与展示,面临很多的困难。提供数据的存储与共享,与常用的分析工具进行绑定而建立的分析平台、展示平台的生物信息数据库系统是解决这一困境的唯一手段。测序多了,数据多了,对于信息系统的需求也多了。以后的主要重点就是专业做生物信息数据库系统的开发。

系统的开发的平台:

Mysql + {PHP | Perl(bioperl)} + linux

整合的工具包括:

  • GBrowse
  • blast
  • Blat
  • hmmer
  • ….

也可以根据用户需要定制。

。。。

最新NCBI BLAST结果报告解读

写在解读报告之前的,首先就使用Blast最终的目的是什么达成一致,Blast是通过两两比对,找到数据库中与输入序列最相似的序列,或者说是最相似的序列片段。那么我们看比对结果就是看Blast从数据库中找到哪些相似的序列,然后就是如何相似,这些相似又可以告诉我们哪些信息等。当然Blast可以衍生出许多的用途,但都是建立在找到相似性序列(片段)的基础上的。

最新的BLAST结果报告解读,本文以BLASTP为例子,说明如何来解读BLAST结果。 Continue reading

《核酸研究》在线分子生物学数据库索引

《核酸研究(Nucleic Acids Research)》搜集其上发表的或者其他杂志上发表的关于数据库的文章,建立的数据库索引。并且建立了一个分类系统,将这些数据库资源进行分类。建立的资源大多会发文章,而能发表在《核酸研究》上的数据库资源其质量还是有一定的保证的。

访问地址:http://nar.oxfordjournals.org Continue reading