使用速铂Aspera下载NGS数据

关于速铂Aspera

速铂Aspera是一套商业的高速文件传输解决方案,随着高通量数据的大量产生,从而对于大文件快速传输的需求,开始应用到生物领域,目前NCBI、EBI的SRA库都提供这样的服务。

传统的FTP、HTTP等数据传输协议都是基于TCP的,TCP在远距离数据传输中存在一些先天的不足,文件越大、距离越远,其丢包、延时等问题对于传输速度的影响就越大。速铂Aspera通过应用了一个名为fasp™ 的底层技术,替换了传统的TCP传输协议。它彻底克服了TCP固有瓶颈,实现了在各种共享和私有网络环境中传输速度的最大化。这种技术可以获得完美的传输效率,不为网络延迟和丢包所限制。并且,用户享有对传输速度以及不同传输流之间带宽共享的无以伦比的控制。不管网络距离和动态性能如何,即便是在最困难的网络条件下(例如卫星,无线和洲际远程链接),文件传输时间仍然可以得到保障。FASP具有内置的,完整的安全性,包括连接节点安全验证,传输中数据加密以及数据完整性验证。与FTP传输相比快了3-184倍。它可以灵活地部署在C/S 或B/S构架的应用上,并利用普通的IP网络最大限度地利用带宽进行高效传输。同时,它也有着极好的跨平台性,支持几乎所有的主要操作系统。该软件同时也 包含一种文件接力技术,使得在传输大量极小文件时,其效率与传输单个大尺寸文件有着相同的效率与速度。

一句话,远距离,大文件,Aspera优势巨大。

客户端的下载与安装

即便Aspera是商业软件,但是作为客户应用方(相对于NCBI),我们使用其客户对进行数据的上传与下载是不用支付费用的。

  • Aspera Connect下载, 下载地址:http://www.asperasoft.com/downloads,根据不同的操作系统,下载相应的版本。注意下载的是Aspera Connect。Aspera Connect
  • 安装,windows下直接双击,下一步,安装,注意安装目录有别与常规软件,安装目录为C:\Users\[usename]\AppData\Local\Programs\Aspera\Aspera Connect。linux下
sh aspera-connect-xx-linux-64.sh

浏览器下使用Aspera下载SRA数据(win 7) 继续阅读

RNA-seq拼接结果数据提交NCBI

RNA-seq的拼接结果也可以向NCBI提交,第一次提交,还是费了不少事,这里简单总结一下。RNA-seq的拼接结果应该提交到TSA库,TSA全称Transcriptome Shotgun Assembly Sequence Database,TSA is an archive of computationally assembled sequences from primary data such as ESTs, traces and Next Generation Sequencing Technologies.

对于注释信息的要求

TSA数据提交前,首先需要将原始的序列提交到SRA数据库,与提交普通核酸、EST类似,TSA还需要提供DBlink关于BioProject、SRA接收号、BioSample;提供拼接信息以及对于拼接过程的描述。

对于序列的要求

  • 必须是原始的测序结果的拼接数据
  • 需要去除载体或者测序引物
  • 序列长度不能少于200bp
  • 序列不能包括太多的N,少于10%或者小于14个N 继续阅读