生物信息云分析平台常见问题

生物信息云分析平台是什么?

  • 生物信息云平台是基于阿里云服务器ECS构建的, ECS 是一个虚拟的计算环境,包含 CPU、内存等最基础的计算组件,是云服务器呈献给每个用户的实际操作实体;
  • Linux系统 + 开发运行环境 + 分析应用软件 + 数据(库);
  • 用户只需要通过WEB登录系统,何时何地自由访问;
  • 相当于您有了自己的一台服务器,综合您的数据,您的分析环境,但是却不用担心系统维护升级、软件安装、数据维护;
  • 技能培训,丰富的文档,用户交流、知识分享、疑问解答的社区;

Continue reading

生物信息云分析平台

建立于阿里云服务器ECS之上,置身于您的研究方向您的数据,建立自己实验室的科研平台,实现信息管理,数据分析,展示共享。

私人定制

自己的数据,自己的主题,自己的分析平台,实验室测序有了很多自己的数据,有自己明确的研究方法,并想以此为方向开展更多的工作,而大的公用的数据分析平台,使用起来很麻烦,而想做一些本地化的分析,会遇到很多的问题,举步维艰 Continue reading

高通量测序结果报告系统常见问题

  • 基因组测序,转录组测序的数据分析可以同时使用这个报告系统吗?

不同的样本,不同的研究基础,同样的测序,数据分析差异较大,报告也不同,系统设计时已经充分考虑了这样的情况,将每个分析拆分为不同的任务,每个 任务可以根据分析的内容,报告的形式,定义多个模版,然后根据分析任务订制项目模版,项目相当于一个产品,或者可以为一个产品线设计一系列的项目模版。 NGS报告系统是一个框架,可以灵活的订制任意风格的报告,就比如提供了一套画板,画笔以及可以临摹的模版。 Continue reading

如何鉴定rRNA

核糖体RNA,与蛋白质结合而形成核糖体,其功能是作为mRNA的支架,使mRNA分子在其上展开,形成肽链的合成。
rRNA占RNA总量的82%左右
原核生物的rRNA分三类:5SrRNA、16SrRNA和23SrRNA。
真核生物的rRNA分四类:5SrRNA、5.8SrRNA、18SrRNA和28SrRNA
人基因组的四种rRNA基因中, 18S、5.8S和28S rRNA基因是串联在一起的,每个基因被间隔区隔开, 5S的rRNA基因则是编码在另一条染色体上
Image
Image

Continue reading

高通量测序结果报告系统-专注于提高测序数据分析效率

高通量测序结果报告系统聚焦于项目的实施与交付,从项目合同签订后,明确项目范围,明确任务,明确关系人。该系统的目的是提高项目交付的效率,缩短项目交 付时间,增加用户满意度。规范化,可视化项目流程,标准化、自动化、固定化一系列任务,实现项目报告自动化生成,形成新型的与客户的关系。

提高项目实施效率

  • 项目进展的可视化,可跟踪,项目的可控性;
  • 流程化,标准化,自动化,相辅相成;
  • 将分析人员从琐碎的事情中解放出来,维护流程,优化流程;
  • 知识传承与共享,同类问题,分秒解决;
  • 改善人机交互环境,更多的事情交给计算机完成,提升资源利用率
  • 可度量性,容易发现流程的短板,暴露问题,解决问题
  • 人员利用率,人员重叠,任务明确,遇到问题有章可循
  • 管理,绩效度量

提高客户满意度

  • 项目状态在线查询,客户可以实时查看项目的进展,查看阶段性报告
  • 工单管理系统,客户问题直接和分析人员的交互,及时发现问题,及时解决问题,搭建沟通桥梁
  • 数据分析的标准化,严格的质控,实时的审核,保证数据的准确性
  • 数据报告的标准化,格式化,提升公司形象
  • 缩短项目的交付时间,时间就是金钱
  • 用户的参与与决策,分析的针对性、个性化,提升数据的价值,不再只是漂亮的图表

from:http://biolinevo.com/report

CummeRbund的安装与使用(for linux)

Exploration, analysis and visualization of Cufflinks high-throughput RNA-Seq data

CummeRbund is an R package that is designed to aid and simplify the task of analyzing Cufflinks RNA-Seq output.

CummeRbund是针对Cufflinks RNA-Seq输出结果分析与可视化开发的R包,极大的简化了后续的分析。

RNA高通量测序已经得到广泛的应用,比如转录组拼接、qantitation、以及差异表达分析。这些数据分析的结果往往数据量大、数据种类多样,差异巨大,而CummeRbund设计的目的就是为了帮助简化这些分析。

High-throughput sequencing of RNA-fragments is a powerful technique that has many applications, including but not limited to transcript assembly, qantitation, and differential expression analysis. The results of these analyses is often very large data sets with a high degree of relations between various data types and can be somewhat overwhelming. CummeRbund was designed to help simplify the analysis and exploration portion of RNA-Seq data derrived from the output of a differential expression analysis using cuffdiff with the goal of providing fast and intuitive access to your results.

CummeRbund takes the various output files from a cuffdiff run and creates a SQLite database of the results describing appropriate relationships betweeen genes, transcripts, transcription start sites, and CDS regions. Once stored and indexed, data for these features, even across multiple samples or conditions, can be retrieved very efficiently and allows the user to explore subfeatures of individual genes, or genesets as the analysis requires. We have implemented numerous plotting functions as well for commonly used visualizations. Check back often as we are constantly updating features.

CummeRbund创建了一个SQLite数据库,将cuffdiff运行产生的结果都存储到数据库中,将genes、transcripts、transcription start sites、以及CDS建立关联。将这些数据存储到数据库中,并建立相关的索引,就可以很容易的对多个样本之间或者其他条件的数据进行查询检索,允许用户对于单个或者一组基因的各种feature进行比较分析。同时还提供了诸多的绘图函数,可以满足一般的数据可视化需要。 Continue reading

一个乱码引发的学案

php开发的系统中,在对用户填写的tag做切分时,一个单词【表格】出现了乱码,其他都正常。借着这段时间对于字符的深究,抽时间研究了这个问题,最后却牵扯到很多东西——PHP对于Unicode支持,及其相关字符处理的问题。

出现乱码,肯定是字符处理过程中出现了问题,跟踪后,发现问题出在trim这个步骤。

$tags_str=trim($tags_str,",,;; \n\t\r");

本意是去除标签字符串后面的标点符号及其换行、空白,但是遇到“表格”就出现问题了。用到的字符编码是UTF-8

E8A1A8 E6A0BC
, 2C ,全角 EFBC8C
; 3b ;全角 EFBC9B

又到PHP文档上查了下对于函数的介绍,算是明白了。PHP许多核心字符函数,都只是针对ASCII,单字节编码的字符(0x00~0x7f),如果使用这些函数去操作多字节字符,就会遇到问题,比如trim,按照单字节去操作,就会将0xBC裁掉,“表格”编码不全,自然也就乱码。同样strlen得到的长度也是字节的长度,对于UTF-8来说,就不是字符数。

如何来解决这个问题?

PHP有专门的处理多字节(Multibyte String)的模块-mbstring,但是该模块不是默认安装的,编译时增加–enable-mbstring,或者更改配置启用该模块,mbstring支持多种多字节编码,需要在配置中指明是那种编码。 Continue reading

存文本文件及其字符编码

网上也有许多关于纯文本的讨论,如果在搜索“乱码”,更是不尽其数。如果你开始命令行,开始编码,开始数据分析,开始操作中文,存文本及其字符编码便是最基础的东西。而往往基础的东西,真正弄懂更为不易,而或者你已经有了多年相关的经验,也不一定搞清楚了。

什么是存文本文件?

存文本由可打印字符组成,人可以直接阅读和理解其形式。

纯文本并非意味着文本是无结构的,HTML、SGML、XML等都是有良好结构定义的存文本,与直接的二进制编码相比,纯文本所处的层面往往更高。大多数二进制格式的问题在于,理解数据所必须的语境与数据本身是分离的,没有应用逻辑对其进行解释,这些数据绝对没有意义,但是通过存文本,可以获得自描述的、不依赖创建它的应用的数据流。对于大多数二进制文件,要成功的进行解析,你必须了解整个格式的所有细节。

缺点:

  • 与压缩的二进制格式相比,存储纯文本所需空间更多
  • 要解释与处理纯文本文件,计算上的代价可能更昂贵

优点:

漫谈web服务器

如果你是新手,要安装一个web应用或者创建一个网站,请接着读…

计算机中,有时候发现越是基础的东西发现越难讲清楚,网络为王的今天,生物信息也是身在其中,生物数据、工具、服务等都是以网络的形式存在的,而更为重要的是许多实验室、研究人员也开始筹建自己的网络服务。上网大家并不陌生,访问一个个网站,但是这些站点是如何提供服务的,网络技术飞速发展的今天,想必不是每个人都能说清楚。

要访问站点,离不开浏览器,浏览器现在也是五花八门,ie、chrome、firefox、safari、opera,国内更是360、遨游、世界之窗、QQ、淘宝,不过这些大都是基于别人的内核,就好比汽车发动机、制动系统都是进口的,只是外壳是自己的,但是访问的方法是相同的,就是通过http协议,也就是站点千差外别,但是前面都得加”http://”,而谁提供的http服务呢,就是这里我们要谈的web服务器,请区别于物理的服务器,这里说的web服务器指的是操作系统的一个服务,运行于后台,提供web服务。

web服务

目前的web服务器也有很多,apache、IIS、tomcat、lighttpd、nginx、liteSpeed等,基本原理就是浏览器输入网址,通过http协议,通过域名定位ip,通过ip地址找到到机器,通过端口找到服务(端口默认是80,没有看见端口号,就是默认的80),web服务器接受请求,将响应的结果以HTML格式返回到浏览器,浏览器解析HTML文件,就是用户看到的页面。 Continue reading

RNA-seq差异表达基因分析之TopHat篇

TopHat是基于Bowtie的将RNA-Seq数据mapping到参考基因组上,从而鉴定可变剪切(exon-exon splice junctions)。

安装

最简单的安装方法,注意版本

  • 下载Bowtie、TopHat、Cufflinks的二进制发布包,解压到相同的目录
  • 下载samtools,make,将生成的可执行samtools程序也cp到同一个目录
  • 增加该目录到PATH

参数与使用

Usage: tophat [options]* <index_base> <reads1_1[,…,readsN_1]> [reads1_2,…readsN_2]

  • -o  输出目录,默认值为 “./tophat_out”。
  • –solexa-quals/solexa1.3-quals 质量编码,关于质量编码格式请参考《Fastq格式详解
  • -p 线程数,默认值为单线程1.,可以使用多线程
  • -G/–GTFSupply TopHat with a set of gene model annotations and/or known transcripts, as a GTF 2.2 or GFF3 formatted file.指定已有转录本信息
  • –no-novel-juncs 不查找新的可变剪切
  • -r 比对时两成对引物间的距离中值。比如说,如果你的插入片段有300bp,而每个引物有50bp,那么r值就应该是200=(300+50*2)/2。没有默认值,如果是末端配对比对时这个值是必须的。
  • –mate-std-dev 末端配对时中间插入片段的长度的标准差,默认值为20bp

paired-end数据应该如何做 Continue reading