Gbrowse权限管理

或许你的数据没有发布,你只想部分人员访问你的Gbrowse,这就涉及到了权限管理,GBrowse提供了多种机制,你可以限制访问者的主机、IP地址、域名,或者只有通过用户名密码登陆后才可以访问。
Gbrowse用户登录

Gbrowse 2.20以上的版本提供了以下三种权限管理的方式:

  1. 通过Apache提供的权限管理机制
  2. 构建自己的用户账户数据库
  3. 通过插件机制

Continue reading

转换GFF工具–大汇总

汇总,将各种格式转换为GFF格式的脚本。这些脚本分散在不同的软件包中,可以根据需要下载使用。

bioPerl

  • search2gff              This script will turn a protein Search report (BLASTP, FASTP, SSEARCH, AXT, WABA) into a GFF File.
  • genbank2gff3.pl       — Genbank->gbrowse-friendly GFF3
  • gff2ps                    This script provides GFF to postscript handling. Continue reading

Gbrowse SNV突变频率图绘制

基因组的某位置,会发生突变,或者说对于多个物种的个体进行测序的话,会发现许多位置不是稳定的只是某个碱基,而应该用频率表示,ACTG出现的频率,如果某个位置有出现两个以上碱基的可能性,我们就将这个位置称为SNV,现在GBrowse中展示这些SNV,不仅是其位置,还要展示各个碱基出现的频率。

SNV突变频率图

思路1,适用 glyph=image

根据Bio::Graphics中对于image的解释:可以传入一个url或者本地的路径,我想能不能创建一个动态画图的URL,其可以根据传入的参数,生成一个饼状的比例图,然后再配置文件中,动态生成image的url地址,如下: Continue reading

Blast结果在GBrowse中展示

我们可以使用blast,将其他已知物种的基因,或者是mRNA或者是Protein,使用tblastn或者blastx比对到现有物种的基因组上,特别是进化距离又稍微远的物种(非常近的,倾向于使用blat),也有比较基因组的成分存在,某个位置,你预测有某个gene存在,相近的物种这里有没有基因比对上,比对上的是什么基因,当然只是某种程度上的参考。

首先是blast结果转换为GFF3格式,网上倒是找到好几个这样的脚本,支持的转换格式,都是Tab格式的blast结果(比对时设置参数-m 9 or 8),下面是对于这些脚本的适用结果:
Continue reading

GBrowse之频率直方图

GBrowse之频率直方图,有称为频率分布图,Generating Feature Frequency Histograms,用以展示这些统计信息,可以表意以下信息:

  • 不同区段内基因组Gene或者SNP等Feature区间数量分布的差异;
  • 基因表达丰度;
  • 序列的保守性;

新版的GBrowse更加强了该部分的功能,具体的版本是搞不清楚了,整个过程是GFF2时代使用脚本制备数据,然后再倒入数据库,然后是建立数据库的时候增加–summary参数,增加频率数据的功能,现在时默认就有,在Bio::DB::SeqFeature中,表interval_stats就是专门为支撑统计(summary)的。但这里还是要从GFF2说起,这样有利于弄清楚统计数据的GFF表示,以及如何以普通的feature方式配置进行显示,比如序列的保守性,表达丰度等,需要特殊处理,自己进行统计的生成的数据,就需要用到这个方法。 Continue reading

从GenBank到GFF到Bio::DB::SeqFeature到GBrowse展示

想必许多人对于GenBank一定很熟悉,感觉一条序列的详细信息就应该这样表示,所以我想从GenBank说到GBrowse,以使得大家对于从数据到数据展示,对于这个过程有个更深的了解。当然千言万语胜不过一幅图,我就通过图注来说明。

  • GenBank是已有信息的最常见的数据规范之一,我们很容易获得这些数据;
  • GFF是简洁、灵活而又强大的序列注释信息的格式;
  • Bio::DB::SeqFeature是GBrowse推荐使用的基因组注释信息的的存储模式;
  • GBrowse是前端的数据展示窗口; Continue reading

Genbank格式转换为GFF3格式

在处理数据的过程中,遇到最多的恐怕就是Genbank格式转换为GFF3格式,推荐使用脚本genbank2gff3.pl,官方脚本,速度快,使用灵活,转换的格式较为标准,注意要更新到最新的版本,先前的版本ID标志符使用基因的名称,这样会产生一个比较严重的问题,GBrowse对于有重复的基因显示错误,全部当做同一个基因。用法:

genbank2gff3.pl [options] filename(s)
   Options:
        --dir     -d  path to a list of genbank flatfiles GB格式文件所在的目录
        --outdir  -o  location to write GFF files 转换的GFF3文件保存的目录
        --zip     -z  compress GFF3 output files with gzip 转换的GFF3数据进行压缩
        --summary -s  print a summary of the features in each contig
        --filter  -x  genbank feature type(s) to ignore 过滤掉某些类型的feature
        --split   -y  split output to seperate GFF and fasta files for 
                      each genbank record  Genbank中每条记录单独
        --nolump  -n  seperate file for each reference sequence
                      (default is to lump all records together into one
                       output file for each input file)
        --ethresh -e  error threshold for unflattener
                      set this high (>2) to ignore all unflattener errors
        --help    -h  display this message

Continue reading

gbrowse图形显示配置

Gbrowse图谱可以分为三部分,overview,region,details,每一部分都可以显示0到多个的映描(track),对于trace的定义,可以分为以下几部分:

  • * track显示的内容,显示什么样的数据
  • * track显示为什么样子,具体的样式
  • * track有关的文字描述
  • * track有关的行为,比如冒泡提示,点击或者经过时的行为,启动的链接

更为复杂的主题包括:

  • * 显示样式、内容的动态话
  • * 多种来源、多种类型的数据组合
  • * 不同缩放比例,显示不同的样式
  • * 对于显示数据内容数目的限制
  • * track的层级分类,一个track下可以分为多个不同的下级track
  • * 密度图、频率图显示
  • * 不同用户的权限管理 Continue reading

GBrowse访问数据制备

什么样的数据,数据制备为什么格式,保存为什么样的形式,GBrowse进行怎样的设置,基因组图谱上就可以展示出来了。

要展示什么样的数据?

基因组注释数据,比如contig的拼接关系、功能基因的注释、基因组序列的特征比如GC含量等,Blast比对结果,SNP,转录丰度等等,都可以使用GBrowse来展示这些数据。可以概括为两个位置之间如何,有什么。 Continue reading