Genbank格式转换为GFF3格式

在处理数据的过程中,遇到最多的恐怕就是Genbank格式转换为GFF3格式,推荐使用脚本genbank2gff3.pl,官方脚本,速度快,使用灵活,转换的格式较为标准,注意要更新到最新的版本,先前的版本ID标志符使用基因的名称,这样会产生一个比较严重的问题,GBrowse对于有重复的基因显示错误,全部当做同一个基因。用法:

genbank2gff3.pl [options] filename(s)
   Options:
        --dir     -d  path to a list of genbank flatfiles GB格式文件所在的目录
        --outdir  -o  location to write GFF files 转换的GFF3文件保存的目录
        --zip     -z  compress GFF3 output files with gzip 转换的GFF3数据进行压缩
        --summary -s  print a summary of the features in each contig
        --filter  -x  genbank feature type(s) to ignore 过滤掉某些类型的feature
        --split   -y  split output to seperate GFF and fasta files for 
                      each genbank record  Genbank中每条记录单独
        --nolump  -n  seperate file for each reference sequence
                      (default is to lump all records together into one
                       output file for each input file)
        --ethresh -e  error threshold for unflattener
                      set this high (>2) to ignore all unflattener errors
        --help    -h  display this message

命令示例

$ bp_genbank2gff3.pl s301.gb
 # Input: s301.gb
 # working on region:NC_004337 301 chromosome, complete genome.
 # working on region:NC_004851 301 plasmid pCP301, complete sequence.
 # GFF3 saved to ./s301.gb.gff

如上示例,目前该脚本还有一个严重的bug,转换好的数据录入到数据库中,使用GBrowse展示的时候,会发现NC_004337的feature比如Gene、mRNA等都重复显示,追溯到这个问题,发现转换的GFF3文件中,NC_004337的注释信息出现了两遍,Genbank中只有一条记录不会发生这个问题,参考脚本代码,发现是其保持转换好的GFF数据的变量在处理一条Genbank记录时,没有初始化,处理第二条结束,输出时,第一条记录的信息还在,于是又输出了一遍。上版本也有这个问题。在feature处理循环前,增加变量初始化就可以解决这个问题。

 

Genbank格式转换为GFF3格式》上有8条评论

  1. 最新版本的转换脚本都已经解决了这些问题,只要你的gbrowse安装的是最新的版本都不会再出现这样的问题了

    • 可以考虑使用ncbi提交的工具tbl2asn,先将gff3格式转换为tbl格式,再转换为genbank格式,这样比较靠谱,或者自己通过bioperl实现。

  2. 你好~我之前从没用过bioperl…最近需要genbank到gff的转换….这个文件是模块Bio::DB::GFF里面的对吧?但是我研究了一上午都没有搞懂这个pl文件是在模块的文件里面么?可我只看到了一堆的pm文件….还是说要需要下载新的什么么?
    对生物信息挺小白的…不过希望您能解答从哪里得到这个脚本?…

    • 如果您已经成功安装了bioperl,那么这些脚步已经安装到你的系统环境的bin目录中了,你只要执行就可以了。

  3. 你好!我想讲genbank格式转换为gff3文件,我下载了activeperl,发现里面有bp_genbank2gff3.pl,可是运行:bp_genbank2gff3.pl 111.gb时,经常报错,应该如何处理啊?

发表评论

电子邮件地址不会被公开。 必填项已用*标注

请启用Javascript,以完成验证!