NCBI的Unigene数据库有段历史了,而这次进行的一次转录组数据方面的分析,才让我更深入的理解其价值,所以再做介绍。
基于转录组的数据分析,UniGene是一个不可多得的资源,他将mRNA、EST序列以及功能gene进行整合,很容易明白EST、mRNA等转录组数据与gene的关系,同时通过EST所附带的信息,统计了基因的表达谱。UniGene参考了转录组、基因组的信息,通过多次循环聚类,整合尽可能多的数据,NCBI对UniGene按物种进行定期的更新,发布新的版本。
UniGene的数据可以通过FTP按物种进行下载,包括下列文件:
- XX.data UniGene记录信息
- XX.files.cksum 文件统计信息
- XX.gb_cid_lid UniGene中序列的编号与Genbank AC号的对应的关系
- XX.info 统计信息,
- XX.lib.info UniGene与EST的对应关系
- XX.profiles 表达谱信息,按照组织、时期表达进行分类
- XX.retired.lst 上个版本UniGene编号与当前编号以及对应序列编号的对应关系
- XX.seq.all 包括所有涉及到的EST、mRNA序列,FASTA格式(其中有#注释,在每个Unigene开始的时候,使用bioperl的seqIO解析时会报告错误,需要先将其删除)
- XX.seq.uniq 可以代表Gene的,没有冗余的序列,FAST格式