NCBI UniGene数据库介绍

NCBI的Unigene数据库有段历史了,而这次进行的一次转录组数据方面的分析,才让我更深入的理解其价值,所以再做介绍。

基于转录组的数据分析,UniGene是一个不可多得的资源,他将mRNA、EST序列以及功能gene进行整合,很容易明白EST、mRNA等转录组数据与gene的关系,同时通过EST所附带的信息,统计了基因的表达谱。UniGene参考了转录组、基因组的信息,通过多次循环聚类,整合尽可能多的数据,NCBI对UniGene按物种进行定期的更新,发布新的版本。

UniGene的数据可以通过FTP按物种进行下载,包括下列文件:

  • XX.data UniGene记录信息
  • XX.files.cksum 文件统计信息
  • XX.gb_cid_lid UniGene中序列的编号与Genbank AC号的对应的关系
  • XX.info 统计信息,
  • XX.lib.info UniGene与EST的对应关系
  • XX.profiles 表达谱信息,按照组织、时期表达进行分类
  • XX.retired.lst 上个版本UniGene编号与当前编号以及对应序列编号的对应关系
  • XX.seq.all 包括所有涉及到的EST、mRNA序列,FASTA格式(其中有#注释,在每个Unigene开始的时候,使用bioperl的seqIO解析时会报告错误,需要先将其删除)
  • XX.seq.uniq 可以代表Gene的,没有冗余的序列,FAST格式

Continue reading

《核酸研究》在线分子生物学数据库索引

《核酸研究(Nucleic Acids Research)》搜集其上发表的或者其他杂志上发表的关于数据库的文章,建立的数据库索引。并且建立了一个分类系统,将这些数据库资源进行分类。建立的资源大多会发文章,而能发表在《核酸研究》上的数据库资源其质量还是有一定的保证的。

访问地址:http://nar.oxfordjournals.org Continue reading

流感病毒数据库:Influenza Virus Resources

NCBI的流感病毒主题数据库,其特点:序列的权威性与全面性;速度快,可以容易下载到分析用的序列以及分析结果。是进行生物信息学分析时一个主要的数据来源。同时提供序列多重比对、系统发育树的分析工具。

访问地址:http://www.ncbi.nlm.nih.gov/genomes/FLU/Database/select.cgi?go=1
数据下载ftp:ftp://ftp.ncbi.nih.gov/genomes/INFLUENZA/ Continue reading

流感病毒数据库- influenza virus database

流感病毒数据库由NIAID维护,成立于2004年,是一个免费提供流感病毒数据与分析资源综合数据库平台。数据库包含直接由研究人员提交的不同数据集,公共数据库的相关数据,以及科学文献中提取的相关数据等。同时可以使用各种生物信息学分析工具结合数据库进行各种分析,比如多重序列比对、系统发育分析等。数据库接受用户在线提交流感数据,提交的流感序列可以直接向GenBank提交。

访问地址:http://www.biohealthbase.org/GSearch/home.do?decorator=Influenza Continue reading

人类蛋白质表达图集(The human protein atlas )

蛋白质在正常组织、癌细胞、培养的细胞系中表达与定位的免疫组织化学 (IHC)以及免疫荧光( IF )共聚焦显微镜图像。2009-06-16发布第五版,包括8832中抗体,7,334,244 幅图像。

访问地址:http://www.proteinatlas.org/index.php Continue reading

蛋白质二级结构预测

蛋白质是最重要的一类生物大分子。它存在于所有的生物细胞中,是构成生物体最基本的结构物质和功能物质,天然蛋白质由20种基本氨基酸构成,蛋白质的生理功能不仅体现在它的氨基酸构成上,更重要的是依赖于其空间结构,了解蛋白质结构与功能的关系,并在此基础上进行蛋白质工程改造、突变体设计以及基于结构的药物设计都具有重要意义。

从氨基酸序列到蛋白质二级结构,是理解蛋白质结构和功能的重要一步。蛋白质二级结构数据库的构建可以为三级结构的建模,尤其是在缺少合适的同源模版的情况下进行的三级结构的建模提供重要依据,可以减少在模拟蛋白质折叠时的搜索空间。二级结构信息还可以用在生物信息学研究的各个方面,为所分析蛋白质的功能属性提供线索,对蛋白质序列的分析、结构序列的缠绕(threading)及确定蛋白质分子功能也具有重要意义。

二级结构的预测方法通常分为多序列列线预测和单序列预测的方法。由于单序列预测所提供的信息只是残基的顺序而没有其空间分布的信息,所以单序列预测的算法预测准确率并不高而且对于一些特殊结构,这些算法很难预测成功。

多序列列线预测和神经网络的应用大大提高了二级结构预测的准确度,通过对序列比对的预测可以明确的提供单一位点在三维结构上的信息。这样通常二级结构预测的准确率比单序列预测能够提高10%,许多方法据说可达到70%-77%,目前较为常用的几种方法有:

  • PHD
  • PSIPRED
  • Jpred
  • PREDATOR
  • PSA。

其中最常用的是PHD。PHD结合了许多神经网络的成果,每个结果都是根据局部序列上下文关系和整体蛋白质性质(蛋白质长度、氨基酸频率等)来预测残基的二级结构。那么,最终的预测是这些神经网络每个输出的算术平均值。这种结合方案被称为陪审团决定法(jury decision)或者成为所有胜利者(winner-take-all)法。PHD被认为是二级结构预测的标准。

总的来说,二级结构预测仍是未能完全解决的问题,一般对于α螺旋预测精度较好,对β折叠差些,而对除α螺旋和β折叠等之外的无规则二级结构则效果很差。

Continue reading

NCBI的数据库与工具列表

Databases数据库

1) PubMed: biomedical literature citations and abstracts

2) PubMed Central: free, full text journal articles

3) Site Search: NCBI web and FTP sites

4) Books: online books

5) OMIM: online Mendelian Inheritance in Man

6) OMIA: online Mendelian Inheritance in Animals

7) CoreNucleotide: Core subset of nucleotide sequence records

8) EST: Expressed Sequence Tag records

9) GSS: Genome Survey Sequence records

10) Protein: sequence database Continue reading