mGene: Accurate SVM-based gene finding with an application to nematode genomes

We present the highly accurate gene prediction system mGene, which in an unprecedented manner combines the flexibility of generalized hidden Markov models with the predictive power of modern machine learning methods. Its excellent performance was proved in an objective competition based on the genome of the nematode Caenorhabditis elegans. Considering the average of sensitivity and specificity the developmental version of mGene exhibited the best prediction performance on nucleotide, exon, and transcript level for ab initio and multiple-genome gene prediction tasks. The fully developed version shows superior performance in ten out of twelve evaluation criteria compared to the other gene finders, including Fgenesh and Augustus. An in-depth analysis of mGene’s genome-wide predictions revealed that 2,200 predicted genes were not contained in the current genome annotation. Testing a subset of 57 of these genes by RT-PCR and sequencing, we confirmed expression for 24 (42%) of them. mGene missed 300 annotated genes, out of which 205 were unconfirmed. RT-PCR testing of 24 of these genes resulted in a success rate of merely 8%. These findings suggest that even the gene catalog of a well-studied organism such as C. elegans can be substantially improved by mGene predictions. We also provide gene predictions for the four nematodes C. briggsae, C. brenneri, C. japonica and C. remanei. They allow us to compare the resulting proteomes among these organisms and to the known protein universe, thereby identifying many species-specific gene inventions. In an assessment of the quality of several available annotations for these genomes, we find that mGene’s predictions are most accurate.

From DNA sequence to transcriptional behaviour: a quantitative approach

Complex transcriptional behaviours are encoded in the DNA sequences of gene regulatory regions. Advances in our understanding of these behaviours have been recently gained through quantitative models that describe how molecules such as transcription factors and nucleosomes interact with genomic sequences. An emerging view is that every regulatory sequence is associated with a unique binding affinity landscape for each molecule and, consequently, with a unique set of molecule-binding configurations and transcriptional outputs. We present a quantitative framework based on existing methods that unifies these ideas. This framework explains many experimental observations regarding the binding patterns of factors and nucleosomes and the dynamics of transcriptional activation. It can also be used to model more complex phenomena such as transcriptional noise and the evolution of transcriptional regulation.

生物医学研究进展路标

  • 1859 Darwin C. On the origin of species by means of natural selection. John Murray, London 阐明进化论思想
  • 1866 Mendel G. Versuche über Plflanzenhybriden. Verhandlungen des naturforschenden Vereines in Brünn, Bd. IV für das Jahr 1865, Abhandlungen, 3–47 孟德尔遗传定律
  • 1903 Sutton WS. The chromosome in heredity. Biol Bull 4: 231-251 遗传的染色体学说
  • 1908.7.10 Hardy GH. Mendelian Proportions in a Mixed Population. Science 28: 49-50 遗传平衡定律
  • 1908 Garrod AE. Inborn errors of metabolism. Lancet 2: 1-7,73-79,142-148,214-220 先天性代谢缺陷的孟德尔遗传
  • 1910 Morgan TH. Sex-linked inheritance in Drosophila. Science 32: 120-122 连锁定律 Continue reading

系统生物学

“系统生物学将是二十一世纪医学和生物学的核心驱动力”

——胡德(Teroy Hood)

自达尔文提出进化论以来,人们普遍认为各种物种之间或多或少都存在某些亲缘关系。科学家们根据进化论分析物种进化的规律并用这些规律进行物种分类,种群及生物类群的演化研究。

然而,传统的进化分析只是从物种的形态,生活习性以及重要的指标进行分析,其间并不涉及分子水平下的进化研究。随着现代生物学的发展,特别是基因测序以来,有了丰富的基因序列资源,科学家们更趋向于从序列上进行分子进化分析,这样的分析结果更能反映物种之间的亲缘关系。科学家已经通过人类的基因进行的分子进化分析发现了人类的迁徙路径。 Continue reading

分离表达基因序列的技术方法

一、连锁分析与致病基因定位

80年代开始,由于 大量 的遗传标记的出现和计算机技术的发展,使得连锁分析在基因定位中的作用更直接、更迅速 ,尤其是在单基因遗传病的基因定位中的作用更加突出。如亨廷顿氏舞蹈症(Huntington’s disease)、 囊性纤维化(cystic fibrosis)基因的位置已经明确。目前,连锁分析研究的热点又集中在 一些多基因复杂疾病的鉴定与克隆上,如癌症、原发性高血压、精神分裂症等疾病。

连锁是指亲代的某些性状连在一起传递给子代的遗传现象。当染色体上控制这些性状的基因位点相距很近时,在减数分裂过程中位点之间发生染色体单体交叉和等位基因互换的机率较 小,相邻的基因位点就有较大的机会以连锁方式传递给后代,即两位点越近,发生染色体交 叉 和基因重组的可能性越小。位点间的距离用重组率或重组分数(recombination fraction . Ott J,1991)进行估计。即:重组分数=重组配子数/(重组配子数+非重组配子数) Continue reading

表达基因的克隆策略

80年代,科学家们曾试图通过分析基因产物—RNA或蛋白质获得各种组织尤其是疾 病的 表达基因,从而绕过连锁分析、图谱构建和DNA测序,直接找到表型与基因的相互关系。然而,事实证明,单纯依靠表型特征无法确定致病基因的具体位置和相关功能,更难以确定 疾病与基因的直接对应关系。随着疾病研究手段的不断发展和人类各种图谱的构建,以标记 位点为基本研究工具的基因克隆使人类研究表型与基因的相互关系成为可能。

基因克隆(gene cloning)是指从基因组或DNA大片段中分离并获得某一特定的基因或DNA序列 ,再通过DNA序列扩增形成由众多拷贝组成的一个DNA片段群体的过程。目前,广泛应用于致 病基因分离与克隆的策略可归纳为位置克隆(positional cloning)、候选位置克隆(candi date positional cloning)、表型克隆(phenotypic cloning)等。 Continue reading

表达基因克隆技术与图谱构建策略研究

人类基因组计划的主要任务之一就是要从大片段基因组区域或整条染色体DNA 上鉴定出基因表达序列(gene expressed sequences)或转录单位(transcription units)。在人类基因组30亿个碱基对中,发生转录的表达序列(即基因)仅占总序列的3~5%。基因组中绝大部分是基因间隔序列(intergenic seguences)或 内含子(intron)和各种各样的重复序列。测定基因表达序列可直接鉴别人类目前认定的6~1 0万(或仅3~5万)个基因在染色体上的位置和排列顺序,这就是人类基因组计划所要构建的 第 四张图谱——基因表达图谱,又称基因转录图谱(gene expression maps or gene transcri ption maps)。

基因表达图谱是指细胞内所有染色体上表达基因的排列和分布,即指细胞中所有mRNA。目前 ,人们把很大精力投入到基因表达图谱的研究上,原因是表达基因序列是通过DNA序列的转 录本—mRNA反转录成互补DNA(complementary DNA,cDNA)获得的,即DNA外显子序列转录后形 成RNA,经过剪切形成mRNA之后,再将mRNA连接成模板,合成cDNA。因此,cDNA基因不包含 非转录的内含子序列,这大大减少了测序的工作量,加快了测序进度,并可以有目的的直接 针对某种功能基因尤其是致病基因进行测序、克隆和鉴定。因此,表达基因图谱可作为致病 基因诊断、克隆和基因治疗的工具,帮助科学家鉴定能指导蛋白质合成和引发疾病的DNA片 段,在此基础上,针对疾病基因靶位进行药物设计。可见,表达基因图谱在医学和制药上有 重要的应用价值。

构建表达基因图谱的前提条件是获得大量的基因转录本mRNA序列(cDNA),该部分序列经转 录、翻译后可直接作为基因表达出来,所以,对cDNA的测序就是寻找基因的表达序列。

在人类基因组测序工作中,“cDNA测序战略”是只测定转录的DNA序列,而不是从“全基因 组 战略”的角度对所有碱基的排序进行测定。具有基因表达功能的cDNA又称表达序列标签(expressed sequence tag,EST),特定的EST序列有时可代表特定的cDNA。实施此战略需从cDNA 文库中获得一些长为300~400个碱基序列的EST,其作用相当于全基因组测序时的序列标定 位点STS。1990年,人类基因组计划提出了大规模cDNA测序战略,并建立了表达序列标签EST测定技术 。

完整物理图谱的构建策略

一、构建完整物理图谱的基本要素

(1) 界标(marker)

界标是绘制图谱的标记工具。构图方法不同,界标的种类、界 标间的 距离、图谱的分辨率也不同。图谱中的界标包括采用家系分析法构建的遗传图谱中的基 因,DNA原位杂交法构建的遗传图谱中的DNA探针,用RFLP、MS、SNP等作为标记构建遗传图 谱中的DNA多态性。低分辨率的物理图谱界标有STS和cDNA(EST) 。高分辨 率的 物理图谱界标:一是基于STS构图法STSs界标;二是限制性酶切指纹法构图中的限制性酶切 位点界标

(2) 作图单位

根据构图方法确定。限制性内切酶的酶切片段是物理图谱的基本单位。以STS 为路标构建图谱是以STS作为基本单位;以碱基构成的终极物理图谱则以碱基对为基本单位 。

(3) 确定标记顺序

确定标记位点相互之间的衔接关系是制作图谱的主要目的。将全基因组 的 不同界标单位进行排序的方法包括:限制性酶切指纹排序、重叠连续克隆序列(STC)排序、 计算机软件排序、染色体步查和跳查填补间隙排序等。目前,新型技术全基组散弹法或鸟枪 法(shot-gun)可随机对DNA进行大规模测序,即绕过BAC克隆逐个排序过程,直接将基因组DN A分解成2Kb左右的小片段进行随机测序,辅之一定数量的10Kb克隆和BAC克隆末端测序(500b p),利用超级计算机进行序列组装。
(4) 具有DNA可复制系统

除可见图谱外,其他图谱的构建均需DNA复制系统。包括YAC、BAC 、粘粒、福斯粘粒、M13和P1等载体系统。上述复制系统在组装DNA片段的容量、插入外源DNA后的稳定性、克隆嵌合体以及构建基因文库所需的克隆数量上均不相同。 Continue reading

物理图谱的构建方法

物理图谱包括染色体图谱或细胞遗传图谱、cDNA图谱以及遗传连锁图谱等类型的 低分辨率物理图谱,另外还包括长片段限制性酶切图谱或限制性位点指纹图谱以及重叠克隆 图谱在内的高分辨率物理图谱。基于STS的物理图谱代表的是各种低分辨率和高分辨率整合 后的完整物理图谱。此外,还有将限制性酶切法与STS作图相结合发展的基因组序列抽样法构建的图谱;电泳技术与FISH技术结合构建的可见图谱 。这些图谱的构建大大推动了精细物理图谱向DNA大规模测序的过渡。

一、低分辨率的物理图谱

1、染色体图谱或细胞遗传图谱

细胞染色体图谱是最早、最经典的物理图谱。染色体图谱中的路标是在各种染料染色显带之 后的染色体带型。这些带型通常把染色体分为10-20个区域,这是所有物理图谱的基础。
原位杂交法是很长一段时间内进行基因定 位的有效方法,也是低分辨率物理图谱的主要绘制方法。与构建遗传图谱不同的是,用原位杂交技术构建的物理图谱是估计每条染色体DNA大分子上的路标的物理学实际距离,即对碱基数目进行估计;而构建遗传图谱时,是将在整个生物中测到的性状利用重组常数确定各种遗传标记和基因间的统计学距离。
原位杂交技术的分辨率较低,仅能达到几个Mb,改进的荧光原位杂交(FISH)技术也只是2~5 Mb的精度范围。在细胞分裂期间,染色体盘曲松散时,可使分辨率提高到0.1Mb。 Continue reading

构建物理图谱的重要工具——克隆载体

将基因组DNA片段克隆进各种载体组建重叠克隆群是物理作图的基本策略,克隆载体在物理图谱构建过程中发挥着不可替代的作用。

凡来源于质粒、噬菌体、细菌等可插入或克隆DNA片段的DNA分子统称为载体。载体的功能是为外源DNA进入受体细胞提供运载工具。经过载体重组的外源DNA比其单独进入受体细胞的效 率提高几个数量级。另外,载体可将外源DNA转移至受体细胞并在受体细胞内准确复制、大 量扩增和明确表达。载体除具备上述功能外,必须具有从一个宿主细胞转移至另一个宿主细 胞的可移动性。

上述克隆库的优点是能随机覆盖基因组很 多倍,并在扩增过程中表现出不易缺失和不易重排的稳定性。 Continue reading