<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>博耘生物</title>
	<atom:link href="http://boyun.sh.cn/bio/index.php?feed=rss2" rel="self" type="application/rss+xml" />
	<link>http://boyun.sh.cn/bio</link>
	<description>嗯，生物信息方面的</description>
	<lastBuildDate>Tue, 24 Apr 2012 08:42:36 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.1</generator>
		<item>
		<title>生物信息之心态分析</title>
		<link>http://boyun.sh.cn/bio/?p=1879</link>
		<comments>http://boyun.sh.cn/bio/?p=1879#comments</comments>
		<pubDate>Thu, 12 Apr 2012 08:29:44 +0000</pubDate>
		<dc:creator>boyun</dc:creator>
				<category><![CDATA[大话生物信息]]></category>
		<category><![CDATA[感想总结]]></category>

		<guid isPermaLink="false">http://boyun.sh.cn/bio/?p=1879</guid>
		<description><![CDATA[每一个分析之旅，尽管分析千差外别，而那份感觉或者心情却有几份的相像，轻轻的，却能感觉到。人类基因组测序已经十多年了，而近几年随着测序技术的发展，测序的成本呈指数下降，而测序产生的数据量呈指数上升，数据分析的需求开始激增，这就是我们所处的这个行业这个时代。 常常看到关于2000年那轮互联网泡沫的描述，经历了一场泡沫，互联网还成就了许多著名的公司，真真切切的融入与影响着我们的生活。而生物领域，同样，我们更为真切的感觉到了分子生物学泡沫对我们一代或者几代人的影响，想当年分子生物学、生物工程专业是多么的热门，大学了纷纷增设相关专业或者现有的专业改名与之挂靠，而以至于现在生物学方面的硕士博士的泛滥，同样相对的待遇也是同样的低。“二十一世纪是生物学的时代”，多么响亮的口号，而目前就公司于行业产值，还丝毫没有看到这方面的影子。 基因、分子克隆，转基因，生物工程到如今基因组、蛋白质组、转录组等各种组学、以及二代测序、个性化医疗，更多的应用还属于科研领域。科研、课题、博导、文章、圈子以及种种的外围切割，就是那一滩水。对于病毒、癌症、生物发酵、育种等等，关于生命本身的认识，并没有因为数据的增加，而有什么本质的改变。而数据仅仅只是给了我们对于生命的另外一个层面的描述，就如同对于绿叶、红花、肌肉的描述一样。数据堆砌着，文章累计着，有人从时间推测着，百年了，该有所质的突破了。。。 铛铛&#8230;..，又有新数据了，从测序公司拿到或者网上下载到，期盼已久的数据，怀着无比的希望打开，开始迫不及待的进入分析之旅。使用各种工具，加载各种算法，机器轰鸣着，一番运行，似乎经过运算，我们就能读懂数据中的一切，而几天下来，给我们的确实相反的沮丧，心里或许开始抱怨糟糕的设计、糟糕的数据质量、糟糕的算法。。。和想想中的差之千里。而生活还得继续，带着沮丧之情，肩负着艰巨的使命，继续挖掘。 而几轮的沮丧之后，开始渐渐明白 一个混沌进入另一个混沌，而或许正因为太广，太容易目空一切 测序的物种多了，测序的数量多了，我们却没有看到突飞猛进，反而平添了几分忧愁。 信息本身的复杂性，看看研究最多的人类基因组，看看身披无数文章的模式生物 观察数据，也就是测序样本、测序数据本身的有限性 我们需要在两者中间取得一个平衡，得到一个可信的结论。 即便是突破也是层级式的，一层层，或许看到的还是那份混沌，最少你应该明白，那就是你所期望的。 告别沮丧，怀着敬畏，尝试着，不断寻找与尝试着挖掘 如果，测序如水，不在制约，有人说，分析将成为制约，制约则意味着价值，不知道价值变成现金的日子，还会不会太远。 新书推荐 Amazon.cn Widgets 　&#187; 转载文章请注明，转载自：博耘生物 &#187; 《生物信息之心态分析》　&#187; 原文链接：http://boyun.sh.cn/bio/?p=1879]]></description>
			<content:encoded><![CDATA[<p>每一个分析之旅，尽管分析千差外别，而那份感觉或者心情却有几份的相像，轻轻的，却能感觉到。人类基因组测序已经十多年了，而近几年随着测序技术的发展，测序的成本呈指数下降，而测序产生的数据量呈指数上升，数据分析的需求开始激增，这就是我们所处的这个行业这个时代。</p>
<p>常常看到关于2000年那轮互联网泡沫的描述，经历了一场泡沫，互联网还成就了许多著名的公司，真真切切的融入与影响着我们的生活。而生物领域，同样，我们更为真切的感觉到了分子生物学泡沫对我们一代或者几代人的影响，想当年分子生物学、生物工程专业是多么的热门，大学了纷纷增设相关专业或者现有的专业改名与之挂靠，而以至于现在生物学方面的硕士博士的泛滥，同样相对的待遇也是同样的低。“二十一世纪是生物学的时代”，多么响亮的口号，而目前就公司于行业产值，还丝毫没有看到这方面的影子。</p>
<p>基因、分子克隆，转基因，生物工程到如今基因组、蛋白质组、转录组等各种组学、以及二代测序、个性化医疗，更多的应用还属于科研领域。科研、课题、博导、文章、圈子以及种种的外围切割，就是那一滩水。对于病毒、癌症、生物发酵、育种等等，关于生命本身的认识，并没有因为数据的增加，而有什么本质的改变。而数据仅仅只是给了我们对于生命的另外一个层面的描述，就如同对于绿叶、红花、肌肉的描述一样。数据堆砌着，文章累计着，有人从时间推测着，百年了，该有所质的突破了。。。</p>
<p>铛铛&#8230;..，又有新数据了，从测序公司拿到或者网上下载到，期盼已久的数据，怀着无比的希望打开，开始迫不及待的进入分析之旅。使用各种工具，加载各种算法，机器轰鸣着，一番运行，似乎经过运算，我们就能读懂数据中的一切，而几天下来，给我们的确实相反的沮丧，心里或许开始抱怨糟糕的设计、糟糕的数据质量、糟糕的算法。。。和想想中的差之千里。而生活还得继续，带着沮丧之情，肩负着艰巨的使命，继续挖掘。</p>
<p>而几轮的沮丧之后，开始渐渐明白</p>
<p>一个混沌进入另一个混沌，而或许正因为太广，太容易目空一切</p>
<p>测序的物种多了，测序的数量多了，我们却没有看到突飞猛进，反而平添了几分忧愁。</p>
<p>信息本身的复杂性，看看研究最多的人类基因组，看看身披无数文章的模式生物</p>
<p>观察数据，也就是测序样本、测序数据本身的有限性</p>
<p>我们需要在两者中间取得一个平衡，得到一个可信的结论。</p>
<p>即便是突破也是层级式的，一层层，或许看到的还是那份混沌，最少你应该明白，那就是你所期望的。</p>
<p>告别沮丧，怀着敬畏，尝试着，不断寻找与尝试着挖掘</p>
<p>如果，测序如水，不在制约，有人说，分析将成为制约，制约则意味着价值，不知道价值变成现金的日子，还会不会太远。</p>
<div id="crp_related"> </div><div class="" id="s_widget"><h3>新书推荐</h3><OBJECT classid="clsid:D27CDB6E-AE6D-11cf-96B8-444553540000" codebase="http://fpdownload.macromedia.com/get/flashplayer/current/swflash.cab" id="Player_06bf285e-0552-41e0-a053-a8d8abf24ef8"  WIDTH="336px" HEIGHT="280px"> <PARAM NAME="movie" VALUE="http://ws.assoc-amazon.cn/widgets/q?ServiceVersion=20070822&MarketPlace=CN&ID=V20070822%2FCN%2Fboyun%2F8003%2F06bf285e-0552-41e0-a053-a8d8abf24ef8&Operation=GetDisplayTemplate"><PARAM NAME="quality" VALUE="high"><PARAM NAME="bgcolor" VALUE="#FFFFFF"><PARAM NAME="allowscriptaccess" VALUE="always"><embed src="http://ws.assoc-amazon.cn/widgets/q?ServiceVersion=20070822&MarketPlace=CN&ID=V20070822%2FCN%2Fboyun%2F8003%2F06bf285e-0552-41e0-a053-a8d8abf24ef8&Operation=GetDisplayTemplate" id="Player_06bf285e-0552-41e0-a053-a8d8abf24ef8" quality="high" bgcolor="#ffffff" name="Player_06bf285e-0552-41e0-a053-a8d8abf24ef8" allowscriptaccess="always"  type="application/x-shockwave-flash" align="middle" height="280px" width="336px"></embed></OBJECT> <NOSCRIPT><A HREF="http://ws.assoc-amazon.cn/widgets/q?ServiceVersion=20070822&MarketPlace=CN&ID=V20070822%2FCN%2Fboyun%2F8003%2F06bf285e-0552-41e0-a053-a8d8abf24ef8&Operation=NoScript">Amazon.cn Widgets</A></NOSCRIPT></div><div id="paper_license"><div> 　&raquo; 转载文章请注明，转载自：<a title="博耘生物" href="http://boyun.sh.cn/bio">博耘生物</a> &raquo; <a rel="bookmark" title="生物信息之心态分析" href="http://boyun.sh.cn/bio/?p=1879">《生物信息之心态分析》</a></div><div>　&raquo; 原文链接：<a rel="bookmark" title="生物信息之心态分析" href="http://boyun.sh.cn/bio/?p=1879">http://boyun.sh.cn/bio/?p=1879</a></div></div>]]></content:encoded>
			<wfw:commentRss>http://boyun.sh.cn/bio/?feed=rss2&#038;p=1879</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>NCBI UniGene数据库介绍</title>
		<link>http://boyun.sh.cn/bio/?p=1877</link>
		<comments>http://boyun.sh.cn/bio/?p=1877#comments</comments>
		<pubDate>Tue, 10 Apr 2012 08:59:17 +0000</pubDate>
		<dc:creator>boyun</dc:creator>
				<category><![CDATA[数据库资源]]></category>
		<category><![CDATA[转录组]]></category>

		<guid isPermaLink="false">http://boyun.sh.cn/bio/?p=1877</guid>
		<description><![CDATA[NCBI的Unigene数据库有段历史了，而这次进行的一次转录组数据方面的分析，才让我更深入的理解其价值，所以再做介绍。 基于转录组的数据分析，UniGene是一个不可多得的资源，他将mRNA、EST序列以及功能gene进行整合，很容易明白EST、mRNA等转录组数据与gene的关系，同时通过EST所附带的信息，统计了基因的表达谱。UniGene参考了转录组、基因组的信息，通过多次循环聚类，整合尽可能多的数据，NCBI对UniGene按物种进行定期的更新，发布新的版本。 UniGene的数据可以通过FTP按物种进行下载，包括下列文件： XX.data UniGene记录信息 XX.files.cksum 文件统计信息 XX.gb_cid_lid UniGene中序列的编号与Genbank AC号的对应的关系 XX.info 统计信息， XX.lib.info UniGene与EST的对应关系 XX.profiles 表达谱信息，按照组织、时期表达进行分类 XX.retired.lst 上个版本UniGene编号与当前编号以及对应序列编号的对应关系 XX.seq.all 包括所有涉及到的EST、mRNA序列，FASTA格式（其中有#注释，在每个Unigene开始的时候，使用bioperl的seqIO解析时会报告错误，需要先将其删除） XX.seq.uniq 可以代表Gene的，没有冗余的序列，FAST格式 主要信息保存在XX.data表中，包括unigene_id, title, gene, cytoband, mgi, locuslink, homol, restr_expr, gnm_terminus, scount, express, chromosome, sts, txmap, protsim, sequences, species 等，多个perl库都有对其解析的模块，包括： Bio::Cluster::UniGene &#8230; <a href="http://boyun.sh.cn/bio/?p=1877">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
			<content:encoded><![CDATA[<p>NCBI的Unigene数据库有段历史了，而这次进行的一次转录组数据方面的分析，才让我更深入的理解其价值，所以再做介绍。</p>
<p>基于转录组的数据分析，UniGene是一个不可多得的资源，他将mRNA、EST序列以及功能gene进行整合，很容易明白EST、mRNA等转录组数据与gene的关系，同时通过EST所附带的信息，统计了基因的表达谱。UniGene参考了转录组、基因组的信息，通过多次循环聚类，整合尽可能多的数据，NCBI对UniGene按物种进行定期的更新，发布新的版本。</p>
<p>UniGene的数据可以通过<a href="ftp://ftp.ncbi.nih.gov/repository/UniGene">FTP</a>按物种进行下载，包括下列文件：</p>
<ul>
<li>XX.data UniGene记录信息</li>
<li>XX.files.cksum 文件统计信息</li>
<li>XX.gb_cid_lid UniGene中序列的编号与Genbank AC号的对应的关系</li>
<li>XX.info 统计信息，</li>
<li>XX.lib.info UniGene与EST的对应关系</li>
<li>XX.profiles 表达谱信息，按照组织、时期表达进行分类</li>
<li>XX.retired.lst 上个版本UniGene编号与当前编号以及对应序列编号的对应关系</li>
<li>XX.seq.all 包括所有涉及到的EST、mRNA序列，FASTA格式（其中有#注释，在每个Unigene开始的时候，使用bioperl的seqIO解析时会报告错误，需要先将其删除）</li>
<li>XX.seq.uniq 可以代表Gene的，没有冗余的序列，FAST格式</li>
</ul>
<p><span id="more-1877"></span>主要信息保存在XX.data表中，包括unigene_id, title, gene, cytoband, mgi, locuslink, homol, restr_expr, gnm_terminus, scount, express, chromosome, sts, txmap, protsim, sequences, species 等，多个perl库都有对其解析的模块，包括：</p>
<ul>
<li><a href="http://search.cpan.org/~cjfields/BioPerl-1.6.901/Bio/Cluster/UniGene.pm#sequences">Bio::Cluster::UniGene</a></li>
<li><a href="http://search.cpan.org/~lds/Boulder-1.30/Boulder/Unigene.pm">Boulder::Unigene</a></li>
</ul>
<div>但是对于数据解析的完整程度不够理想，好在数据不是特别复杂，根据自己的需要重新使用perl写个解析脚本也不是难事。</div>
<p>附：UniGene的处理流程，等待翻译</p>
<div>
<div>
<h3>Transcript-Based Build Procedure</h3>
<p>Clustering is the process of finding subsets of sequences that belong together within a larger set. This is done by converting discrete similarity scores to Boolean links between sequences. That is, two sequences are considered linked if their similarity exceeds a threshold. UniGene clustering proceeds in several stages, with each stage adding less reliable data to the results of the preceding stage. This staged clustering affords greater control than a more egalitarian treatment of all links between sequences.</p>
<p>Screening for contaminants, repeats, and low-complexity sequence is performed. Low-complexity screening is performed using NCBI&#8217;s Dust program. Mitochondrial and ribosomal sequences are screened for, as are vector contaminants and repetitive elements. After screening, a sequence must contain at least 100 informative bp to be a candidate for entry into UniGene.</p>
<p>Builds are either genome based or transcript based, as described here.</p>
<p>Sequence records in distinct Entrez gene records are used to group mRNAs (please see <a href="http://www.ncbi.nlm.nih.gov/bookshelf/br.fcgi?book=helpgene&amp;part=EntrezGene#EntrezGene.Related_Sequences"><span style="color: #336699;">entrez Gene help</span></a> for details). Links to HomoloGene clusters are computed for all mRNA sequences via translating searches against proteins in Homologene. The set of mRNA sequences is compared with itself. Sequence pairs that are sufficiently similar are linked together to form initial clusters, as long as sequences in each initial cluster do not correspond to multiple Entrez gene records or multiple HomoloGene entries.</p>
<p>Links between ESTs and mRNA are added to these clusters. The set of ESTs is compared with sequences from the set of initial clusters using megaBLAST, and sufficiently similar sequence pairs are added to the clusters. Links that would join the initial mRNA-based clusters are discarded. EST to EST links are also generated and used to extend the initial clusters and to generate clusters composed solely of ESTs.</p>
<p>Clone-based edges are added; these allow non-overlapping 5&#8242; and 3&#8242; ESTs to be assigned to the same cluster. Because of imperfect clone labeling, a single clone-ID based edge is insufficient to merge two clusters. Clone IDs that link at least two 5&#8242; ends from one cluster with at least two 3&#8242; ends from another cluster are found, and the two clusters are merged.</p>
<p>Any resulting cluster that does not contain a sequence with a polyadenylation signal or tail is discarded. Clusters that meet these criteria are called anchored clusters, because their 3&#8242; ends are presumed to be known.</p>
<p>ESTs that do not belong to an anchored cluster are rechecked at a lower level of stringency than in the preceding passes. An EST that passes this less stringent test is then added to the cluster that contains the sequence that is the best match to the EST; it is a guest member.</p>
<p>Clusters of size 1 (that is, clusters that seem to identify infrequently expressed genes) are compared against the rest of the sequences in UniGene at a lower level of stringency and merged with the cluster containing the most similar sequence.</p>
</div>
<div>The resulting clusters are compared with the preceding week&#8217;s build and renumbered in an attempt to maintain continuity. Because the sequences that make up a cluster may change from week to week and because the cluster identifier may disappear (typically when two clusters merge), using the cluster identifier as a reference is ill advised. Using the GB accession numbers of the sequences that make up the cluster is a safe alternative.</div>
<div></div>
<div>
<h3>Genome-Based UniGene Build Procedure</h3>
<p>The availability of genomic sequence is helpful for identifying sets of transcript sequences that correspond to distinct transcription loci or to annotated genes, which is the goal of UniGene. The procedure used for genome-based clustering of transcript sequences is described here.</p>
<p>Several types of evidence are used to identify a transcription locus&#8217; boundaries and to identify which transcripts represent the locus. Although determining gross structure and transcript representation of many genes is not sensitive to the details of transcript mapping, there are cases where the details are important: overlapping genes on opposite strands, or genes located within introns of other genes, for example. To accurately resolve these and similar cases, we identify genes by incorporating evidence in order of confidence, beginning with the strongest data.</p>
<p>Annotation of characterized genes annotated on the genomic sequence is recorded. Annotated genes include those supported by experimentally confirmed RefSeqs as well as transcription loci that are predicted to encode a protein realized in a gene model. These annotated exon boundaries and the association of exons with genes form a skeleton that can be extended by subsequent analysis but cannot be contradicted subsequently.</p>
<p>Transcribed sequences that can be stringently aligned to genomic sequence with a requirement of splice site consensus are used to enumerate additional exon-intron boundaries. Not all sequence alignments satisfy this stringent requirement. Any sequences sharing an exon-intron boundary that can be identified with only one gene are grouped together.</p>
<p>Unspliced sequences, as well as sequences for which the splicing location or orientation is uncertain, are associated with an overlapping exon if one exists, or placed against genome if not. Sequence orientation is used where there is possible ambiguity of gene orientation.</p>
<p>Sequences that do not align to genomic sequence are grouped together, and transcribed sequences within an interval smaller than 3000 nt that have a common clone of origin are grouped together.</p>
</div>
<div>Clusters that do not correspond to an annotated gene and are less than 500 bases 3&#8242; of another cluster are likely alternative 3&#8242; termini, and are merged into the upstream cluster. This merging is not transitive.</div>
</div>
<h2>参考</h2>
<ul>
<li>UniGene主页：<a href="http://www.ncbi.nlm.nih.gov/unigene/">http://www.ncbi.nlm.nih.gov/unigene/</a></li>
<li><a href="http://en.wikipedia.org/wiki/UniGene">http://en.wikipedia.org/wiki/UniGene</a></li>
<li><a href="http://www.ncbi.nlm.nih.gov/books/NBK21083/">http://www.ncbi.nlm.nih.gov/books/NBK21083/</a></li>
<li><a href="ftp://ftp.ncbi.nih.gov/repository/UniGene">ftp://ftp.ncbi.nih.gov/repository/UniGene</a></li>
<li><a href="http://www.biosino.org/pages/ncbi-6.htm">http://www.biosino.org/pages/ncbi-6.htm</a></li>
</ul>
<div id="crp_related"><h3>相关文章：</h3><ul><li><a href="http://boyun.sh.cn/bio/?p=1090" rel="bookmark" class="crp_title">NCBI的数据库与工具列表</a></li><li><a href="http://boyun.sh.cn/bio/?p=1436" rel="bookmark" class="crp_title">mGene: Accurate SVM-based gene finding with an application to nematode genomes</a></li><li><a href="http://boyun.sh.cn/bio/?p=1760" rel="bookmark" class="crp_title">序列、序列比对需要弄明白的关键概念</a></li><li><a href="http://boyun.sh.cn/bio/?p=1430" rel="bookmark" class="crp_title">From DNA sequence to transcriptional behaviour: a quantitative approach</a></li><li><a href="http://boyun.sh.cn/bio/?p=102" rel="bookmark" class="crp_title">利用ClusterW2构建多重比对的web服务3：Jalview查看结果</a></li><li><a href="http://boyun.sh.cn/bio/?p=1443" rel="bookmark" class="crp_title">The CGView Server: a comparative genomics tool for circular genomes.</a></li><li><a href="http://boyun.sh.cn/bio/?p=1821" rel="bookmark" class="crp_title">Blast结果在GBrowse中展示</a></li><li><a href="http://boyun.sh.cn/bio/?p=1445" rel="bookmark" class="crp_title">mGene.web: a web service for accurate computational gene finding.</a></li><li><a href="http://boyun.sh.cn/bio/?p=1742" rel="bookmark" class="crp_title">蛋白质的分类与注释资源</a></li><li><a href="http://boyun.sh.cn/bio/?p=1062" rel="bookmark" class="crp_title">表达基因克隆技术与图谱构建策略研究</a></li></ul></div><div class="" id="s_widget"><h3>新书推荐</h3><OBJECT classid="clsid:D27CDB6E-AE6D-11cf-96B8-444553540000" codebase="http://fpdownload.macromedia.com/get/flashplayer/current/swflash.cab" id="Player_06bf285e-0552-41e0-a053-a8d8abf24ef8"  WIDTH="336px" HEIGHT="280px"> <PARAM NAME="movie" VALUE="http://ws.assoc-amazon.cn/widgets/q?ServiceVersion=20070822&MarketPlace=CN&ID=V20070822%2FCN%2Fboyun%2F8003%2F06bf285e-0552-41e0-a053-a8d8abf24ef8&Operation=GetDisplayTemplate"><PARAM NAME="quality" VALUE="high"><PARAM NAME="bgcolor" VALUE="#FFFFFF"><PARAM NAME="allowscriptaccess" VALUE="always"><embed src="http://ws.assoc-amazon.cn/widgets/q?ServiceVersion=20070822&MarketPlace=CN&ID=V20070822%2FCN%2Fboyun%2F8003%2F06bf285e-0552-41e0-a053-a8d8abf24ef8&Operation=GetDisplayTemplate" id="Player_06bf285e-0552-41e0-a053-a8d8abf24ef8" quality="high" bgcolor="#ffffff" name="Player_06bf285e-0552-41e0-a053-a8d8abf24ef8" allowscriptaccess="always"  type="application/x-shockwave-flash" align="middle" height="280px" width="336px"></embed></OBJECT> <NOSCRIPT><A HREF="http://ws.assoc-amazon.cn/widgets/q?ServiceVersion=20070822&MarketPlace=CN&ID=V20070822%2FCN%2Fboyun%2F8003%2F06bf285e-0552-41e0-a053-a8d8abf24ef8&Operation=NoScript">Amazon.cn Widgets</A></NOSCRIPT></div><div id="paper_license"><div> 　&raquo; 转载文章请注明，转载自：<a title="博耘生物" href="http://boyun.sh.cn/bio">博耘生物</a> &raquo; <a rel="bookmark" title="NCBI UniGene数据库介绍" href="http://boyun.sh.cn/bio/?p=1877">《NCBI UniGene数据库介绍》</a></div><div>　&raquo; 原文链接：<a rel="bookmark" title="NCBI UniGene数据库介绍" href="http://boyun.sh.cn/bio/?p=1877">http://boyun.sh.cn/bio/?p=1877</a></div></div>]]></content:encoded>
			<wfw:commentRss>http://boyun.sh.cn/bio/?feed=rss2&#038;p=1877</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Gbrowse权限管理</title>
		<link>http://boyun.sh.cn/bio/?p=1870</link>
		<comments>http://boyun.sh.cn/bio/?p=1870#comments</comments>
		<pubDate>Sun, 01 Apr 2012 03:07:31 +0000</pubDate>
		<dc:creator>boyun</dc:creator>
				<category><![CDATA[GBrowse]]></category>
		<category><![CDATA[权限管理]]></category>

		<guid isPermaLink="false">http://boyun.sh.cn/bio/?p=1870</guid>
		<description><![CDATA[或许你的数据没有发布，你只想部分人员访问你的Gbrowse，这就涉及到了权限管理，GBrowse提供了多种机制，你可以限制访问者的主机、IP地址、域名，或者只有通过用户名密码登陆后才可以访问。 Gbrowse 2.20以上的版本提供了以下三种权限管理的方式： 通过Apache提供的权限管理机制 构建自己的用户账户数据库 通过插件机制 Gbrowse是以Apache作为默认的服务器，Apache的权限机制自然适用于对其进行管理，Apache的权限管理是基于目录的，提供的多种权限验证机制，包括IP地址、主机名、域名以及用户账户等，通过配置实现，不清楚的读者可以通过Google进一步了解，其缺点就是维护访问账户的经常与服务器配置打交道，另外只能控制到目录层次，对于用户多、权限细化的需求就无法实现。 权限管理最为流行的方式就是用户注册，然后登陆，这里主要介绍，如何通过Gbrowse自身的用户系统实现对权限的访问。 要求 perl的DBI模块或者DBD::mysql，DBD::SQLite 允许用户注册，需要安装perl的Net::SMTP模块，以及提供SMTP发邮件的服务器 如果允许用户使用OpenIDs登录，需要安装perl的Net::OpenID::Consumer 配置GBrowse.conf [GENERAL] # ...lots of stuff... # Login Settings user_accounts = 1 user_accounts_registration = 1 user_accounts_openid = 1 user_account_db = DBI:SQLite:/var/www/gbrowse2/databases/users.sqlite smtp_gateway = localhost application_name = GBrowse application_name_long &#8230; <a href="http://boyun.sh.cn/bio/?p=1870">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
			<content:encoded><![CDATA[<p>或许你的数据没有发布，你只想部分人员访问你的Gbrowse，这就涉及到了权限管理，GBrowse提供了多种机制，你可以限制访问者的主机、IP地址、域名，或者只有通过用户名密码登陆后才可以访问。<br />
<img class="size-full wp-image-1873" title="Gbrowse user login" src="http://boyun.sh.cn/bio/wp-content/uploads/2012/04/Gbrowse_login.png" alt="Gbrowse用户登录" width="437" height="262" /></p>
<p>Gbrowse 2.20以上的版本提供了以下三种权限管理的方式：</p>
<ol>
<li>通过Apache提供的权限管理机制</li>
<li>构建自己的用户账户数据库</li>
<li>通过插件机制</li>
</ol>
<p><span id="more-1870"></span>Gbrowse是以Apache作为默认的服务器，Apache的权限机制自然适用于对其进行管理，Apache的权限管理是基于目录的，提供的多种权限验证机制，包括IP地址、主机名、域名以及用户账户等，通过配置实现，不清楚的读者可以通过Google进一步了解，其缺点就是维护访问账户的经常与服务器配置打交道，另外只能控制到目录层次，对于用户多、权限细化的需求就无法实现。</p>
<p>权限管理最为流行的方式就是用户注册，然后登陆，这里主要介绍，如何通过Gbrowse自身的用户系统实现对权限的访问。</p>
<h2>要求</h2>
<ul>
<li>perl的DBI模块或者DBD::mysql，DBD::SQLite</li>
<li>允许用户注册，需要安装perl的Net::SMTP模块，以及提供SMTP发邮件的服务器</li>
<li>如果允许用户使用OpenIDs登录，需要安装perl的<a title="http://search.cpan.org/perldoc?Net::OpenID::Consumer" href="http://search.cpan.org/perldoc?Net::OpenID::Consumer" rel="nofollow">Net::OpenID::Consumer</a></li>
</ul>
<h2>配置GBrowse.conf</h2>
<pre>[GENERAL]
# ...lots of stuff...

# Login Settings
user_accounts               = 1
user_accounts_registration  = 1
user_accounts_openid        = 1
user_account_db             = DBI:SQLite:/var/www/gbrowse2/databases/users.sqlite
smtp_gateway                = localhost
application_name            = GBrowse
application_name_long       = The Generic Genome Browser
email_address               = noreply@gbrowse.com</pre>
<p>user_account_db</p>
<p>使用mysql数据库</p>
<pre>DBI:mysql:database=gbrowse_login;host=mysql.oicr.on.ca;user=gbrowse;password=gbrowse</pre>
<p>使用SQLite数据库</p>
<pre> DBI:SQLite:/var/www/gbrowse2/databases/users.sqlite</pre>
<p>smtp_gateway<br />
邮件服务器设置，和客户端发邮件是一个道理。语法如下：</p>
<pre>&lt;smtp.server.com&gt;:&lt;port&gt;:&lt;encryption&gt;:&lt;username&gt;:&lt;password&gt;</pre>
<p>Gmail邮件设置示例：</p>
<pre>smtp_gateway           = smtp.gmail.com:465:ssl:john.doe:open_sesame</pre>
<p>数据库的创建</p>
<p>配置好以后，通过允许gbrowse_metadb_config.pl脚本，来创建数据库。包括user、openid_users、sessions、dbinfo四张表。</p>
<h3> Users</h3>
<table border="1" cellspacing="0" cellpadding="2">
<tbody>
<tr>
<th>Field</th>
<th>Type</th>
<th>Description</th>
</tr>
<tr>
<td>userid</td>
<td>integer not null PRIMARY KEY auto_increment</td>
<td>A unique user ID.</td>
</tr>
<tr>
<td>email</td>
<td>varchar(64) not null UNIQUE</td>
<td>An e-mail for confirmation &amp; notification.</td>
</tr>
<tr>
<td>pass</td>
<td>varchar(32) not null</td>
<td>An encrypted password (not stored as plain text).</td>
</tr>
<tr>
<td>remember</td>
<td>boolean not null</td>
<td>Whether to remember the user at this location or not.</td>
</tr>
<tr>
<td>openid_only</td>
<td>boolean not null</td>
<td>Was registered with an OpenID or no?</td>
</tr>
<tr>
<td>confirmed</td>
<td>boolean not null</td>
<td>Has been confirmed?</td>
</tr>
<tr>
<td>cnfm_code</td>
<td>varchar(32) not null</td>
<td>Confirmation code.</td>
</tr>
<tr>
<td>last_login</td>
<td>timestamp not null</td>
<td>Date &amp; time of last login.</td>
</tr>
<tr>
<td>created</td>
<td>datetime not null</td>
<td>Date &amp; time created.</td>
</tr>
</tbody>
</table>
<h3>OpenID Users</h3>
<table border="1" cellspacing="0" cellpadding="2">
<tbody>
<tr>
<th>Field</th>
<th>Type</th>
<th>Description</th>
</tr>
<tr>
<td>userid</td>
<td>integer not null</td>
<td>A unique user ID.</td>
</tr>
<tr>
<td>openid_url</td>
<td>varchar(128) not null PRIMARY key</td>
<td>The URL of the openID.</td>
</tr>
</tbody>
</table>
<h3>Sessions</h3>
<table border="1" cellspacing="0" cellpadding="2">
<tbody>
<tr>
<th>Field</th>
<th>Type</th>
<th>Description</th>
</tr>
<tr>
<td>userid</td>
<td>integer not null PRIMARY KEY auto increment</td>
<td>A unique user ID.</td>
</tr>
<tr>
<td>username</td>
<td>varchar(32)</td>
<td>A username, assigned on registration so the user can login. Anonymous users have “an anonymous user” as their username.</td>
</tr>
<tr>
<td>sessionid</td>
<td>char(32) not null UNIQUE</td>
<td>The 32-bit hexadecimal ID corresponding to their session.</td>
</tr>
<tr>
<td>uploadsid</td>
<td>char(32) not null UNIQUE</td>
<td>The 32-bit hexadecimal ID corresponding to their uploads folder.</td>
</tr>
</tbody>
</table>
<p><a id="DBInfo" name="DBInfo"></a></p>
<h3>DBInfo</h3>
<table border="1" cellspacing="0" cellpadding="2">
<tbody>
<tr>
<th>Field</th>
<th>Type</th>
<th>Description</th>
</tr>
<tr>
<td>schema_version</td>
<td>int(10) not null UNIQUE</td>
<td>The version number of the current schema.</td>
</tr>
</tbody>
</table>
<p>通过脚本添加用户</p>
<pre> gbrowse_create_account.pl [-pass &lt;password&gt; -fullname &lt;name&gt; -email &lt;email&gt;] &lt;username&gt;</pre>
<pre>gbrowse_change_passwd.pl &lt;username&gt; [&lt;password&gt;]</pre>
<p>权限的配置</p>
<p>通过restrict标签来进行设置。</p>
<p>限制对于数据源的访问</p>
<pre>[GENERAL]
# lots of other stuff...
restrict = require valid-user
...</pre>
<p>限制对某个Track的访问</p>
<pre>[5_prime_RACE]
glyph    = generic
feature  = RACE:5_prime
restrict = require user fred joseph andrea marta</pre>
<p>只有用户名为fred joseph andrea marta的可以访问。</p>
<p>Gbrowse 2.20及以上版本，还另外一种机制就是通过插件实现，调用Linux系统用户对于权限进行管理的，这里不做详述（还没有认真去看）。</p>
<h2>参考</h2>
<ul>
<li><a href="http://gmod.org/wiki/GBrowse_Configuration/Authentication">http://gmod.org/wiki/GBrowse_Configuration/Authentication</a></li>
<li><a href="http://gmod.org/wiki/GBrowse_User_Database">http://gmod.org/wiki/GBrowse_User_Database</a></li>
</ul>
<div id="crp_related"><h3>相关文章：</h3><ul><li><a href="http://boyun.sh.cn/bio/?p=1003" rel="bookmark" class="crp_title">MySQL查询的性能优化 &#8211; 查询缓冲提高查询速度</a></li><li><a href="http://boyun.sh.cn/bio/?p=639" rel="bookmark" class="crp_title">oracle：索引的陷阱</a></li><li><a href="http://boyun.sh.cn/bio/?p=876" rel="bookmark" class="crp_title">安装配置wampp2.2</a></li><li><a href="http://boyun.sh.cn/bio/?p=1773" rel="bookmark" class="crp_title">GBrowse的介绍与安装</a></li><li><a href="http://boyun.sh.cn/bio/?p=609" rel="bookmark" class="crp_title">Tomcat 用户管理</a></li><li><a href="http://boyun.sh.cn/bio/?p=1786" rel="bookmark" class="crp_title">GBrowse访问数据制备</a></li><li><a href="http://boyun.sh.cn/bio/?p=632" rel="bookmark" class="crp_title">Oracle日志详述</a></li><li><a href="http://boyun.sh.cn/bio/?p=703" rel="bookmark" class="crp_title">国际化合物标识</a></li><li><a href="http://boyun.sh.cn/bio/?p=1857" rel="bookmark" class="crp_title">KEGG Pathway数据结构</a></li><li><a href="http://boyun.sh.cn/bio/?p=529" rel="bookmark" class="crp_title">perl脚本：实现本地目录与FTP目录的同步</a></li></ul></div><div class="" id="s_widget"><h3>新书推荐</h3><OBJECT classid="clsid:D27CDB6E-AE6D-11cf-96B8-444553540000" codebase="http://fpdownload.macromedia.com/get/flashplayer/current/swflash.cab" id="Player_06bf285e-0552-41e0-a053-a8d8abf24ef8"  WIDTH="336px" HEIGHT="280px"> <PARAM NAME="movie" VALUE="http://ws.assoc-amazon.cn/widgets/q?ServiceVersion=20070822&MarketPlace=CN&ID=V20070822%2FCN%2Fboyun%2F8003%2F06bf285e-0552-41e0-a053-a8d8abf24ef8&Operation=GetDisplayTemplate"><PARAM NAME="quality" VALUE="high"><PARAM NAME="bgcolor" VALUE="#FFFFFF"><PARAM NAME="allowscriptaccess" VALUE="always"><embed src="http://ws.assoc-amazon.cn/widgets/q?ServiceVersion=20070822&MarketPlace=CN&ID=V20070822%2FCN%2Fboyun%2F8003%2F06bf285e-0552-41e0-a053-a8d8abf24ef8&Operation=GetDisplayTemplate" id="Player_06bf285e-0552-41e0-a053-a8d8abf24ef8" quality="high" bgcolor="#ffffff" name="Player_06bf285e-0552-41e0-a053-a8d8abf24ef8" allowscriptaccess="always"  type="application/x-shockwave-flash" align="middle" height="280px" width="336px"></embed></OBJECT> <NOSCRIPT><A HREF="http://ws.assoc-amazon.cn/widgets/q?ServiceVersion=20070822&MarketPlace=CN&ID=V20070822%2FCN%2Fboyun%2F8003%2F06bf285e-0552-41e0-a053-a8d8abf24ef8&Operation=NoScript">Amazon.cn Widgets</A></NOSCRIPT></div><div id="paper_license"><div> 　&raquo; 转载文章请注明，转载自：<a title="博耘生物" href="http://boyun.sh.cn/bio">博耘生物</a> &raquo; <a rel="bookmark" title="Gbrowse权限管理" href="http://boyun.sh.cn/bio/?p=1870">《Gbrowse权限管理》</a></div><div>　&raquo; 原文链接：<a rel="bookmark" title="Gbrowse权限管理" href="http://boyun.sh.cn/bio/?p=1870">http://boyun.sh.cn/bio/?p=1870</a></div></div>]]></content:encoded>
			<wfw:commentRss>http://boyun.sh.cn/bio/?feed=rss2&#038;p=1870</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>二代测序数据预处理与分析</title>
		<link>http://boyun.sh.cn/bio/?p=1862</link>
		<comments>http://boyun.sh.cn/bio/?p=1862#comments</comments>
		<pubDate>Thu, 12 Jan 2012 09:12:59 +0000</pubDate>
		<dc:creator>boyun</dc:creator>
				<category><![CDATA[RNA-SEQ专题]]></category>
		<category><![CDATA[工具/服务资源]]></category>
		<category><![CDATA[二代测序]]></category>
		<category><![CDATA[数据分析]]></category>

		<guid isPermaLink="false">http://boyun.sh.cn/bio/?p=1862</guid>
		<description><![CDATA[Next generation sequencing (NGS) 常使用的工具列表 质量控制Quality Control：FastQC、Fastx-toolkit 拼接Aligner：BWA，Bowtie, Tophat, SOAP2 Mapper：Tophat, Cufflinks 基因定量 Gene Quantification: Cufflinks, Avadis NGS 质量改进 Quality improvement: Genome Analysis Toolkit(GATK) SNP: Unified Genotyper,Glfmultiple, SAMtools, Avadis NGS CNV: CNVnator Indel: Pindel, Dindel, Unified Genotyper, Avadis NGS Mapping to &#8230; <a href="http://boyun.sh.cn/bio/?p=1862">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
			<content:encoded><![CDATA[<p>Next generation sequencing (NGS)</p>
<p><a href="http://boyun.sh.cn/bio/wp-content/uploads/2012/01/ngs_read_length.jpg"><img class="alignnone size-full wp-image-1863" title="ngs_read_length" src="http://boyun.sh.cn/bio/wp-content/uploads/2012/01/ngs_read_length.jpg" alt="主要的测序技术及其产生数据的差异" width="727" height="537" /></a></p>
<h2>常使用的工具列表</h2>
<div>
<ul>
<li>质量控制Quality Control：FastQC、Fastx-toolkit</li>
<li>拼接Aligner：BWA，Bowtie, Tophat, SOAP2</li>
<li>Mapper：Tophat, Cufflinks</li>
<li>基因定量 Gene Quantification: Cufflinks, Avadis NGS</li>
<li>质量改进 Quality improvement: Genome Analysis Toolkit(GATK)</li>
<li>SNP: Unified Genotyper,Glfmultiple, SAMtools, Avadis NGS</li>
<li>CNV: CNVnator</li>
<li>Indel: Pindel, Dindel, Unified Genotyper, Avadis NGS</li>
<li>Mapping to a gene: Cufflinks, Rsamtools, Genomic Features</li>
</ul>
</div>
<h2><span id="more-1862"></span>相关的数据格式</h2>
<div>
<ul>
<li>FASTQ:</li>
<li>SAM: A generic nucleotide alignment format</li>
<li>BAM: binary format</li>
<li>VCF</li>
</ul>
</div>
<h2>数据处理的流程</h2>
<p><a href="http://boyun.sh.cn/bio/wp-content/uploads/2012/01/ngs_workflow.jpg"><img class="alignnone size-full wp-image-1864" title="ngs_workflow" src="http://boyun.sh.cn/bio/wp-content/uploads/2012/01/ngs_workflow.jpg" alt="二代测序数据处理流程" width="722" height="530" /></a></p>
<h2>RNAseq数据不容易分析的原因：</h2>
<div>
<ul>
<li>差异大，0~几万</li>
<li>基因多</li>
<li>巨大的变异</li>
<li>样本量小</li>
</ul>
</div>
<h2>鉴定SNP可供借鉴的经验</h2>
<div>如果一个基因中SNP数目超过3个，10个碱基中SNP数目超过2个，这样的SNP就需要怀疑；</div>
<h2>通过RNAseq、DNAseq鉴定SNP，有什么区别？</h2>
<div>本质没有区别，但是RNAseq时，需要注意可变剪接造成的SNP。</div>
<div id="crp_related"><h3>相关文章：</h3><ul><li><a href="http://boyun.sh.cn/bio/?p=1615" rel="bookmark" class="crp_title">南北极新物种</a></li><li><a href="http://boyun.sh.cn/bio/?p=1555" rel="bookmark" class="crp_title">十大奇特物种交配方式</a></li><li><a href="http://boyun.sh.cn/bio/?p=1607" rel="bookmark" class="crp_title">粉色湖岸奇观-火烈鸟</a></li><li><a href="http://boyun.sh.cn/bio/?p=1626" rel="bookmark" class="crp_title">十大最危险海洋动物</a></li><li><a href="http://boyun.sh.cn/bio/?p=1453" rel="bookmark" class="crp_title">Blast结果的详细解析</a></li><li><a href="http://boyun.sh.cn/bio/?p=1665" rel="bookmark" class="crp_title">新兴互联网技术在生物信息学中的应用</a></li><li><a href="http://boyun.sh.cn/bio/?p=1574" rel="bookmark" class="crp_title">流感病毒数据库：Influenza Virus Resources</a></li><li><a href="http://boyun.sh.cn/bio/?p=1813" rel="bookmark" class="crp_title">从GenBank到GFF到Bio::DB::SeqFeature到GBrowse展示</a></li><li><a href="http://boyun.sh.cn/bio/?p=1467" rel="bookmark" class="crp_title">Blast本地化：window平台下blast软件的安装</a></li><li><a href="http://boyun.sh.cn/bio/?p=1798" rel="bookmark" class="crp_title">gbrowse图形显示配置</a></li></ul></div><div class="" id="s_widget"><h3>新书推荐</h3><OBJECT classid="clsid:D27CDB6E-AE6D-11cf-96B8-444553540000" codebase="http://fpdownload.macromedia.com/get/flashplayer/current/swflash.cab" id="Player_06bf285e-0552-41e0-a053-a8d8abf24ef8"  WIDTH="336px" HEIGHT="280px"> <PARAM NAME="movie" VALUE="http://ws.assoc-amazon.cn/widgets/q?ServiceVersion=20070822&MarketPlace=CN&ID=V20070822%2FCN%2Fboyun%2F8003%2F06bf285e-0552-41e0-a053-a8d8abf24ef8&Operation=GetDisplayTemplate"><PARAM NAME="quality" VALUE="high"><PARAM NAME="bgcolor" VALUE="#FFFFFF"><PARAM NAME="allowscriptaccess" VALUE="always"><embed src="http://ws.assoc-amazon.cn/widgets/q?ServiceVersion=20070822&MarketPlace=CN&ID=V20070822%2FCN%2Fboyun%2F8003%2F06bf285e-0552-41e0-a053-a8d8abf24ef8&Operation=GetDisplayTemplate" id="Player_06bf285e-0552-41e0-a053-a8d8abf24ef8" quality="high" bgcolor="#ffffff" name="Player_06bf285e-0552-41e0-a053-a8d8abf24ef8" allowscriptaccess="always"  type="application/x-shockwave-flash" align="middle" height="280px" width="336px"></embed></OBJECT> <NOSCRIPT><A HREF="http://ws.assoc-amazon.cn/widgets/q?ServiceVersion=20070822&MarketPlace=CN&ID=V20070822%2FCN%2Fboyun%2F8003%2F06bf285e-0552-41e0-a053-a8d8abf24ef8&Operation=NoScript">Amazon.cn Widgets</A></NOSCRIPT></div><div id="paper_license"><div> 　&raquo; 转载文章请注明，转载自：<a title="博耘生物" href="http://boyun.sh.cn/bio">博耘生物</a> &raquo; <a rel="bookmark" title="二代测序数据预处理与分析" href="http://boyun.sh.cn/bio/?p=1862">《二代测序数据预处理与分析》</a></div><div>　&raquo; 原文链接：<a rel="bookmark" title="二代测序数据预处理与分析" href="http://boyun.sh.cn/bio/?p=1862">http://boyun.sh.cn/bio/?p=1862</a></div></div>]]></content:encoded>
			<wfw:commentRss>http://boyun.sh.cn/bio/?feed=rss2&#038;p=1862</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>KEGG Pathway数据结构</title>
		<link>http://boyun.sh.cn/bio/?p=1857</link>
		<comments>http://boyun.sh.cn/bio/?p=1857#comments</comments>
		<pubDate>Wed, 11 Jan 2012 03:14:02 +0000</pubDate>
		<dc:creator>boyun</dc:creator>
				<category><![CDATA[工具/服务资源]]></category>
		<category><![CDATA[数据格式]]></category>
		<category><![CDATA[KEGG]]></category>
		<category><![CDATA[数据结构]]></category>

		<guid isPermaLink="false">http://boyun.sh.cn/bio/?p=1857</guid>
		<description><![CDATA[实体关系图 实体 名称 定义 Pathway specifies graph information stored in the KEGG pathway map 代谢通路图 path:ko00010 Entry The entry element contains information about a node of the pathway. 节点信息 Component a subelement of the entry element, and is used when &#8230; <a href="http://boyun.sh.cn/bio/?p=1857">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
			<content:encoded><![CDATA[<h2>实体关系图</h2>
<p><a href="http://boyun.sh.cn/bio/wp-content/uploads/2012/01/kgml_class.png"><img class="alignnone size-full wp-image-1858" title="kgml_class" src="http://boyun.sh.cn/bio/wp-content/uploads/2012/01/kgml_class.png" alt="KEGG实体关系图" width="724" height="528" /></a></p>
<h2><span style="color: #333333; font-style: normal; line-height: 24px;">实体</span></h2>
<table border="1" cellspacing="0" cellpadding="0">
<tbody>
<tr>
<td valign="top" width="92">名称</td>
<td valign="top" width="255"></td>
<td valign="top" width="132">定义</td>
<td valign="top" width="88"></td>
</tr>
<tr>
<td valign="top" width="92">Pathway</td>
<td valign="top" width="255">specifies graph information stored in the KEGG pathway map</td>
<td valign="top" width="132">代谢通路图</td>
<td valign="top" width="88">path:ko00010</td>
</tr>
<tr>
<td valign="top" width="92">Entry</td>
<td valign="top" width="255">The entry element contains information about a node of the pathway.</td>
<td valign="top" width="132">节点信息</td>
<td valign="top" width="88"></td>
</tr>
<tr>
<td valign="top" width="92">Component</td>
<td valign="top" width="255">a subelement of the entry element, and is used when the entry element is a complex node; namely, when the type attribute value of the entry element is “group”.</td>
<td valign="top" width="132">组件，一个复杂的节点，比如节点为Group类型时，包含的节点，可以存放到组件中</td>
<td valign="top" width="88"></td>
</tr>
<tr>
<td valign="top" width="92">Graphics</td>
<td valign="top" width="255">a subelement of the entry element, specifying drawing information about the graphics object.</td>
<td valign="top" width="132">节点在图位信息</td>
<td valign="top" width="88"></td>
</tr>
<tr>
<td valign="top" width="92">Relation</td>
<td valign="top" width="255">relationship between two proteins (gene products) or two KOs (ortholog groups) or protein and compound, which is indicated by an arrow or a line connecting two nodes in the KEGG pathways.</td>
<td valign="top" width="132">节点之间的关系</td>
<td valign="top" width="88"></td>
</tr>
<tr>
<td valign="top" width="92">Subtype</td>
<td valign="top" width="255">more detailed information about the nature of the interaction or the relation.</td>
<td valign="top" width="132">节点之间关系的更详细信息</td>
<td valign="top" width="88"></td>
</tr>
<tr>
<td valign="top" width="92">Reaction</td>
<td valign="top" width="255">chemical reaction between a substrate and a product indicated by an arrow connecting two circles in the KEGG pathways.</td>
<td valign="top" width="132">在KEGG通路中，用两个圆圈加箭头表示底物与产物之间的化学反应。</td>
<td valign="top" width="88">rn:(accession)rn:R02749</td>
</tr>
<tr>
<td valign="top" width="92">Substrate</td>
<td valign="top" width="255">the substrate node of this reaction.</td>
<td valign="top" width="132">反应的底物</td>
<td valign="top" width="88">cpd:(accession)<br />
gl:(accession)</td>
</tr>
<tr>
<td valign="top" width="92">Product</td>
<td valign="top" width="255">the product node of this reaction.</td>
<td valign="top" width="132">产物</td>
<td valign="top" width="88">cpd:(accession)<br />
gl:(accession)</td>
</tr>
<tr>
<td valign="top" width="92">Alt</td>
<td valign="top" width="255">the alternative name of its parent element.</td>
<td valign="top" width="132">别名</td>
<td valign="top" width="88">cpd:(accession)<br />
gl:(accession)</td>
</tr>
</tbody>
</table>
<h2><span id="more-1857"></span>节点的类型</h2>
<table border="1">
<tbody>
<tr id="item">
<td id="a1">attribute value</td>
<td id="a2">explanation</td>
</tr>
<tr>
<td>path:(accession)</td>
<td>pathway map<br />
ex) name=”path:map00040&#8243;</td>
</tr>
<tr>
<td>ko:(accession)</td>
<td>KO (ortholog group)<br />
ex) name=”ko:E3.1.4.11&#8243;</td>
</tr>
<tr>
<td>ec:(accession)</td>
<td>enzyme 酶<br />
ex) name=”ec:1.1.3.5&#8243;</td>
</tr>
<tr>
<td>rn:(accession)</td>
<td>reaction 反应<br />
ex) name=”rn:R00120&#8243;</td>
</tr>
<tr>
<td>cpd:(accession)</td>
<td>chemical compound 化合物<br />
ex) name=”cpd:C01243&#8243;</td>
</tr>
<tr>
<td>gl:(accession)</td>
<td>glycan 多糖<br />
ex) name=”gl:G00166&#8243;</td>
</tr>
<tr>
<td>[org prefix]:(accession)</td>
<td>gene product of a given organism 基因产物<br />
ex) name=”eco:b1207&#8243;</td>
</tr>
<tr>
<td>group:(accession)</td>
<td>complex of KOs 组<br />
If accession is undefined, “undefined” is specified.<br />
ex) name=”group:ORC”</td>
</tr>
</tbody>
</table>
<h2>节点关联的类型</h2>
<table border="1" cellspacing="0" cellpadding="0">
<tbody>
<tr>
<td width="83">
<p align="left">attribute value</p>
</td>
<td width="255">
<p align="left">explanation</p>
</td>
<td valign="top" width="218"></td>
</tr>
<tr>
<td width="83">
<p align="left">ECrel</p>
</td>
<td width="255">
<p align="left">enzyme-enzyme relation, indicating two enzymes catalyzing successive reaction steps</p>
</td>
<td valign="top" width="218">
<p align="left">酶与酶的关系，表明这两种酶催化逐次反应步骤</p>
</td>
</tr>
<tr>
<td width="83">
<p align="left">PPrel</p>
</td>
<td width="255">
<p align="left">protein-protein interaction, such as binding and modification</p>
</td>
<td valign="top" width="218">
<p align="left">蛋白质与蛋白质相互作用，比如绑定与修饰</p>
</td>
</tr>
<tr>
<td width="83">
<p align="left">GErel</p>
</td>
<td width="255">
<p align="left">gene expression interaction, indicating relation of transcription factor and target gene product</p>
</td>
<td valign="top" width="218">
<p align="left">基因表达的相互作用，表明转录因子与靶基因产物的关系</p>
</td>
</tr>
<tr>
<td width="83">
<p align="left">PCrel</p>
</td>
<td width="255">
<p align="left">protein-compound interaction</p>
</td>
<td valign="top" width="218">
<p align="left">蛋白质与化合物相互作用</p>
</td>
</tr>
<tr>
<td width="83">
<p align="left">maplink</p>
</td>
<td width="255">
<p align="left">link to another map</p>
</td>
<td valign="top" width="218">
<p align="left">链接到另一个图谱</p>
</td>
</tr>
</tbody>
</table>
<h2>关联或者相互作用的进一步明细</h2>
<table border="1" cellspacing="0" cellpadding="0">
<tbody>
<tr>
<td width="87">
<p align="left">name</p>
</td>
<td width="93">
<p align="left">value</p>
</td>
<td width="38">
<p align="left">ECrel</p>
</td>
<td width="28">
<p align="left">PPrel</p>
</td>
<td width="28">
<p align="left">GErel</p>
</td>
<td width="196">
<p align="left">Explanation</p>
</td>
<td valign="top" width="85"></td>
</tr>
<tr>
<td width="87">
<p align="left">compound</p>
</td>
<td width="93">
<p align="left">Entry element id attribute value for compound.</p>
</td>
<td width="38">
<p align="left">*</p>
</td>
<td width="28">
<p align="left">*</p>
</td>
<td width="28"></td>
<td width="196">
<p align="left">shared with two successive reactions (ECrel) or intermediate of two interacting proteins (PPrel)</p>
</td>
<td valign="top" width="85">
<p align="left">两个连续反应的共享复合物</p>
<p align="left">另个相互作用蛋白质的中间体</p>
</td>
</tr>
<tr>
<td width="87">
<p align="left">hidden compound</p>
</td>
<td width="93">
<p align="left">Entry element id attribute value for hidden compound.</p>
</td>
<td width="38">
<p align="left">*</p>
</td>
<td width="28"></td>
<td width="28"></td>
<td width="196">
<p align="left">shared with two successive reactions but not displayed in the pathway map</p>
</td>
<td valign="top" width="85">
<p align="left">隐含的复合物</p>
</td>
</tr>
<tr>
<td width="87">
<p align="left">activation</p>
</td>
<td width="93">
<p align="left">&#8211;&gt;</p>
</td>
<td width="38"></td>
<td width="28">
<p align="left">*</p>
</td>
<td width="28"></td>
<td rowspan="2" width="196">
<p align="left">positive and negative effects which may be associated with molecular information below</p>
</td>
<td valign="top" width="85">
<p align="left">激活</p>
</td>
</tr>
<tr>
<td width="87">
<p align="left">inhibition</p>
</td>
<td width="93">
<p align="left">&#8211;|</p>
</td>
<td width="38"></td>
<td width="28">
<p align="left">*</p>
</td>
<td width="28"></td>
<td valign="top" width="85">
<p align="left">抑制</p>
</td>
</tr>
<tr>
<td width="87">
<p align="left">expression</p>
</td>
<td width="93">
<p align="left">&#8211;&gt;</p>
</td>
<td width="38"></td>
<td width="28"></td>
<td width="28">
<p align="left">*</p>
</td>
<td rowspan="2" width="196">
<p align="left">interactions via DNA binding</p>
</td>
<td valign="top" width="85">
<p align="left">表达</p>
</td>
</tr>
<tr>
<td width="87">
<p align="left">repression</p>
</td>
<td width="93">
<p align="left">&#8211;|</p>
</td>
<td width="38"></td>
<td width="28"></td>
<td width="28">
<p align="left">*</p>
</td>
<td valign="top" width="85">
<p align="left">抑制</p>
</td>
</tr>
<tr>
<td width="87">
<p align="left">indirect effect</p>
</td>
<td width="93">
<p align="left">..&gt;</p>
</td>
<td width="38"></td>
<td width="28">
<p align="left">*</p>
</td>
<td width="28">
<p align="left">*</p>
</td>
<td width="196">
<p align="left">indirect effect without molecular details</p>
</td>
<td valign="top" width="85">
<p align="left">间接影响</p>
</td>
</tr>
<tr>
<td width="87">
<p align="left">state change</p>
</td>
<td width="93">
<p align="left">&#8230;</p>
</td>
<td width="38"></td>
<td width="28">
<p align="left">*</p>
</td>
<td width="28"></td>
<td width="196">
<p align="left">state transition</p>
</td>
<td valign="top" width="85">
<p align="left">状态改变</p>
</td>
</tr>
<tr>
<td width="87">
<p align="left">binding/association</p>
</td>
<td width="93">
<p align="left">&#8212;</p>
</td>
<td width="38"></td>
<td width="28">
<p align="left">*</p>
</td>
<td width="28"></td>
<td rowspan="2" width="196">
<p align="left">association and dissociation</p>
</td>
<td valign="top" width="85">
<p align="left">绑定或者结合</p>
</td>
</tr>
<tr>
<td width="87">
<p align="left">dissociation</p>
</td>
<td width="93">
<p align="left">-+-</p>
</td>
<td width="38"></td>
<td width="28">
<p align="left">*</p>
</td>
<td width="28"></td>
<td valign="top" width="85">
<p align="left">解离</p>
</td>
</tr>
<tr>
<td width="87">
<p align="left">missing interaction</p>
</td>
<td width="93">
<p align="left">-/-</p>
</td>
<td width="38"></td>
<td width="28">
<p align="left">*</p>
</td>
<td width="28">
<p align="left">*</p>
</td>
<td width="196">
<p align="left">missing interaction due to mutation, etc.</p>
</td>
<td valign="top" width="85">
<p align="left">由于突变，缺失的相互作用</p>
</td>
</tr>
<tr>
<td width="87">
<p align="left">phosphorylation</p>
</td>
<td width="93">
<p align="left">+p</p>
</td>
<td width="38"></td>
<td width="28">
<p align="left">*</p>
</td>
<td width="28"></td>
<td rowspan="5" width="196">
<p align="left">molecular events 分子水平</p>
</td>
<td valign="top" width="85">
<p align="left">磷酸化</p>
</td>
</tr>
<tr>
<td width="87">
<p align="left">dephosphorylation</p>
</td>
<td width="93">
<p align="left">-p</p>
</td>
<td width="38"></td>
<td width="28">
<p align="left">*</p>
</td>
<td width="28"></td>
<td valign="top" width="85">
<p align="left">去磷酸化</p>
</td>
</tr>
<tr>
<td width="87">
<p align="left">glycosylation</p>
</td>
<td width="93">
<p align="left">+g</p>
</td>
<td width="38"></td>
<td width="28">
<p align="left">*</p>
</td>
<td width="28"></td>
<td valign="top" width="85">
<p align="left">糖基化</p>
</td>
</tr>
<tr>
<td width="87">
<p align="left">ubiquitination</p>
</td>
<td width="93">
<p align="left">+u</p>
</td>
<td width="38"></td>
<td width="28">
<p align="left">*</p>
</td>
<td width="28"></td>
<td valign="top" width="85">
<p align="left">泛素化</p>
</td>
</tr>
<tr>
<td width="87">
<p align="left">methylation</p>
</td>
<td width="93">
<p align="left">+m</p>
</td>
<td width="38"></td>
<td width="28">
<p align="left">*</p>
</td>
<td width="28"></td>
<td valign="top" width="85">
<p align="left">甲基化</p>
</td>
</tr>
</tbody>
</table>
<h2>数据的获取</h2>
<p>所有的pathway信息，可以下载XML文件，解析XML文件可以得到该pathway的所有数据，如果只是需要部分数据，可以在程序中直接调用KEGG提供的API。</p>
<h2>相关链接</h2>
<ul>
<li><a href="http://www.kegg.jp/kegg/xml/docs/">http://www.kegg.jp/kegg/xml/docs/</a></li>
<li><a href="http://www.kegg.jp/kegg/soap/doc/keggapi_manual.html">http://www.kegg.jp/kegg/soap/doc/keggapi_manual.html</a></li>
</ul>
<div id="crp_related"><h3>相关文章：</h3><ul><li><a href="http://boyun.sh.cn/bio/?p=1483" rel="bookmark" class="crp_title">blast本地化：格式化数据库（formatdb详解）</a></li><li><a href="http://boyun.sh.cn/bio/?p=1467" rel="bookmark" class="crp_title">Blast本地化：window平台下blast软件的安装</a></li><li><a href="http://boyun.sh.cn/bio/?p=1473" rel="bookmark" class="crp_title">Blast本地化：构建自己的搜索数据库</a></li><li><a href="http://boyun.sh.cn/bio/?p=1192" rel="bookmark" class="crp_title">FASTA序列格式详细说明</a></li><li><a href="http://boyun.sh.cn/bio/?p=1488" rel="bookmark" class="crp_title">Blast本地化：使用Blastall进行数据库比对</a></li><li><a href="http://boyun.sh.cn/bio/?p=1730" rel="bookmark" class="crp_title">生物信息学编程语言选择</a></li><li><a href="http://boyun.sh.cn/bio/?p=1555" rel="bookmark" class="crp_title">十大奇特物种交配方式</a></li><li><a href="http://boyun.sh.cn/bio/?p=1711" rel="bookmark" class="crp_title">多重比对序列的格式及其应用</a></li><li><a href="http://boyun.sh.cn/bio/?p=703" rel="bookmark" class="crp_title">国际化合物标识</a></li><li><a href="http://boyun.sh.cn/bio/?p=1626" rel="bookmark" class="crp_title">十大最危险海洋动物</a></li></ul></div><div class="" id="s_widget"><h3>新书推荐</h3><OBJECT classid="clsid:D27CDB6E-AE6D-11cf-96B8-444553540000" codebase="http://fpdownload.macromedia.com/get/flashplayer/current/swflash.cab" id="Player_06bf285e-0552-41e0-a053-a8d8abf24ef8"  WIDTH="336px" HEIGHT="280px"> <PARAM NAME="movie" VALUE="http://ws.assoc-amazon.cn/widgets/q?ServiceVersion=20070822&MarketPlace=CN&ID=V20070822%2FCN%2Fboyun%2F8003%2F06bf285e-0552-41e0-a053-a8d8abf24ef8&Operation=GetDisplayTemplate"><PARAM NAME="quality" VALUE="high"><PARAM NAME="bgcolor" VALUE="#FFFFFF"><PARAM NAME="allowscriptaccess" VALUE="always"><embed src="http://ws.assoc-amazon.cn/widgets/q?ServiceVersion=20070822&MarketPlace=CN&ID=V20070822%2FCN%2Fboyun%2F8003%2F06bf285e-0552-41e0-a053-a8d8abf24ef8&Operation=GetDisplayTemplate" id="Player_06bf285e-0552-41e0-a053-a8d8abf24ef8" quality="high" bgcolor="#ffffff" name="Player_06bf285e-0552-41e0-a053-a8d8abf24ef8" allowscriptaccess="always"  type="application/x-shockwave-flash" align="middle" height="280px" width="336px"></embed></OBJECT> <NOSCRIPT><A HREF="http://ws.assoc-amazon.cn/widgets/q?ServiceVersion=20070822&MarketPlace=CN&ID=V20070822%2FCN%2Fboyun%2F8003%2F06bf285e-0552-41e0-a053-a8d8abf24ef8&Operation=NoScript">Amazon.cn Widgets</A></NOSCRIPT></div><div id="paper_license"><div> 　&raquo; 转载文章请注明，转载自：<a title="博耘生物" href="http://boyun.sh.cn/bio">博耘生物</a> &raquo; <a rel="bookmark" title="KEGG Pathway数据结构" href="http://boyun.sh.cn/bio/?p=1857">《KEGG Pathway数据结构》</a></div><div>　&raquo; 原文链接：<a rel="bookmark" title="KEGG Pathway数据结构" href="http://boyun.sh.cn/bio/?p=1857">http://boyun.sh.cn/bio/?p=1857</a></div></div>]]></content:encoded>
			<wfw:commentRss>http://boyun.sh.cn/bio/?feed=rss2&#038;p=1857</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>2011年度终结</title>
		<link>http://boyun.sh.cn/bio/?p=1853</link>
		<comments>http://boyun.sh.cn/bio/?p=1853#comments</comments>
		<pubDate>Mon, 19 Dec 2011 15:25:02 +0000</pubDate>
		<dc:creator>boyun</dc:creator>
				<category><![CDATA[大话生物信息]]></category>
		<category><![CDATA[感想总结]]></category>

		<guid isPermaLink="false">http://boyun.sh.cn/bio/?p=1853</guid>
		<description><![CDATA[2011年即将结束，也切好有些空闲，对这一年进行些终结与反思。这一年，乔布斯走了，每个人的生命都是有限的， 生的意义都需要常常的反思。 前几年，学习中心一直在计算机方面，软件工程、团队管理、数据库、系统管理、编程语言、前端开发等等，以前想做的事情，现在都可以做了，而在具体的某个方面再向前突破，由于缺少一些环境，所以动力不足。 而今年给自己订的主题是“突围”，如何突围，当反思使命与归属的时候，必然又回到了生物信息领域本身。这些年也一直在做着各种生物信息方面的数据库应用系统的开发，而环顾我接触的方方面面，其实都可以和数据库应用系统发生关联，而目前飞速发展的测序产业，也必将带动数据库应用系统的开发，这些数据得到了，但是如何来管理，如何来应用？以及结合自身的特点，建立不同的主题数据库的需求也会很多，所以突破的方向，也就是我博客围绕的主题，数据库信息系统，当然数据分析流程、现有系统的集成、各种模块的学习都必然有所关联。 另外的方面就是这个博客，由于关心的大多数是计算机方面的技术，所以两年前开始的生物信息方面的博客，那段时间也少有更新，以后呢，将自己实践过得、学习过的要及时的总结发表出来，同时按照自己的设想主题，主动的写点东西。 还有一个稍微长远的目标，出版一本通俗易通的生物信息方面书。 以上谈得几个方面，也都取得了进展，当然还有很多是设想层面的，比如对于信息系统的设想，对于出书主题与风格的设想，这些都需要更多的实践来进行完善。下面是自己的一些感想，本来只想写一些，这些感受，而前面的序言一写就多了。 阻碍自己的往往不是哪些未知的东西，而是一知半解的东西，总是认为自己已经知道了，就再也塌不下心来进行学习了，可以描绘出对于生物信息的一些领域自己的处境。需要告诫自己就是要时刻保持一种谦虚的的心态以及自我批判与反思。即便自己入行多年，有些基本的东西，确实还没有弄明白，所以还要奉行多提问，多总结； 也有很多的东西，比如深入的算法，统计学原理，自己曾经面对过，没有搞懂，放弃了，现在的某个时刻，又遇到了，怎么办？躲避，给哪些东西都贴上一个标签，这个呢不是我的方向，还是好奇心驱使下，再积极的进行尝试？这似乎变成了一个真理题，有些东西有些人是不是就是学不会，还是只是方法的问题，比如缺少一本好书，许多更多的时间，或者需要更多的学习。我的选择还是要积极的尝试，或许随着你能力的提高，有些问题就不在是个问题了； 对于做过的事情，最后一定要变成可以看得见的产出，可以是一篇博客、一个证书、一个系统、一篇论文。 订了目标，就一定能实现，许多时候缺乏这个目标。 &#160; 相关文章：Oracle的索引总结数据解释入Mysql时遇到的问题一例科研过程的标准化使用perl脚本抓取网页总结重建微生物转录调控网络PHYLIP在Linux下的安装使用perl生成SitemapDTD 解析关于框架的思考蛋白质二级结构预测新书推荐 Amazon.cn Widgets 　&#187; 转载文章请注明，转载自：博耘生物 &#187; 《2011年度终结》　&#187; 原文链接：http://boyun.sh.cn/bio/?p=1853]]></description>
			<content:encoded><![CDATA[<p>2011年即将结束，也切好有些空闲，对这一年进行些终结与反思。这一年，乔布斯走了，每个人的生命都是有限的， 生的意义都需要常常的反思。</p>
<p>前几年，学习中心一直在计算机方面，软件工程、团队管理、数据库、系统管理、编程语言、前端开发等等，以前想做的事情，现在都可以做了，而在具体的某个方面再向前突破，由于缺少一些环境，所以动力不足。</p>
<p>而今年给自己订的主题是“突围”，如何突围，当反思使命与归属的时候，必然又回到了生物信息领域本身。这些年也一直在做着各种生物信息方面的数据库应用系统的开发，而环顾我接触的方方面面，其实都可以和数据库应用系统发生关联，而目前飞速发展的测序产业，也必将带动数据库应用系统的开发，这些数据得到了，但是如何来管理，如何来应用？以及结合自身的特点，建立不同的主题数据库的需求也会很多，所以突破的方向，也就是我博客围绕的主题，数据库信息系统，当然数据分析流程、现有系统的集成、各种模块的学习都必然有所关联。<span id="more-1853"></span></p>
<p>另外的方面就是这个博客，<span style="color: #333333; font-style: normal; line-height: 24px;">由于关心的大多数是计算机方面的技术，所以两年前开始的生物信息方面的博客，那段时间也少有更新，以后呢，将自己实践过得、学习过的要及时的总结发表出来，同时按照自己的设想主题，主动的写点东西。</span></p>
<p>还有一个稍微长远的目标，出版一本通俗易通的生物信息方面书。</p>
<p>以上谈得几个方面，也都取得了进展，当然还有很多是设想层面的，比如对于信息系统的设想，对于出书主题与风格的设想，这些都需要更多的实践来进行完善。下面是自己的一些感想，本来只想写一些，这些感受，而前面的序言一写就多了。</p>
<ul>
<li>阻碍自己的往往不是哪些未知的东西，而是一知半解的东西，总是认为自己已经知道了，就再也塌不下心来进行学习了，可以描绘出对于生物信息的一些领域自己的处境。需要告诫自己就是要时刻保持一种谦虚的的心态以及自我批判与反思。即便自己入行多年，有些基本的东西，确实还没有弄明白，所以还要奉行多提问，多总结；</li>
<li>也有很多的东西，比如深入的算法，统计学原理，自己曾经面对过，没有搞懂，放弃了，现在的某个时刻，又遇到了，怎么办？躲避，给哪些东西都贴上一个标签，这个呢不是我的方向，还是好奇心驱使下，再积极的进行尝试？这似乎变成了一个真理题，有些东西有些人是不是就是学不会，还是只是方法的问题，比如缺少一本好书，许多更多的时间，或者需要更多的学习。我的选择还是要积极的尝试，或许随着你能力的提高，有些问题就不在是个问题了；</li>
<li>对于做过的事情，最后一定要变成可以看得见的产出，可以是一篇博客、一个证书、一个系统、一篇论文。</li>
<li>订了目标，就一定能实现，许多时候缺乏这个目标。</li>
</ul>
<p>&nbsp;</p>
<div id="crp_related"><h3>相关文章：</h3><ul><li><a href="http://boyun.sh.cn/bio/?p=623" rel="bookmark" class="crp_title">Oracle的索引总结</a></li><li><a href="http://boyun.sh.cn/bio/?p=900" rel="bookmark" class="crp_title">数据解释入Mysql时遇到的问题一例</a></li><li><a href="http://boyun.sh.cn/bio/?p=421" rel="bookmark" class="crp_title">科研过程的标准化</a></li><li><a href="http://boyun.sh.cn/bio/?p=1042" rel="bookmark" class="crp_title">使用perl脚本抓取网页总结</a></li><li><a href="http://boyun.sh.cn/bio/?p=242" rel="bookmark" class="crp_title">重建微生物转录调控网络</a></li><li><a href="http://boyun.sh.cn/bio/?p=497" rel="bookmark" class="crp_title">PHYLIP在Linux下的安装</a></li><li><a href="http://boyun.sh.cn/bio/?p=230" rel="bookmark" class="crp_title">使用perl生成Sitemap</a></li><li><a href="http://boyun.sh.cn/bio/?p=793" rel="bookmark" class="crp_title">DTD 解析</a></li><li><a href="http://boyun.sh.cn/bio/?p=401" rel="bookmark" class="crp_title">关于框架的思考</a></li><li><a href="http://boyun.sh.cn/bio/?p=1202" rel="bookmark" class="crp_title">蛋白质二级结构预测</a></li></ul></div><div class="" id="s_widget"><h3>新书推荐</h3><OBJECT classid="clsid:D27CDB6E-AE6D-11cf-96B8-444553540000" codebase="http://fpdownload.macromedia.com/get/flashplayer/current/swflash.cab" id="Player_06bf285e-0552-41e0-a053-a8d8abf24ef8"  WIDTH="336px" HEIGHT="280px"> <PARAM NAME="movie" VALUE="http://ws.assoc-amazon.cn/widgets/q?ServiceVersion=20070822&MarketPlace=CN&ID=V20070822%2FCN%2Fboyun%2F8003%2F06bf285e-0552-41e0-a053-a8d8abf24ef8&Operation=GetDisplayTemplate"><PARAM NAME="quality" VALUE="high"><PARAM NAME="bgcolor" VALUE="#FFFFFF"><PARAM NAME="allowscriptaccess" VALUE="always"><embed src="http://ws.assoc-amazon.cn/widgets/q?ServiceVersion=20070822&MarketPlace=CN&ID=V20070822%2FCN%2Fboyun%2F8003%2F06bf285e-0552-41e0-a053-a8d8abf24ef8&Operation=GetDisplayTemplate" id="Player_06bf285e-0552-41e0-a053-a8d8abf24ef8" quality="high" bgcolor="#ffffff" name="Player_06bf285e-0552-41e0-a053-a8d8abf24ef8" allowscriptaccess="always"  type="application/x-shockwave-flash" align="middle" height="280px" width="336px"></embed></OBJECT> <NOSCRIPT><A HREF="http://ws.assoc-amazon.cn/widgets/q?ServiceVersion=20070822&MarketPlace=CN&ID=V20070822%2FCN%2Fboyun%2F8003%2F06bf285e-0552-41e0-a053-a8d8abf24ef8&Operation=NoScript">Amazon.cn Widgets</A></NOSCRIPT></div><div id="paper_license"><div> 　&raquo; 转载文章请注明，转载自：<a title="博耘生物" href="http://boyun.sh.cn/bio">博耘生物</a> &raquo; <a rel="bookmark" title="2011年度终结" href="http://boyun.sh.cn/bio/?p=1853">《2011年度终结》</a></div><div>　&raquo; 原文链接：<a rel="bookmark" title="2011年度终结" href="http://boyun.sh.cn/bio/?p=1853">http://boyun.sh.cn/bio/?p=1853</a></div></div>]]></content:encoded>
			<wfw:commentRss>http://boyun.sh.cn/bio/?feed=rss2&#038;p=1853</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>直系同源预测方法</title>
		<link>http://boyun.sh.cn/bio/?p=1849</link>
		<comments>http://boyun.sh.cn/bio/?p=1849#comments</comments>
		<pubDate>Mon, 19 Dec 2011 08:46:04 +0000</pubDate>
		<dc:creator>boyun</dc:creator>
				<category><![CDATA[功能预测专题]]></category>
		<category><![CDATA[大话生物信息]]></category>
		<category><![CDATA[数据分析]]></category>
		<category><![CDATA[比较基因组]]></category>
		<category><![CDATA[功能预测]]></category>
		<category><![CDATA[序列比对]]></category>
		<category><![CDATA[旁系同源]]></category>
		<category><![CDATA[直系同源]]></category>

		<guid isPermaLink="false">http://boyun.sh.cn/bio/?p=1849</guid>
		<description><![CDATA[直系同源的基因通常具有相似的生物学功能，所以我们在进行一个未知序列的功能的鉴定的时候，其实质在找功能已知的同源基因。功能基因组的研究过程中，对于两个或者多个物种的同源基因进行鉴定，是功能基因鉴定、比较基因组、功能基因分类、pathway预测等待的基础。 基因相似性、一致性与同源性 同源性是序列同源或者不同源的一种论断，而一致性和相似性是一种描述序列相关性的量； 如果两条序列有一个共同的进化祖先，那么他们就是同源的，不存在同源性的程度问题，要么同源，要么不同源； 同源蛋白总是在三维结构上有显著的相似性； 两条蛋白即使没有统计上显著的一致性，其也可能是同源的； 两条蛋白质是否同源的最强的证据来自于结构研究和进化分析； 一致性（identity）表示了两个序列相同的程度； 两条序列的相似性百分比（percent similarity）是相等于相似匹配之和； 一般的一致性比相似性更有用些，因为相似性的衡量依赖于如何定义两个氨基酸残基是如何相似的； 双序列的比对是排列两条序列以达到最大程度相同的过程，其目的是衡量两个分子的相似性和同源的可能性； 确定两个蛋白是否同源的问题检查单 期望值是否显著？ 两个蛋白质是否有近似的大小？ 是否具有共同的模体或信号序列？ 多序列比对的融合性？ 是否具有相似的分子特性？ 是否具有相似的三维结构？ 双向blast比对结构是否一致？ 是否具有相似的生物学功能？ 直系同源与旁系同源 同源的蛋白质可以分为直系同源与旁系同源，当同源是基因复制的结果，两份拷贝在一个物种的历史上是平行演化的，这样的基因被称为旁系同源基因。当同源是物种形成的结果，基因的历史反映了物种的历史，被称为直系同源； 直系同源是不同物种内的同源序列，他们是来自于物种形成时的共同祖先基因； 通常认为直系同源的序列具有相似的生物学功能； 直系同源与旁系同源的区分 判断直系同源还是旁系同源主要依据最大似然法构建的基因系统发育树。 系统发育树可以显示出基因家族演化的历史，比如基因从一个共同的祖先中分化的。基因树同物种树进行比对，是否有内部的节点，将是区别复制事件与物种分化事件的依据。如果只是简单的只有唯一的直系同源基因，这样的验证非常容易区别。但是大多数情况都是一对多或者多对多的关系。比如斑马鱼与哺乳动物的同源基因比较中这种情况非常多，在果蝇与哺乳动物或者蠕虫与哺乳动物的同源基因预测中，这中情况更为明显。 鉴定直系同源基因的方法，分为7步： 从Ensemble下载要比对物种的所有基因的蛋白质序列，如果一个基因有多个转录本，只取最长的； 使用WUBlastp+SmithWaterman，每个基因同所有的基因进行比对，也就是将所有物种的基因当做一个库，用这个库和其本身进行比对； 基于BRH与BSR的值，为这些基因建立关系图； 将有关联的分为一组，相当于一个基因家族； 对于每一组，将蛋白质序列用MUSCLE进行多重比对； 对比好的每一组，使用多重比对结果中蛋白质对应的CDS序列，使用NJTREE构建系统发育树； 针对每个基因树，推断每两个基因是直系同源还是旁系同源： Orthologues : 两个基因之间的根节点是一个物种形成事件 直系同源的几种情况 &#8230; <a href="http://boyun.sh.cn/bio/?p=1849">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
			<content:encoded><![CDATA[<p>直系同源的基因通常具有相似的生物学功能，所以我们在进行一个未知序列的功能的鉴定的时候，其实质在找功能已知的同源基因。功能基因组的研究过程中，对于两个或者多个物种的同源基因进行鉴定，是功能基因鉴定、比较基因组、功能基因分类、pathway预测等待的基础。</p>
<h2>基因相似性、一致性与同源性</h2>
<ul>
<li>同源性是序列同源或者不同源的一种论断，而一致性和相似性是一种描述序列相关性的量；</li>
<li>如果两条序列有一个共同的进化祖先，那么他们就是同源的，不存在同源性的程度问题，要么同源，要么不同源；</li>
<li>同源蛋白总是在三维结构上有显著的相似性；</li>
<li>两条蛋白即使没有统计上显著的一致性，其也可能是同源的；</li>
<li>两条蛋白质是否同源的最强的证据来自于结构研究和进化分析；</li>
<li>一致性（identity）表示了两个序列相同的程度；</li>
<li>两条序列的相似性百分比（percent similarity）是相等于相似匹配之和；</li>
<li>一般的一致性比相似性更有用些，因为相似性的衡量依赖于如何定义两个氨基酸残基是如何相似的；</li>
<li>双序列的比对是排列两条序列以达到最大程度相同的过程，其目的是衡量两个分子的相似性和同源的可能性；<br />
<span id="more-1849"></span></li>
</ul>
<h2>确定两个蛋白是否同源的问题检查单</h2>
<ul>
<li>期望值是否显著？</li>
<li>两个蛋白质是否有近似的大小？</li>
<li>是否具有共同的模体或信号序列？</li>
<li>多序列比对的融合性？</li>
<li>是否具有相似的分子特性？</li>
<li>是否具有相似的三维结构？</li>
<li>双向blast比对结构是否一致？</li>
<li>是否具有相似的生物学功能？</li>
</ul>
<h2>直系同源与旁系同源</h2>
<ul>
<li><strong>同源的蛋白质可以分为直系同源与旁系同源，当同源是基因复制的结果，两份拷贝在一个物种的历史上是平行演化的，这样的基因被称为旁系同源基因。当同源是物种形成的结果，基因的历史反映了物种的历史，被称为直系同源；</strong></li>
<li><strong>直系同源是不同物种内的同源序列，他们是来自于物种形成时的共同祖先基因；</strong></li>
<li><strong>通常认为直系同源的序列具有相似的生物学功能；</strong></li>
</ul>
<h2>直系同源与旁系同源的区分</h2>
<p>判断直系同源还是旁系同源主要依据最大似然法构建的基因系统发育树。 系统发育树可以显示出基因家族演化的历史，比如基因从一个共同的祖先中分化的。基因树同物种树进行比对，是否有内部的节点，将是区别复制事件与物种分化事件的依据。如果只是简单的只有唯一的直系同源基因，这样的验证非常容易区别。但是大多数情况都是一对多或者多对多的关系。比如斑马鱼与哺乳动物的同源基因比较中这种情况非常多，在果蝇与哺乳动物或者蠕虫与哺乳动物的同源基因预测中，这中情况更为明显。</p>
<p>鉴定直系同源基因的方法，分为7步：</p>
<ol>
<li>从Ensemble下载要比对物种的所有基因的蛋白质序列，如果一个基因有多个转录本，只取最长的；</li>
<li>使用WUBlastp+SmithWaterman，每个基因同所有的基因进行比对，也就是将所有物种的基因当做一个库，用这个库和其本身进行比对；</li>
<li>基于BRH与BSR的值，为这些基因建立关系图；</li>
<li>将有关联的分为一组，相当于一个基因家族；</li>
<li>对于每一组，将蛋白质序列用MUSCLE进行多重比对；</li>
<li>对比好的每一组，使用多重比对结果中蛋白质对应的CDS序列，使用NJTREE构建系统发育树；</li>
<li>针对每个基因树，推断每两个基因是直系同源还是旁系同源：</li>
</ol>
<pre>Orthologues : 两个基因之间的根节点是一个物种形成事件
直系同源的几种情况
 ortholog_one2one 一对一
 ortholog_one2many 一对多
 ortholog_many2many 多对多
 apparent_ortholog_one2one (is a special case, see below) 明显的一对一

Paralogues : 祖先节点是一个复制事件，旁系同源的集中情况：
 within_species_paralog 物种内的
 between_species_paralog 物种间的</pre>
<h2>简单的基因同源性的门槛（基于Blastp比对的）</h2>
<ul>
<li>identity &gt;30%；</li>
<li>e-value &lt;1e-10；</li>
<li>score&gt;200</li>
<li>overlap &gt;60%</li>
</ul>
<h2>同源基因数据库</h2>
<ul>
<li>HomoloGene - <a href="http://www.ncbi.nlm.nih.gov/homologene">http://www.ncbi.nlm.nih.gov/homologene</a></li>
<li>inparanoid7 - <a href="http://inparanoid.sbc.su.se/cgi-bin/index.cgi">http://inparanoid.sbc.su.se/cgi-bin/index.cgi</a></li>
<li>OrthoCluster - <a title="orthoclusterdb" href="http://genome.sfu.ca/orthoclusterdb/">http://genome.sfu.ca/orthoclusterdb/</a></li>
</ul>
<div id="crp_related"><h3>相关文章：</h3><ul><li><a href="http://boyun.sh.cn/bio/?p=440" rel="bookmark" class="crp_title">2007年十大重要科学成就</a></li><li><a href="http://boyun.sh.cn/bio/?p=113" rel="bookmark" class="crp_title">linux：su的用法</a></li><li><a href="http://boyun.sh.cn/bio/?p=1073" rel="bookmark" class="crp_title">关于bac末端与shutgun比对的研究思路</a></li><li><a href="http://boyun.sh.cn/bio/?p=73" rel="bookmark" class="crp_title">linux：文件操作</a></li><li><a href="http://boyun.sh.cn/bio/?p=825" rel="bookmark" class="crp_title">牛新庄的数据库学习“曲线”</a></li><li><a href="http://boyun.sh.cn/bio/?p=314" rel="bookmark" class="crp_title">与XML相关的名词概念：XLink</a></li><li><a href="http://boyun.sh.cn/bio/?p=306" rel="bookmark" class="crp_title">与XML相关的名词概念：SAX</a></li><li><a href="http://boyun.sh.cn/bio/?p=318" rel="bookmark" class="crp_title">与XML相关的名词概念：SVG</a></li><li><a href="http://boyun.sh.cn/bio/?p=1060" rel="bookmark" class="crp_title">完整物理图谱的构建策略</a></li><li><a href="http://boyun.sh.cn/bio/?p=639" rel="bookmark" class="crp_title">oracle：索引的陷阱</a></li></ul></div><div class="" id="s_widget"><h3>新书推荐</h3><OBJECT classid="clsid:D27CDB6E-AE6D-11cf-96B8-444553540000" codebase="http://fpdownload.macromedia.com/get/flashplayer/current/swflash.cab" id="Player_06bf285e-0552-41e0-a053-a8d8abf24ef8"  WIDTH="336px" HEIGHT="280px"> <PARAM NAME="movie" VALUE="http://ws.assoc-amazon.cn/widgets/q?ServiceVersion=20070822&MarketPlace=CN&ID=V20070822%2FCN%2Fboyun%2F8003%2F06bf285e-0552-41e0-a053-a8d8abf24ef8&Operation=GetDisplayTemplate"><PARAM NAME="quality" VALUE="high"><PARAM NAME="bgcolor" VALUE="#FFFFFF"><PARAM NAME="allowscriptaccess" VALUE="always"><embed src="http://ws.assoc-amazon.cn/widgets/q?ServiceVersion=20070822&MarketPlace=CN&ID=V20070822%2FCN%2Fboyun%2F8003%2F06bf285e-0552-41e0-a053-a8d8abf24ef8&Operation=GetDisplayTemplate" id="Player_06bf285e-0552-41e0-a053-a8d8abf24ef8" quality="high" bgcolor="#ffffff" name="Player_06bf285e-0552-41e0-a053-a8d8abf24ef8" allowscriptaccess="always"  type="application/x-shockwave-flash" align="middle" height="280px" width="336px"></embed></OBJECT> <NOSCRIPT><A HREF="http://ws.assoc-amazon.cn/widgets/q?ServiceVersion=20070822&MarketPlace=CN&ID=V20070822%2FCN%2Fboyun%2F8003%2F06bf285e-0552-41e0-a053-a8d8abf24ef8&Operation=NoScript">Amazon.cn Widgets</A></NOSCRIPT></div><div id="paper_license"><div> 　&raquo; 转载文章请注明，转载自：<a title="博耘生物" href="http://boyun.sh.cn/bio">博耘生物</a> &raquo; <a rel="bookmark" title="直系同源预测方法" href="http://boyun.sh.cn/bio/?p=1849">《直系同源预测方法》</a></div><div>　&raquo; 原文链接：<a rel="bookmark" title="直系同源预测方法" href="http://boyun.sh.cn/bio/?p=1849">http://boyun.sh.cn/bio/?p=1849</a></div></div>]]></content:encoded>
			<wfw:commentRss>http://boyun.sh.cn/bio/?feed=rss2&#038;p=1849</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>去除重复序列</title>
		<link>http://boyun.sh.cn/bio/?p=1845</link>
		<comments>http://boyun.sh.cn/bio/?p=1845#comments</comments>
		<pubDate>Thu, 15 Dec 2011 09:01:31 +0000</pubDate>
		<dc:creator>boyun</dc:creator>
				<category><![CDATA[功能预测专题]]></category>
		<category><![CDATA[数据分析]]></category>
		<category><![CDATA[repeated sequence]]></category>
		<category><![CDATA[RepeatMasker]]></category>
		<category><![CDATA[重复序列]]></category>

		<guid isPermaLink="false">http://boyun.sh.cn/bio/?p=1845</guid>
		<description><![CDATA[对于基因组序列进行分析时，首要的事情就是去除重复序列，本文详细介绍重复序列的种类，标记重复序列的流程，使用的工具，以及总结目前网上的数据库、wiki文档资源。 重复序列的种类 Tandem repeats 串连重复 Satellite DNA 卫星DNA Variable number tandem repeat /Minisatellite 小卫星 Short tandem repeat（STR）/Microsatellite (Trinucleotide repeat disorders)微卫星 Interspersed repeats 散落重复 Transposon (Transposable elements (TEs) )转座子 Retrotransposon 反转录转座子 SINEs - Alu sequence, MIR 短散落元件 LINEs - LINE1, LINE2 长散落元件 LTRs - HERV, MER4, retroposon 长末端重复 DNA transposon DNA转座子 MER1, MER2, Mariners TIR（Terminal Inverted Repeat） 末端方向重复 Genomic island Genomic island 对于一个新基因组，标记重复序列的流程 已知的转座子的鉴定； &#8230; <a href="http://boyun.sh.cn/bio/?p=1845">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
			<content:encoded><![CDATA[<p>对于基因组序列进行分析时，首要的事情就是去除重复序列，本文详细介绍重复序列的种类，标记重复序列的流程，使用的工具，以及总结目前网上的数据库、wiki文档资源。</p>
<h2>重复序列的种类</h2>
<ul>
<li><a title="Tandem repeat" href="http://en.wikipedia.org/wiki/Tandem_repeat">Tandem repeats</a> 串连重复</li>
<ul>
<li><a title="Satellite DNA" href="http://en.wikipedia.org/wiki/Satellite_DNA">Satellite DNA</a> 卫星DNA</li>
<li><a title="Variable number tandem repeat" href="http://en.wikipedia.org/wiki/Variable_number_tandem_repeat">Variable number tandem repeat</a> /<a title="Minisatellite" href="http://en.wikipedia.org/wiki/Minisatellite">Minisatellite</a> 小卫星</li>
<li>Short tandem repeat（STR）/<a title="Microsatellite (genetics)" href="http://en.wikipedia.org/wiki/Microsatellite_%28genetics%29">Microsatellite</a> (<a title="Trinucleotide repeat disorder" href="http://en.wikipedia.org/wiki/Trinucleotide_repeat_disorder">Trinucleotide repeat disorders</a>)微卫星</li>
</ul>
<li><a title="Interspersed repeat" href="http://en.wikipedia.org/wiki/Interspersed_repeat">Interspersed repeats</a> 散落重复</li>
<ul>
<li><a title="Transposon" href="http://en.wikipedia.org/wiki/Transposon">Transposon</a> (Transposable elements (TEs) )转座子</li>
<ul>
<li><a title="Retrotransposon" href="http://en.wikipedia.org/wiki/Retrotransposon">Retrotransposon</a> 反转录转座子</li>
<ul>
<li><a title="Short interspersed nuclear element" href="http://en.wikipedia.org/wiki/Short_interspersed_nuclear_element">SINEs</a> - <a title="Alu element" href="http://en.wikipedia.org/wiki/Alu_element">Alu sequence</a>, <a title="Mammalian-wide interspersed repeat (page does not exist)" href="http://en.wikipedia.org/w/index.php?title=Mammalian-wide_interspersed_repeat&amp;action=edit&amp;redlink=1">MIR</a> 短散落元件</li>
<li><a title="Long interspersed nuclear element" href="http://en.wikipedia.org/wiki/Long_interspersed_nuclear_element">LINEs</a> - <a title="LINE1 (page does not exist)" href="http://en.wikipedia.org/w/index.php?title=LINE1&amp;action=edit&amp;redlink=1">LINE1</a>, <a title="LINE2 (page does not exist)" href="http://en.wikipedia.org/w/index.php?title=LINE2&amp;action=edit&amp;redlink=1">LINE2</a> 长散落元件</li>
<li><a title="Long terminal repeat" href="http://en.wikipedia.org/wiki/Long_terminal_repeat">LTRs</a> - <a title="Human endogenous retroviruses" href="http://en.wikipedia.org/wiki/Human_endogenous_retroviruses">HERV</a>, <a title="Medium reiterated repeats 4 (page does not exist)" href="http://en.wikipedia.org/w/index.php?title=Medium_reiterated_repeats_4&amp;action=edit&amp;redlink=1">MER4</a>, <a title="Retroposon" href="http://en.wikipedia.org/wiki/Retroposon">retroposon</a> 长末端重复</li>
</ul>
<li><a title="DNA transposon (page does not exist)" href="http://en.wikipedia.org/w/index.php?title=DNA_transposon&amp;action=edit&amp;redlink=1">DNA transposon</a> DNA转座子</li>
<ul>
<li><a title="MER1 (page does not exist)" href="http://en.wikipedia.org/w/index.php?title=MER1&amp;action=edit&amp;redlink=1">MER1</a>, <a title="MER2 (page does not exist)" href="http://en.wikipedia.org/w/index.php?title=MER2&amp;action=edit&amp;redlink=1">MER2</a>, Mariners</li>
<li>TIR（Terminal Inverted Repeat） 末端方向重复</li>
</ul>
</ul>
</ul>
<li><a title="Genomic island" href="http://en.wikipedia.org/wiki/Genomic_island">Genomic island</a></li>
<ul>
<li><a title="Genomic island" href="http://en.wikipedia.org/wiki/Genomic_island">Genomic island</a></li>
</ul>
</ul>
<p><span id="more-1845"></span></p>
<h2>对于一个新基因组，标记重复序列的流程</h2>
<ol>
<li>已知的转座子的鉴定；</li>
<li>新的重复序列的预测；</li>
<li>串连重复的鉴定；</li>
</ol>
<h2>重复序列的特征分析</h2>
<p>重复序列占基因组的比例，不同类型重复序列的数目，比较不同物种之间的差异，描绘出该物种重复序列的特征。</p>
<h2>使用的软件及其相关参数的设置</h2>
<p>重复序列鉴定使用最多的就是RepeatMasker，其集成了很多的库、工具，无论是对于已知鉴定，还是未知的预测，都可以完成。</p>
<ul>
<li>已知的TEs标记，可以使用RepeatMasker比对Repbase库，以及使用<span style="color: #010101; font-family: 'Times New Roman';">RepeatProteinMask</span><span style="color: #010101; font-family: 'Times New Roman'; font-size: xx-small;">3比对TE蛋白质库；</span></li>
<li><span style="color: #010101; font-family: 'Times New Roman'; font-size: xx-small;"><span style="color: #010101; font-family: 'Times New Roman';">使用RepeatModeler</span><span style="color: #010101; font-family: 'Times New Roman'; font-size: xx-small;">3预测新的重复序列，该程序调用了<span style="color: #010101; font-family: 'Times New Roman';"> RECON</span><span style="color: #010101; font-family: 'Times New Roman'; font-size: xx-small;">5、<span style="color: #010101; font-family: 'Times New Roman';"> RepeatScout</span><span style="color: #010101; font-family: 'Times New Roman'; font-size: xx-small;">6预测程序；</span></span></span><br />
</span></li>
<li><span style="color: #010101; font-family: 'Times New Roman'; font-size: xx-small;"><span style="color: #010101; font-family: 'Times New Roman'; font-size: xx-small;"><span style="color: #010101; font-family: 'Times New Roman'; font-size: xx-small;"><span style="color: #010101; font-family: 'Times New Roman'; font-size: xx-small;">使用RepeatMasker -noint标记串连重复序列<br />
</span></span></span></span></li>
</ul>
<div><span style="color: #010101;">NCBI去除重复序列的命令，及其各个参数的意义：</span></div>
<pre>RepeatMasker -engine "wublast" -s -cutoff 255 -species "Nasonia giraulti" -no_is -frag 20000

-no_is         skips bacterial insertion element check

-cutoff [number] sets cutoff score for masking repeats when using -lib
               (default cutoff 225)

-s             Slow search; 0-5% more sensitive, 2.5 times slower than default.

-engine [crossmatch|wublast|decypher]
               Select a non-default search engine to use.  If not specified
                 RepeatMasker will use the default configured at install time.

-frag [number] Maximum sequence length masked without fragmenting
                 (default 40000).</pre>
<h2>RepeatMasker安装及其参数说明</h2>
<p>安装请参照<a title="repeatmasker" href="http://www.repeatmasker.org/RMDownload.html" target="_blank">http://www.repeatmasker.org/RMDownload.html</a></p>
<pre>1 OPTIONS参数说明

1.1 Species options 物种

-species     Indicate source species of query DNA

-lib [filename]             Allows the use of a custom library

contamination checking options
-is_only       only clips E coli insertion elements out of FASTA  and .qual files
-is_clip       clips IS elements before analysis (default: IS only reported)
-no_is         skips bacterial insertion element check
-rodspec       only checks for rodent specific repeats (no RepeatMasker run)
-primspec      only checks for primate specific repeats (no RepeatMasker run)

1.2 Masking options (options that determine what kind of repeats are masked) 遮蔽

-cutoff [number] sets cutoff score for masking repeats when using -lib
               (default cutoff 225)
-nolow         does not mask low complexity DNA or simple repeats
-l(ow)         same as nolow (historical)
-(no)int       only masks low complex/simple repeats (no interspersed repeats)
-alu           only masks Alus (and 7SLRNA, SVA and LTR5)(only for primate DNA)
-div [number]  masks only those repeats that are less than [number] percent
               diverged from the consensus sequence

1.3   Options effecting speed and search parameters 速度搜索参数

-q             Quick search; 5-10% less sensitive, 3-4 times faster than default
-qq            Rush job; about 10% less sensitive,
-s             Slow search; 0-5% more sensitive, 2.5 times slower than default.
-pa(rallel) [number]
               Number of processors to use in parallel (only works for
                 batch files or sequences larger than 50 kb)
-engine [crossmatch|wublast|decypher]
               Select a non-default search engine to use.  If not specified
                 RepeatMasker will use the default configured at install time.
-w(ublast)     Use WU-blast, rather than cross_match as engine
                 **DEPRECATED** Use -engine [crossmatch|wublast|decypher] now.
-frag [number] Maximum sequence length masked without fragmenting
                 (default 40000).
-maxsize [nr]  Maximum length for which IS- or repeat clipped sequences
                  can be produced (default 4000000). Memory requirements go
                  up with higher maxsize.
-gc [number]   Use matrices calculated for 'number' percentage background
                  GC level.
-gccalc        Program calculates the GC content even for batch files/small
                  sequences.
-nocut         Skips the steps in which repeats are excised.
-noisy         Prints cross_match progress report to screen (defaults to
                 .stderr file)

1.4  Output options输出设置

-a      shows the alignments in a .align output file; -ali(gnments) also works
-inv    alignments are presented in the orientation of the repeat (with option -a)

-cut    saves a sequence (in file.cut) from which full-length repeats are excised
        (temporarily disfunctional)
-small  returns complete .masked sequence in lower case
-xsmall returns repetitive regions in lowercase (rest capitals) rather than masked
-x      returns repetitive regions masked with Xs rather than Ns

-poly   reports simple repeats that may be polymorphic (in file.poly)
-ace    creates an additional output file in ACeDB format
-gff    creates an additional General Feature Finding format output
-u      creates an untouched annotation file besides the manipulated file
-xm     creates an additional output file in cross_match format (for parsing)

-fixed  creates an (old style) annotation file with fixed width columns
-no_id  leaves out final column with unique ID for each element
-e(xcln) calculates repeat densities (in .tbl) excluding runs of &gt;25 Ns in query

-noisy  prints cross_match progress report to screen (defaults to .stderr file)</pre>
<h2>相关资源</h2>
<ul>
<li><span class="Apple-style-span" style="line-height: 21px; font-size: small;"><a href="http://www.repeatmasker.org/" target="_blank">RepeatMasker</a>（<a href="http://www.repeatmasker.org/" target="_blank">http://www.repeatmasker.org/</a>）</span></li>
<li><span class="Apple-style-span" style="line-height: 21px; font-size: small;">wikipedia（<a href="http://en.wikipedia.org/wiki/Repeated_sequence_%28DNA%29" target="_blank">http://en.wikipedia.org/wiki/Repeated_sequence_%28DNA%29</a>）<br />
</span></li>
<li><span class="Apple-style-span" style="line-height: 21px; font-size: small;">RepBase （<a href="http://www.girinst.org/">http://www.girinst.org</a>）<br />
</span></li>
<li><span class="Apple-style-span" style="line-height: 21px; font-size: small;">STRBase（<a href="http://www.cstl.nist.gov/strbase/">http://www.cstl.nist.gov/strbase/</a> ）<br />
</span></li>
<li><span class="Apple-style-span" style="line-height: 21px; font-size: small;">小麦重复序列数据库（<a href="http://147.49.50.65/ITMI/Repeats/">http://147.49.50.65/ITMI/Repeats/</a> ）<br />
</span></li>
</ul>
<div id="crp_related"><h3>相关文章：</h3><ul><li><a href="http://boyun.sh.cn/bio/?p=623" rel="bookmark" class="crp_title">Oracle的索引总结</a></li><li><a href="http://boyun.sh.cn/bio/?p=230" rel="bookmark" class="crp_title">使用perl生成Sitemap</a></li><li><a href="http://boyun.sh.cn/bio/?p=900" rel="bookmark" class="crp_title">数据解释入Mysql时遇到的问题一例</a></li><li><a href="http://boyun.sh.cn/bio/?p=1042" rel="bookmark" class="crp_title">使用perl脚本抓取网页总结</a></li><li><a href="http://boyun.sh.cn/bio/?p=1721" rel="bookmark" class="crp_title">Blastz安装与使用说明</a></li><li><a href="http://boyun.sh.cn/bio/?p=242" rel="bookmark" class="crp_title">重建微生物转录调控网络</a></li><li><a href="http://boyun.sh.cn/bio/?p=497" rel="bookmark" class="crp_title">PHYLIP在Linux下的安装</a></li><li><a href="http://boyun.sh.cn/bio/?p=793" rel="bookmark" class="crp_title">DTD 解析</a></li><li><a href="http://boyun.sh.cn/bio/?p=703" rel="bookmark" class="crp_title">国际化合物标识</a></li><li><a href="http://boyun.sh.cn/bio/?p=421" rel="bookmark" class="crp_title">科研过程的标准化</a></li></ul></div><div class="" id="s_widget"><h3>新书推荐</h3><OBJECT classid="clsid:D27CDB6E-AE6D-11cf-96B8-444553540000" codebase="http://fpdownload.macromedia.com/get/flashplayer/current/swflash.cab" id="Player_06bf285e-0552-41e0-a053-a8d8abf24ef8"  WIDTH="336px" HEIGHT="280px"> <PARAM NAME="movie" VALUE="http://ws.assoc-amazon.cn/widgets/q?ServiceVersion=20070822&MarketPlace=CN&ID=V20070822%2FCN%2Fboyun%2F8003%2F06bf285e-0552-41e0-a053-a8d8abf24ef8&Operation=GetDisplayTemplate"><PARAM NAME="quality" VALUE="high"><PARAM NAME="bgcolor" VALUE="#FFFFFF"><PARAM NAME="allowscriptaccess" VALUE="always"><embed src="http://ws.assoc-amazon.cn/widgets/q?ServiceVersion=20070822&MarketPlace=CN&ID=V20070822%2FCN%2Fboyun%2F8003%2F06bf285e-0552-41e0-a053-a8d8abf24ef8&Operation=GetDisplayTemplate" id="Player_06bf285e-0552-41e0-a053-a8d8abf24ef8" quality="high" bgcolor="#ffffff" name="Player_06bf285e-0552-41e0-a053-a8d8abf24ef8" allowscriptaccess="always"  type="application/x-shockwave-flash" align="middle" height="280px" width="336px"></embed></OBJECT> <NOSCRIPT><A HREF="http://ws.assoc-amazon.cn/widgets/q?ServiceVersion=20070822&MarketPlace=CN&ID=V20070822%2FCN%2Fboyun%2F8003%2F06bf285e-0552-41e0-a053-a8d8abf24ef8&Operation=NoScript">Amazon.cn Widgets</A></NOSCRIPT></div><div id="paper_license"><div> 　&raquo; 转载文章请注明，转载自：<a title="博耘生物" href="http://boyun.sh.cn/bio">博耘生物</a> &raquo; <a rel="bookmark" title="去除重复序列" href="http://boyun.sh.cn/bio/?p=1845">《去除重复序列》</a></div><div>　&raquo; 原文链接：<a rel="bookmark" title="去除重复序列" href="http://boyun.sh.cn/bio/?p=1845">http://boyun.sh.cn/bio/?p=1845</a></div></div>]]></content:encoded>
			<wfw:commentRss>http://boyun.sh.cn/bio/?feed=rss2&#038;p=1845</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>使用CAP3拼接构建uniGene</title>
		<link>http://boyun.sh.cn/bio/?p=1839</link>
		<comments>http://boyun.sh.cn/bio/?p=1839#comments</comments>
		<pubDate>Thu, 08 Dec 2011 06:00:20 +0000</pubDate>
		<dc:creator>boyun</dc:creator>
				<category><![CDATA[RNA-SEQ专题]]></category>
		<category><![CDATA[CAP3]]></category>
		<category><![CDATA[UniGene]]></category>
		<category><![CDATA[序列拼接]]></category>

		<guid isPermaLink="false">http://boyun.sh.cn/bio/?p=1839</guid>
		<description><![CDATA[RNA-seq对于两个处理样本进行分别测序，现在需要比对这两个测序结果的差别，使用CAP3，仍然是一个不错的选择。另外一个用途就是对于不断增加的转录组数据进行拼接，建立UniGene。 Cap3简介 Huang, X. 和 Madan, A 开发的一套用于序列拼接的软件,此软件适用于小的数据集或 EST 拼接,它有如下特征： 利用正反向进行拼接，更正拼接错误、连接 contigs。 应用 reads 的质量信息。 自动截去 reads5`端、3`端的低质量区。 产生 Consed 程序可读的 ace 格式。  CAP3 能用于 Staden 软件包的中的 GAP4 软件。 下载安装 下载地址http://seq.cs.iastate.edu/cap3.html。下载操作系统，下载相应版本的，加压后，就可以使用。 CAP3 详细参考文档可见http://deepc2.psi.iastate.edu/aat/cap/capdoc.html 使用说明 程序运行命令行: cap3  &#60;dna-file in fasta format&#62; [options] &#8230; <a href="http://boyun.sh.cn/bio/?p=1839">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
			<content:encoded><![CDATA[<p>RNA-seq对于两个处理样本进行分别测序，现在需要比对这两个测序结果的差别，使用CAP3，仍然是一个不错的选择。另外一个用途就是对于不断增加的转录组数据进行拼接，建立UniGene。</p>
<h2>Cap3简介</h2>
<p>Huang, X. 和 Madan, A 开发的一套用于序列拼接的软件,此软件适用于小的数据集或 EST 拼接,它有如下特征：</p>
<ul>
<li>利用正反向进行拼接，更正拼接错误、连接 contigs。</li>
<li>应用 reads 的质量信息。</li>
<li>自动截去 reads5`端、3`端的低质量区。</li>
<li>产生 Consed 程序可读的 ace 格式。</li>
<li> CAP3 能用于 Staden 软件包的中的 GAP4 软件。</li>
</ul>
<h2>下载安装</h2>
<p>下载地址<a href="http://seq.cs.iastate.edu/cap3.html">http://seq.cs.iastate.edu/cap3.html</a>。下载操作系统，下载相应版本的，加压后，就可以使用。</p>
<p>CAP3 详细参考文档可见<a href="http://deepc2.psi.iastate.edu/aat/cap/capdoc.html">http://deepc2.psi.iastate.edu/aat/cap/capdoc.html</a><span id="more-1839"></span></p>
<h2>使用说明</h2>
<p>程序运行命令行:</p>
<pre>cap3  &lt;dna-file in fasta format&gt; [options] &gt;cap3.out</pre>
<p>输入 序 列 是 普 通 的 FASTA 格 式 , 如 果 序 列 文 件 名 为 “ xyz ” , 则 质 量 文 件 应 命 名 为“xyz.qual”,约束文件应命名为“xyz.con”。在命令行中只需输入序列文件,程序会自动在<br />
相应的目录中寻找相应的质量文件和约束文件。</p>
<p>“xyz”格式如下:</p>
<pre>&gt;Sequence1
 ACGTGCGCGATCGCCTGCTAGGCGTACGTCGCAGGCGATCGATGTGCTAGATCAGATGACA
 &gt;Sequence2
 GGGCTAGATTAGCACCACATACATCGCTCA</pre>
<p>“xyz.qual”格式如下:</p>
<pre> &gt;R1
 6  8  8  8 15 17  17 17 12 12  20 20 29 31 34 34 38 38 40 40 49  49 37 33 33
 33 33 30 31 24 24  34 45 45 45  45 38 38 38 45 40 40 40 40 40 40  40 40 40 40
 33 33 33 33 33 33 40  37 40 40  45 45 45 40 40 40 45 45 45 45 49 49  49 49 45
 40 43 43 43  40 40 40 37 40 49 49 40 40 37 37  37 42 45 40
 49 45 45 45 45 40
 36 36 36 36 33 33  27 27 21 19  19 27 33 33 34 36 36 36 36 38 36  36 40 33 35
 &gt;R2
 98 98 98 98 98 98 98 98 98 98 98 98 98 98 98 98 98 98 98 98 98 98 98 98 98
 37 37 37 37 37 37 37 37 37 37 37 37 37 34 34 34 34 37 37 37 37 34 34 37 38
 34 37 34 37 37 37 37 37 45 37 37 37 37 37 37 37 40 37 37 32 45 41 45 45 41</pre>
<p>Cap3设计的时候，其主要测序工具是377或者3730，测序前首先需要建立克隆文库，然后针对每个文库进行测序，测序可以分为两种，单向测序与双向测序，约束文件主要是让程序哪些是双向测序， 属于同一个克隆，插入片段的大小区间，这就为拼接提供了更多的依据。如果不知道这个情况，恐怕很难理解，这个约束文件。现在都是二代测序。所以这个文件完全是可选的。</p>
<p>约束文件xyz.con，每一行都以如下格式：</p>
<pre> ReadA ReadB MinDistance MaxDistance</pre>
<p>其中“ReadA”和“ReadB”是两个 reads 的名称;“MinDistance”、“MaxDistance”是<br />
最小、最大距离(bp)。 约束文件*.con 可由此软件包中的 formcon 程序生成,用法:</p>
<pre>formcon [序列文件] [最小长度] [最大长度]</pre>
<p>此处最小、最大长度指克隆的长度限制,单位为 bp。克隆长度限制要与插入片段长度相差<br />
1000bp 到 1500bp 左右,如:插入片段为 2kb 到 3kb,建议 500 为克隆最小长度,4000 为克隆最大长度。输入的序列文件中一对正反向的 reads 名称在第一个句点前要保持相同。</p>
<h2>输出文件格式:</h2>
<ul>
<li>1. xyz.cap.ace: ace 格式文件,注意:reads 的 5`、3`的低质量区没有被显示在 ace 格式中。</li>
<li>2. xyz.cap.contigs:生成的 contigs 序列文件。</li>
<li>3. xyz.cap.contigs.qual:生成的 contigs 质量文件。</li>
<li>4. xyz.cap.singlets:没有用于拼接的 reads 文件。</li>
<li>5. xyz.cap.info:关于拼接的额外信息文件。</li>
<li>6. cap3.out:拼接的结果文件。</li>
</ul>
<h2>参数选项(默认值):</h2>
<pre>$ ./cap3
VersionDate: 10/15/07
Usage: ./cap3 File_of_reads [options]

File_of_reads is a file of DNA reads in FASTA format

If the file of reads is named 'xyz', then
the file of quality values must be named 'xyz.qual',
and the file of constraints named 'xyz.con'.
Options (default values):
  -a  N  specify band expansion size N &gt; 10 (20)
  -b  N  specify base quality cutoff for differences N &gt; 15 (20)
  -c  N  specify base quality cutoff for clipping N &gt; 5 (12)
  -d  N  specify max qscore sum at differences N &gt; 20 (200)
  -e  N  specify clearance between no. of diff N &gt; 10 (30)
  -f  N  specify max gap length in any overlap N &gt; 1 (20)
  -g  N  specify gap penalty factor N &gt; 0 (6)
  -h  N  specify max overhang percent length N &gt; 2 (20)
  -i  N  specify segment pair score cutoff N &gt; 20 (40)
  -j  N  specify chain score cutoff N &gt; 30 (80)
  -k  N  specify end clipping flag N &gt;= 0 (1)
  -m  N  specify match score factor N &gt; 0 (2)
  -n  N  specify mismatch score factor N &lt; 0 (-5)   -o  N  specify overlap length cutoff &gt; 15 (40)
  -p  N  specify overlap percent identity cutoff N &gt; 65 (90)
  -r  N  specify reverse orientation value N &gt;= 0 (1)
  -s  N  specify overlap similarity score cutoff N &gt; 250 (900)
  -t  N  specify max number of word matches N &gt; 30 (300)
  -u  N  specify min number of constraints for correction N &gt; 0 (3)
  -v  N  specify min number of constraints for linking N &gt; 0 (2)
  -w  N  specify file name for clipping information (none)
  -x  N  specify prefix string for output file names (cap)
  -y  N  specify clipping range N &gt; 5 (100)
  -z  N  specify min no. of good reads at clip pos N &gt; 0 (3)</pre>
<ul>
<li>-a   N   specify band expansion size N &gt; 10 (20)</li>
<li>-b   N   specify base quality cutoff for differences N &gt; 15 (20)</li>
<li>-c   N   去除低质量时的质量值 N &gt; 5 (12)</li>
<li>-d   N   specify max qscore sum at differences N &gt; 20 (200)</li>
<li>-e   N   specify clearance between no. of diff N &gt; 10 (30)</li>
<li>-f    N   重叠部分最大 gap 长度 N &gt; 1 (20)</li>
<li>-g   N   gap 罚分 N &gt; 0 (6)</li>
<li>-h   N   specify max overhang percent length N &gt; 2 (20)</li>
<li>-m  N  比对分值 N &gt; 0 (2)</li>
<li>-n   N  不匹配的分值 N &lt; 0 (-5)</li>
<li>-o   N   specify overlap length cutoff &gt; 20 (40)</li>
<li>-p   N   specify overlap percent identity cutoff N &gt; 65 (80)</li>
<li>-r    N   specify reverse orientation value N &gt;= 0 (1)</li>
<li>-s   N   specify overlap similarity score cutoff N &gt; 400 (900)</li>
<li>-t    N   匹配得最大长度 N &gt; 30 (300)</li>
<li>-u   N   用于修正得最小约束数目 N &gt; 0 (3)</li>
<li>-v   N   用于连接得最小约束数目 N &gt; 0 (2)</li>
<li>-w  N   序列去除信息的文件名 (none)</li>
<li>-x   N   输出文件名称的前缀 (cap)</li>
<li>-y   N   去除碱基范围 N &gt; 5 (100)</li>
<li>-z   N   specify min no. of good reads at clip pos N &gt; 0 (3)</li>
</ul>
<h2>实例</h2>
<p>运行命令 cap3 xyz.fa &gt; cap3.out</p>
<h2>参考：</h2>
<ul>
<li>《Cap3使用指南（转）》</li>
<li>http://seq.cs.iastate.edu/cap3.html</li>
<li><a href="http://deepc2.psi.iastate.edu/aat/cap/cap.html">http://deepc2.psi.iastate.edu/aat/cap/cap.html</a></li>
<li><a href="http://www.bio.net/bionet/mm/arab-gen/2004-March/009855.html">http://www.bio.net/bionet/mm/arab-gen/2004-March/009855.html</a></li>
</ul>
<div id="crp_related"><h3>相关文章：</h3><ul><li><a href="http://boyun.sh.cn/bio/?p=1845" rel="bookmark" class="crp_title">去除重复序列</a></li><li><a href="http://boyun.sh.cn/bio/?p=102" rel="bookmark" class="crp_title">利用ClusterW2构建多重比对的web服务3：Jalview查看结果</a></li><li><a href="http://boyun.sh.cn/bio/?p=1443" rel="bookmark" class="crp_title">The CGView Server: a comparative genomics tool for circular genomes.</a></li><li><a href="http://boyun.sh.cn/bio/?p=100" rel="bookmark" class="crp_title">利用ClusterW2构建多重比对的web服务：如何实现批量比对</a></li><li><a href="http://boyun.sh.cn/bio/?p=1488" rel="bookmark" class="crp_title">Blast本地化：使用Blastall进行数据库比对</a></li><li><a href="http://boyun.sh.cn/bio/?p=1711" rel="bookmark" class="crp_title">多重比对序列的格式及其应用</a></li><li><a href="http://boyun.sh.cn/bio/?p=1821" rel="bookmark" class="crp_title">Blast结果在GBrowse中展示</a></li><li><a href="http://boyun.sh.cn/bio/?p=1721" rel="bookmark" class="crp_title">Blastz安装与使用说明</a></li><li><a href="http://boyun.sh.cn/bio/?p=1849" rel="bookmark" class="crp_title">直系同源预测方法</a></li><li><a href="http://boyun.sh.cn/bio/?p=95" rel="bookmark" class="crp_title">linux：ClusterW2的编译与安装</a></li></ul></div><div class="" id="s_widget"><h3>新书推荐</h3><OBJECT classid="clsid:D27CDB6E-AE6D-11cf-96B8-444553540000" codebase="http://fpdownload.macromedia.com/get/flashplayer/current/swflash.cab" id="Player_06bf285e-0552-41e0-a053-a8d8abf24ef8"  WIDTH="336px" HEIGHT="280px"> <PARAM NAME="movie" VALUE="http://ws.assoc-amazon.cn/widgets/q?ServiceVersion=20070822&MarketPlace=CN&ID=V20070822%2FCN%2Fboyun%2F8003%2F06bf285e-0552-41e0-a053-a8d8abf24ef8&Operation=GetDisplayTemplate"><PARAM NAME="quality" VALUE="high"><PARAM NAME="bgcolor" VALUE="#FFFFFF"><PARAM NAME="allowscriptaccess" VALUE="always"><embed src="http://ws.assoc-amazon.cn/widgets/q?ServiceVersion=20070822&MarketPlace=CN&ID=V20070822%2FCN%2Fboyun%2F8003%2F06bf285e-0552-41e0-a053-a8d8abf24ef8&Operation=GetDisplayTemplate" id="Player_06bf285e-0552-41e0-a053-a8d8abf24ef8" quality="high" bgcolor="#ffffff" name="Player_06bf285e-0552-41e0-a053-a8d8abf24ef8" allowscriptaccess="always"  type="application/x-shockwave-flash" align="middle" height="280px" width="336px"></embed></OBJECT> <NOSCRIPT><A HREF="http://ws.assoc-amazon.cn/widgets/q?ServiceVersion=20070822&MarketPlace=CN&ID=V20070822%2FCN%2Fboyun%2F8003%2F06bf285e-0552-41e0-a053-a8d8abf24ef8&Operation=NoScript">Amazon.cn Widgets</A></NOSCRIPT></div><div id="paper_license"><div> 　&raquo; 转载文章请注明，转载自：<a title="博耘生物" href="http://boyun.sh.cn/bio">博耘生物</a> &raquo; <a rel="bookmark" title="使用CAP3拼接构建uniGene" href="http://boyun.sh.cn/bio/?p=1839">《使用CAP3拼接构建uniGene》</a></div><div>　&raquo; 原文链接：<a rel="bookmark" title="使用CAP3拼接构建uniGene" href="http://boyun.sh.cn/bio/?p=1839">http://boyun.sh.cn/bio/?p=1839</a></div></div>]]></content:encoded>
			<wfw:commentRss>http://boyun.sh.cn/bio/?feed=rss2&#038;p=1839</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>主流的生物信息数据库模型</title>
		<link>http://boyun.sh.cn/bio/?p=1833</link>
		<comments>http://boyun.sh.cn/bio/?p=1833#comments</comments>
		<pubDate>Wed, 30 Nov 2011 07:34:51 +0000</pubDate>
		<dc:creator>boyun</dc:creator>
				<category><![CDATA[大话生物信息]]></category>
		<category><![CDATA[推荐]]></category>
		<category><![CDATA[数据库信息系统]]></category>
		<category><![CDATA[汇总]]></category>

		<guid isPermaLink="false">http://boyun.sh.cn/bio/?p=1833</guid>
		<description><![CDATA[什么是数据库，相关的概念 数据库充斥着生物信息的每个角落，要数清楚这个主题，首先要解释一下，在不同场合下“数据库”的不同含义，主要包含4个方面： 数据库管理系统 数据库管理系统（Database management systems , DBMSs)是管理数据的软件系统，比如Oracle、MySQL、PostgreSQL、Sybase、DB2、MS SQL等等，其是数据库的容器，是管理数据库综合软件系统。 数据库模式（Database Schema） 数据库模式指特定数据库的设计，也就是其内容的组织方式，就关系型数据库来说，就是其表、表中的列，以及表之间关系的设计。其可以在不同的数据库管理系统中实现，可以重复使用，构建不同的数据库应用。 基于数据库的网站（Database Web Site） 常被我称为数据库信息系统，其后台以数据库作为支撑，所有信息都存储在数据库中，通过网页提供访问接口，实现对信息的查询管理，构成一个容易交互的信息系统。生物信息领域内常见的如s FlyBase (http://flybase.org) ，ParameciumDB (http://paramecium.cgm.cnrs-gif.fr)等。常说的生物信息数据库资源，也通常指的是该类别的数据库。 数据库（Database） 在计算机中，其实任何以某种规则组织在一起的数据集，都可以称为数据库，比如经Formatdb格式化的fasta文件，就是Blast程序中所指的数据库。不过许多情况下都使用一个数据库管理系统来组织数据，选择一个数据库管理系统，比如MySQL，设计好表、字段建立数据库模式，再将相关的数据存放进来，就是一个标准的数据库。 生物信息学中数据库模式 对于一个数据库，数据库管理系统是现成的，关键是学习如何使用，而对于业务本身，最为关键的就是数据库模式的设计，然后才是按照这种方式来组织数据，访问数据。数据库模式的设计关系到数据库的可扩展性，可维护性，设计的不会有时会非常影响数据库性能。所以其要符合相关的范式标准。 生物信息学领域，许多问题存在共性，比如基因组数据库，我们如何来考虑诸多的数据，包括数据的各种属性，数据之间的关联设计出符合关系数据库范式的模式来，是个很有挑战的事情，即便你是数据库专家，有是生物信息方面的专家。不过这样的问题，已经有人给我们解决了，并且经过了很多的实践，模式得到检验，也开发出了很多操作这些数据库的工具，比如将不同格式的数据导入到数据库中。 综合的数据库模式 Chado GMOD旗下，访问地址http://www.gmod.org/wiki/Chado，使用  Postgres 数据库管理系统。主要包括的模块： Audit &#8211; for database audits 审计 Companalysis &#8211; for data from &#8230; <a href="http://boyun.sh.cn/bio/?p=1833">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
			<content:encoded><![CDATA[<h2>什么是数据库，相关的概念</h2>
<p>数据库充斥着生物信息的每个角落，要数清楚这个主题，首先要解释一下，在不同场合下“数据库”的不同含义，主要包含4个方面：</p>
<h3>数据库管理系统</h3>
<p>数据库管理系统<em>（Database management systems</em> , DBMSs)是管理数据的软件系统<em></em>，比如Oracle、MySQL、PostgreSQL、Sybase、DB2、MS SQL等等，其是数据库的容器，是管理数据库综合软件系统。</p>
<h3>数据库模式（Database Schema）</h3>
<p>数据库模式指特定数据库的设计，也就是其内容的组织方式，就关系型数据库来说，就是其表、表中的列，以及表之间关系的设计。其可以在不同的数据库管理系统中实现，可以重复使用，构建不同的数据库应用。</p>
<h3>基于数据库的网站（Database Web Site）</h3>
<p>常被我称为数据库信息系统，其后台以数据库作为支撑，所有信息都存储在数据库中，通过网页提供访问接口，实现对信息的查询管理，构成一个容易交互的信息系统。生物信息领域内常见的如s <a title="Category:FlyBase" href="http://www.gmod.org/wiki/Category:FlyBase">FlyBase</a> (<a title="http://flybase.org" href="http://flybase.org/" rel="nofollow">http://flybase.org</a>) ，<a title="ParameciumDB" href="http://www.gmod.org/wiki/ParameciumDB">ParameciumDB</a> (<a title="http://paramecium.cgm.cnrs-gif.fr" href="http://paramecium.cgm.cnrs-gif.fr/" rel="nofollow">http://paramecium.cgm.cnrs-gif.fr</a>)等。常说的生物信息数据库资源，也通常指的是该类别的数据库。<span id="more-1833"></span></p>
<h3>数据库（Database）</h3>
<p>在计算机中，其实任何以某种规则组织在一起的数据集，都可以称为数据库，比如经Formatdb格式化的fasta文件，就是Blast程序中所指的数据库。不过许多情况下都使用一个数据库管理系统来组织数据，选择一个数据库管理系统，比如MySQL，设计好表、字段建立数据库模式，再将相关的数据存放进来，就是一个标准的数据库。</p>
<h2>生物信息学中数据库模式</h2>
<p>对于一个数据库，数据库管理系统是现成的，关键是学习如何使用，而对于业务本身，最为关键的就是数据库模式的设计，然后才是按照这种方式来组织数据，访问数据。数据库模式的设计关系到数据库的可扩展性，可维护性，设计的不会有时会非常影响数据库性能。所以其要符合相关的范式标准。</p>
<p>生物信息学领域，许多问题存在共性，比如基因组数据库，我们如何来考虑诸多的数据，包括数据的各种属性，数据之间的关联设计出符合关系数据库范式的模式来，是个很有挑战的事情，即便你是数据库专家，有是生物信息方面的专家。不过这样的问题，已经有人给我们解决了，并且经过了很多的实践，模式得到检验，也开发出了很多操作这些数据库的工具，比如将不同格式的数据导入到数据库中。</p>
<h2>综合的数据库模式</h2>
<h3>Chado</h3>
<p>GMOD旗下，访问地址<a title="Chado地址" href="http://www.gmod.org/wiki/Chado" target="_blank">http://www.gmod.org/wiki/Chado</a>，使用  <a title="http://www.postgresql.org/" href="http://www.postgresql.org/" rel="nofollow">Postgres</a> 数据库管理系统。主要包括的模块：</p>
<ul>
<li><a title="Chado Audit Module" href="http://www.gmod.org/wiki/Chado_Audit_Module">Audit</a> &#8211; for database audits 审计</li>
<li><a title="Chado Companalysis Module" href="http://www.gmod.org/wiki/Chado_Companalysis_Module">Companalysis</a> &#8211; for data from computational analysis 数据分析</li>
<li><a title="Chado Contact Module" href="http://www.gmod.org/wiki/Chado_Contact_Module">Contact</a> &#8211; for people, groups, and organizations 联系人、组、机构</li>
<li><a title="Chado CV Module" href="http://www.gmod.org/wiki/Chado_CV_Module">Controlled Vocabulary (cv)</a> &#8211; for controlled vocabularies and ontologies 受控词汇与基因本体</li>
<li><a title="Chado Expression Module" href="http://www.gmod.org/wiki/Chado_Expression_Module">Expression</a> &#8211; for summaries of RNA and protein expresssion 基因表达</li>
<li><a title="Chado General Module" href="http://www.gmod.org/wiki/Chado_General_Module">General</a> &#8211; for identifiers 基因功能鉴定</li>
<li><a title="Chado Genetic Module" href="http://www.gmod.org/wiki/Chado_Genetic_Module">Genetic</a> &#8211; for genetic data and genotypes 基因型</li>
<li><a title="Chado Library Module" href="http://www.gmod.org/wiki/Chado_Library_Module">Library</a> &#8211; for descriptions of molecular libraries 基因文库</li>
<li><a title="Chado Mage Module" href="http://www.gmod.org/wiki/Chado_Mage_Module">Mage</a> &#8211; for microarray data 芯片数据</li>
<li><a title="Chado Map Module" href="http://www.gmod.org/wiki/Chado_Map_Module">Map</a> &#8211; for maps without sequence 图谱</li>
<li><a title="Chado Organism Module" href="http://www.gmod.org/wiki/Chado_Organism_Module">Organism</a> &#8211; for taxonomic data 物种分类数据</li>
<li><a title="Chado Phenotype Module" href="http://www.gmod.org/wiki/Chado_Phenotype_Module">Phenotype</a> &#8211; for phenotypic data 表型数据</li>
<li><a title="Chado Phylogeny Module" href="http://www.gmod.org/wiki/Chado_Phylogeny_Module">Phylogeny</a> &#8211; for organisms and phylogenetic trees 系统发育树</li>
<li><a title="Chado Publication Module" href="http://www.gmod.org/wiki/Chado_Publication_Module">Publication (pub)</a> &#8211; for publications and references 文献</li>
<li><a title="Chado Sequence Module" href="http://www.gmod.org/wiki/Chado_Sequence_Module">Sequence</a> &#8211; for sequences and sequence features 序列及其shujkctions 组织样本资源</li>
<li><a title="Chado WWW Module" href="http://www.gmod.org/wiki/Chado_WWW_Module">WWW</a> -</li>
</ul>
<h3>BioSQL</h3>
<p><a href="http://biosql.org/wiki/Main_Page">主页 http://biosql.org/wiki/Main_Page</a> ，支持MySQL, PostgreSQL, Oracle, HSQLDB等。</p>
<blockquote><p>BioSQL is a generic relational model covering sequences, features, sequence and feature annotation, a reference taxonomy, and ontologies (or controlled vocabularies).</p></blockquote>
<p>包含的模块：</p>
<ul>
<li>Sequence 序列</li>
<li>Sequence annotation 序列注释</li>
<li>Phylogeny 系统发育</li>
<li>Publications 文献</li>
</ul>
<h3>ensembl</h3>
<p>详细说明参见：<a title="Ensembl Schema Documentation" href="http://www.ensembl.org/info/docs/api/funcgen/funcgen_schema.html" target="_blank">http://www.ensembl.org/info/docs/api/funcgen/funcgen_schema.html</a></p>
<p><a href="http://boyun.sh.cn/bio/wp-content/uploads/2011/11/Funcgen_62_trimmed_schema.png"><img class="alignnone size-large wp-image-1836" title="Ensembl Schema Documentation" src="http://boyun.sh.cn/bio/wp-content/uploads/2011/11/Funcgen_62_trimmed_schema-1024x650.png" alt="Funcgen_62_trimmed_schema" width="584" height="370" /></a></p>
<h2>领域内的数据库模式</h2>
<ul>
<li>GFF数据库，主要用于GBrowse
<ul>
<li>Bio::DB::GFF</li>
<li>Bio::DB::SeqFeature</li>
</ul>
</li>
<li>GO <a title="http://geneontology.org" href="http://geneontology.org/" rel="nofollow">Gene Ontology</a> 基因本体论数据库，适合对于基因进行GO分类与统计；</li>
<li>Taxonomy NCBI的物种分类数据库，可以通过下载的DMP文件，反推得到；</li>
<li>PFAM</li>
<li>Gene NCBI基因数据库</li>
<li>KEGG</li>
<li>SRS</li>
<li>OBDA <a href="http://obda.open-bio.org/">http://obda.open-bio.org</a></li>
<li>Pearson Lab databases (seqdb, egads):ftp://ftp.virginia.edu/fastardb/</li>
</ul>
<p>还有哪些？欢迎添加及其评论。</p>
<p>&nbsp;</p>
<div id="crp_related"><h3>相关文章：</h3><ul><li><a href="http://boyun.sh.cn/bio/?p=1773" rel="bookmark" class="crp_title">GBrowse的介绍与安装</a></li><li><a href="http://boyun.sh.cn/bio/?p=1786" rel="bookmark" class="crp_title">GBrowse访问数据制备</a></li><li><a href="http://boyun.sh.cn/bio/?p=1665" rel="bookmark" class="crp_title">新兴互联网技术在生物信息学中的应用</a></li><li><a href="http://boyun.sh.cn/bio/?p=1870" rel="bookmark" class="crp_title">Gbrowse权限管理</a></li><li><a href="http://boyun.sh.cn/bio/?p=690" rel="bookmark" class="crp_title">bioperl的资源列表</a></li><li><a href="http://boyun.sh.cn/bio/?p=1748" rel="bookmark" class="crp_title">基于HMM的基因功能鉴定</a></li><li><a href="http://boyun.sh.cn/bio/?p=1827" rel="bookmark" class="crp_title">转换GFF工具&#8211;大汇总</a></li><li><a href="http://boyun.sh.cn/bio/?p=1711" rel="bookmark" class="crp_title">多重比对序列的格式及其应用</a></li><li><a href="http://boyun.sh.cn/bio/?p=1817" rel="bookmark" class="crp_title">GBrowse之频率直方图</a></li><li><a href="http://boyun.sh.cn/bio/?p=288" rel="bookmark" class="crp_title">ensembl安装</a></li></ul></div><div class="" id="s_widget"><h3>新书推荐</h3><OBJECT classid="clsid:D27CDB6E-AE6D-11cf-96B8-444553540000" codebase="http://fpdownload.macromedia.com/get/flashplayer/current/swflash.cab" id="Player_06bf285e-0552-41e0-a053-a8d8abf24ef8"  WIDTH="336px" HEIGHT="280px"> <PARAM NAME="movie" VALUE="http://ws.assoc-amazon.cn/widgets/q?ServiceVersion=20070822&MarketPlace=CN&ID=V20070822%2FCN%2Fboyun%2F8003%2F06bf285e-0552-41e0-a053-a8d8abf24ef8&Operation=GetDisplayTemplate"><PARAM NAME="quality" VALUE="high"><PARAM NAME="bgcolor" VALUE="#FFFFFF"><PARAM NAME="allowscriptaccess" VALUE="always"><embed src="http://ws.assoc-amazon.cn/widgets/q?ServiceVersion=20070822&MarketPlace=CN&ID=V20070822%2FCN%2Fboyun%2F8003%2F06bf285e-0552-41e0-a053-a8d8abf24ef8&Operation=GetDisplayTemplate" id="Player_06bf285e-0552-41e0-a053-a8d8abf24ef8" quality="high" bgcolor="#ffffff" name="Player_06bf285e-0552-41e0-a053-a8d8abf24ef8" allowscriptaccess="always"  type="application/x-shockwave-flash" align="middle" height="280px" width="336px"></embed></OBJECT> <NOSCRIPT><A HREF="http://ws.assoc-amazon.cn/widgets/q?ServiceVersion=20070822&MarketPlace=CN&ID=V20070822%2FCN%2Fboyun%2F8003%2F06bf285e-0552-41e0-a053-a8d8abf24ef8&Operation=NoScript">Amazon.cn Widgets</A></NOSCRIPT></div><div id="paper_license"><div> 　&raquo; 转载文章请注明，转载自：<a title="博耘生物" href="http://boyun.sh.cn/bio">博耘生物</a> &raquo; <a rel="bookmark" title="主流的生物信息数据库模型" href="http://boyun.sh.cn/bio/?p=1833">《主流的生物信息数据库模型》</a></div><div>　&raquo; 原文链接：<a rel="bookmark" title="主流的生物信息数据库模型" href="http://boyun.sh.cn/bio/?p=1833">http://boyun.sh.cn/bio/?p=1833</a></div></div>]]></content:encoded>
			<wfw:commentRss>http://boyun.sh.cn/bio/?feed=rss2&#038;p=1833</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
	</channel>
</rss>

