存文本文件及其字符编码

网上也有许多关于纯文本的讨论,如果在搜索“乱码”,更是不尽其数。如果你开始命令行,开始编码,开始数据分析,开始操作中文,存文本及其字符编码便是最基础的东西。而往往基础的东西,真正弄懂更为不易,而或者你已经有了多年相关的经验,也不一定搞清楚了。

什么是存文本文件?

存文本由可打印字符组成,人可以直接阅读和理解其形式。

纯文本并非意味着文本是无结构的,HTML、SGML、XML等都是有良好结构定义的存文本,与直接的二进制编码相比,纯文本所处的层面往往更高。大多数二进制格式的问题在于,理解数据所必须的语境与数据本身是分离的,没有应用逻辑对其进行解释,这些数据绝对没有意义,但是通过存文本,可以获得自描述的、不依赖创建它的应用的数据流。对于大多数二进制文件,要成功的进行解析,你必须了解整个格式的所有细节。

缺点:

  • 与压缩的二进制格式相比,存储纯文本所需空间更多
  • 要解释与处理纯文本文件,计算上的代价可能更昂贵

优点:

漫谈web服务器

如果你是新手,要安装一个web应用或者创建一个网站,请接着读…

计算机中,有时候发现越是基础的东西发现越难讲清楚,网络为王的今天,生物信息也是身在其中,生物数据、工具、服务等都是以网络的形式存在的,而更为重要的是许多实验室、研究人员也开始筹建自己的网络服务。上网大家并不陌生,访问一个个网站,但是这些站点是如何提供服务的,网络技术飞速发展的今天,想必不是每个人都能说清楚。

要访问站点,离不开浏览器,浏览器现在也是五花八门,ie、chrome、firefox、safari、opera,国内更是360、遨游、世界之窗、QQ、淘宝,不过这些大都是基于别人的内核,就好比汽车发动机、制动系统都是进口的,只是外壳是自己的,但是访问的方法是相同的,就是通过http协议,也就是站点千差外别,但是前面都得加”http://”,而谁提供的http服务呢,就是这里我们要谈的web服务器,请区别于物理的服务器,这里说的web服务器指的是操作系统的一个服务,运行于后台,提供web服务。

web服务

目前的web服务器也有很多,apache、IIS、tomcat、lighttpd、nginx、liteSpeed等,基本原理就是浏览器输入网址,通过http协议,通过域名定位ip,通过ip地址找到到机器,通过端口找到服务(端口默认是80,没有看见端口号,就是默认的80),web服务器接受请求,将响应的结果以HTML格式返回到浏览器,浏览器解析HTML文件,就是用户看到的页面。 Continue reading

生物信息之心态分析

每一个分析之旅,尽管分析千差外别,而那份感觉或者心情却有几份的相像,轻轻的,却能感觉到。人类基因组测序已经十多年了,而近几年随着测序技术的发展,测序的成本呈指数下降,而测序产生的数据量呈指数上升,数据分析的需求开始激增,这就是我们所处的这个行业这个时代。

常常看到关于2000年那轮互联网泡沫的描述,经历了一场泡沫,互联网还成就了许多著名的公司,真真切切的融入与影响着我们的生活。而生物领域,同样,我们更为真切的感觉到了分子生物学泡沫对我们一代或者几代人的影响,想当年分子生物学、生物工程专业是多么的热门,大学了纷纷增设相关专业或者现有的专业改名与之挂靠,而以至于现在生物学方面的硕士博士的泛滥,同样相对的待遇也是同样的低。“二十一世纪是生物学的时代”,多么响亮的口号,而目前就公司于行业产值,还丝毫没有看到这方面的影子。

基因、分子克隆,转基因,生物工程到如今基因组、蛋白质组、转录组等各种组学、以及二代测序、个性化医疗,更多的应用还属于科研领域。科研、课题、博导、文章、圈子以及种种的外围切割,就是那一滩水。对于病毒、癌症、生物发酵、育种等等,关于生命本身的认识,并没有因为数据的增加,而有什么本质的改变。而数据仅仅只是给了我们对于生命的另外一个层面的描述,就如同对于绿叶、红花、肌肉的描述一样。数据堆砌着,文章累计着,有人从时间推测着,百年了,该有所质的突破了。。。

铛铛…..,又有新数据了,从测序公司拿到或者网上下载到,期盼已久的数据,怀着无比的希望打开,开始迫不及待的进入分析之旅。使用各种工具,加载各种算法,机器轰鸣着,一番运行,似乎经过运算,我们就能读懂数据中的一切,而几天下来,给我们的确实相反的沮丧,心里或许开始抱怨糟糕的设计、糟糕的数据质量、糟糕的算法。。。和想想中的差之千里。而生活还得继续,带着沮丧之情,肩负着艰巨的使命,继续挖掘。

而几轮的沮丧之后,开始渐渐明白

一个混沌进入另一个混沌,而或许正因为太广,太容易目空一切

测序的物种多了,测序的数量多了,我们却没有看到突飞猛进,反而平添了几分忧愁。

信息本身的复杂性,看看研究最多的人类基因组,看看身披无数文章的模式生物

观察数据,也就是测序样本、测序数据本身的有限性

我们需要在两者中间取得一个平衡,得到一个可信的结论。

即便是突破也是层级式的,一层层,或许看到的还是那份混沌,最少你应该明白,那就是你所期望的。

告别沮丧,怀着敬畏,尝试着,不断寻找与尝试着挖掘

如果,测序如水,不在制约,有人说,分析将成为制约,制约则意味着价值,不知道价值变成现金的日子,还会不会太远。

2011年度终结

2011年即将结束,也切好有些空闲,对这一年进行些终结与反思。这一年,乔布斯走了,每个人的生命都是有限的, 生的意义都需要常常的反思。

前几年,学习中心一直在计算机方面,软件工程、团队管理、数据库、系统管理、编程语言、前端开发等等,以前想做的事情,现在都可以做了,而在具体的某个方面再向前突破,由于缺少一些环境,所以动力不足。

而今年给自己订的主题是“突围”,如何突围,当反思使命与归属的时候,必然又回到了生物信息领域本身。这些年也一直在做着各种生物信息方面的数据库应用系统的开发,而环顾我接触的方方面面,其实都可以和数据库应用系统发生关联,而目前飞速发展的测序产业,也必将带动数据库应用系统的开发,这些数据得到了,但是如何来管理,如何来应用?以及结合自身的特点,建立不同的主题数据库的需求也会很多,所以突破的方向,也就是我博客围绕的主题,数据库信息系统,当然数据分析流程、现有系统的集成、各种模块的学习都必然有所关联。 Continue reading

直系同源预测方法

直系同源的基因通常具有相似的生物学功能,所以我们在进行一个未知序列的功能的鉴定的时候,其实质在找功能已知的同源基因。功能基因组的研究过程中,对于两个或者多个物种的同源基因进行鉴定,是功能基因鉴定、比较基因组、功能基因分类、pathway预测等待的基础。

基因相似性、一致性与同源性

  • 同源性是序列同源或者不同源的一种论断,而一致性和相似性是一种描述序列相关性的量;
  • 如果两条序列有一个共同的进化祖先,那么他们就是同源的,不存在同源性的程度问题,要么同源,要么不同源;
  • 同源蛋白总是在三维结构上有显著的相似性;
  • 两条蛋白即使没有统计上显著的一致性,其也可能是同源的;
  • 两条蛋白质是否同源的最强的证据来自于结构研究和进化分析;
  • 一致性(identity)表示了两个序列相同的程度;
  • 两条序列的相似性百分比(percent similarity)是相等于相似匹配之和;
  • 一般的一致性比相似性更有用些,因为相似性的衡量依赖于如何定义两个氨基酸残基是如何相似的;
  • 双序列的比对是排列两条序列以达到最大程度相同的过程,其目的是衡量两个分子的相似性和同源的可能性;
    Continue reading

主流的生物信息数据库模型

什么是数据库,相关的概念

数据库充斥着生物信息的每个角落,要数清楚这个主题,首先要解释一下,在不同场合下“数据库”的不同含义,主要包含4个方面:

数据库管理系统

数据库管理系统(Database management systems , DBMSs)是管理数据的软件系统,比如Oracle、MySQL、PostgreSQL、Sybase、DB2、MS SQL等等,其是数据库的容器,是管理数据库综合软件系统。

数据库模式(Database Schema)

数据库模式指特定数据库的设计,也就是其内容的组织方式,就关系型数据库来说,就是其表、表中的列,以及表之间关系的设计。其可以在不同的数据库管理系统中实现,可以重复使用,构建不同的数据库应用。

基于数据库的网站(Database Web Site)

常被我称为数据库信息系统,其后台以数据库作为支撑,所有信息都存储在数据库中,通过网页提供访问接口,实现对信息的查询管理,构成一个容易交互的信息系统。生物信息领域内常见的如s FlyBase (http://flybase.org) ,ParameciumDB (http://paramecium.cgm.cnrs-gif.fr)等。常说的生物信息数据库资源,也通常指的是该类别的数据库。 Continue reading