留言板

Hi,如果您要批评建议,问题探讨,寻求帮助或者打个招呼,请在这里留言。

43 thoughts on “留言板

  1. 您好!我目前想了解一些关于电子杂交方面的知识,但对于下面的问题比较疑惑,能否帮忙解答一下。点击Monochromatic SAGE/cDNA Virtual Northern链接得到电子杂交结果,如何选择理想的基因或EST进行下一步实验?选取的依据是什么?谢谢!

    • 没有接触过电子杂交,不过原理都是一样的,就如何选取基因,浅略的谈谈自己的观点,共参考。选取Gene或EST,其实是需要知道许多的背景的,比如这些Gene的角色,然后结合自己的目的,进行舍去。好像是废话,具体的操作就是,对于得到的Gene或者EST进行重复过滤,得到“Unigene”,然后进行GO分类,了解具体的生物学功能包括PATHWAY等,只有这些清楚了,才能进一步的选取。没有什么黑盒子,过滤一下,就可以得到你想要的东西了。

    • 非常感谢您的关注,也打算增加这样一个页面,但还没有顾上去弄。本人姓张名建设,先就职于上海生物信息技术研究中心,主要方向主题数据库系统开发、数据共享等。更多信息我会做个页面放出来,您的关注是我的动力,有什么建议或者感谢,欢迎给我留言,谢谢。

  2. 最近在用GBrowse2显示转录组信息方面遇到一些问题,查阅一些资料仍未得解,站长你的GBrowse的展示很好,我的展示也希望可以有站长你的水平,希望站长可以对转录组展示的配置文件的配置以及gff3生成等做一下指导~

  3. 张老师:
    您好,
    1、我在使用NCBI 的 BLAST验证引物后,对Query coverage E value,这两个数值不是很明白,能不能具体解释下,尤其是E值;
    2、BLAST结果的网页。该网页用三种形式来显示blast的结果。
    图中两线段间有连线的代表这些序列与上游引物匹配(Strand=Plus/Plus)、并与下游引物互补(Strand=Plus/Minus),理论上可以扩增出基因片断。没有连线的,表示单条引物与该基因一致。这是原文。
    图形格式中,两线段间有连线,这里的连线具体代表什么意思呀?

    • 一个表示有多少序列比对上了,另一个E_value,是一个概率统计上的值,来说明比对上是否随机的,其和你本身输入的序列、比对的序列库都有关系,具体如何算的,可以google看看具体的定义,总之是越小越好,比如0.00001就是经常用的一个阀值。使用blast验证引物还没有使用过,根据你的翻译,可以理解为有上下游引物,可以扩展出的结果。

  4. 张老师:
    您好!
    我最近在装gbrowse本地安装包,系统是ubuntu 12.04,GBrowse2.23,根据安装包里的介绍安装之后,没有报错;也可以通过浏览器访问到localhost,但是访问如下网址 http://your.host/cgi-bin/gb2/gbrowse/yeast一直不成功。
    看了一下cgi-bin文件夹,根本没有gb2这个文件夹。虽然有.gff3格式的文件,却不知怎么由此生成可以访问到的gbrowse页面。
    我是生物信息方面的新手,对操作系统也不太了解,希望您不吝赐教。

  5. 博主好,无意中看到你博客有关于KEGG、二代测序的文章,我是刚从事肠道菌群研究的,有些问题请教一下。1、如何确定细菌16s sRNA基因的可变区?看到文献中提到V3、V6等可变区,但不知道怎么确定出来的 2、构建细菌系统发育树时对DNA序列有什么特殊要求吗?
    谢谢!

    • 回复有些迟了,以前也参与过些关于菌群方面的研究,不同的研究对象,菌群的构成就太一样,16s sRNA等标记物的性质也不一样,可变区也不一样,所以也要先看文献,从前人的研究中,对于所要研究的菌群有个了解,从NCBI下载这些数据,动手做一下多重比对,把每个区域标记出来,统计一下保守性。构建系统发育树时,对于DNA序列没有特殊的要求,不多要注意区分度,比如亚种、株系等用16s肯定区分不开。目前对于菌群的研究还是积累了很多的思路,以及相应的工具软件,多看些文献,多动动手。

  6. 您好,请问做生物信息数据分析类的项目,具体会运用到哪些知识和工具呢?高级数据挖掘有必要学习吗?

    • 基础分子生物学,弄清楚DNA、蛋白质、gene、基因组、转录组、深度测序等等基本概念;计算机方面,学习一门脚本语言,比如perl、python、R等,会使用linux,会基本的命令;生物信息学方面了解NCBI、EBI等等网站常用的数据库,了解fasta、genbank等等数据格式,熟悉序列比对、序列拼接、多重比对、基因预测等等基础软件的操作。现在多数的分析项目,主要就是用已有的工具,进行数据处理,比如刚测序数据的拼接、mapping等,知道有哪些软件,找到这些软件,安装,学习使用,得到结果,基本就是这样的流程。哈,至于高级数据挖掘,我就不知道你这里指的是何物了,不过,比如数据、统计学,你学的好,对于许多软件的算法,你理解的深入点,学习灵活使用的快些。在这个急功近利的时代,静下心把这些学好,不容易。

  7. 您好,看到您写的关于HMMER的文章,我最近在用这个程序找一个转录因子家族,但是在用这个软件的时候碰到了一点问题。我是在网站上下载的windows版的,解压后每当双击hmmersearch的时候基本没反应,或是有一个黑色的窗口闪了一下就没了,无法启动程序,这是怎么回事呢?我已经按照里面的read me的方法把两个与cygwin有关的文件复制到windows/system32 下面了。

    • 估计你是第一次使用命令行的程序,这样的程序正确的做法是首先打开dos窗口(开始/运行->cmd,或者win->搜索cmd,双击cmd.exe),然后切换到hmmersearch所在的目录,在dos窗口中输入hmmersearch命令。

  8. 您好,今天一个非常偶然的机会看到了您的网站,很喜欢。我现在正在做转录组数据的分析,想做一下COG,但我拼接后map到nr上的片段有几万条,如何能批量的做一下COG分析呢?您能给点建议吗?谢谢!

    • 现在做COG一般的流程是,拼接好的unigene与nr、swiss等库使用blast进行比对,设置E-value为0.01,得到比对上的第一条序列,通过这些序列的go号,将该gene归属于这个go,然后进行分类统计以及相应的富集分析,都是自己写perl实现的,感觉现有的软件比如blast2go等还是不太好用,关键是自己理解过程,下载到相关的数据与核心程序,通过perl脚本批量进行操作。等有时间我再将自己的脚本流程整理一下。

  9. 博主您好,我看到您有关于tophat ,cufflinks的文章,我有个问题请教一下:我现在有2个sra文件(1.sra;2.sra)是同一个样本的paired end 数据,我用fastq-dump 将其转为两对fastq文件(1_1.fastq,1_2fastq;2_1.fastq,2_2.fastq),接下来我想跑tophat和cufflinks,这些文件肯定要合并的,但我不知道在哪步合并比较好,我有几个想法:1.将1_1.fastq和2_1.fastq合并,将1_2.fastq,2_2.fastq合并,用合并完的文件跑tophat和cufflinks;2.两对fastq文件分别跑tophat,得到两个匹配bam文件,将2个bam文件合并,然后跑cufflinks;3.两对fastq文件分别跑tophat,得到的bam文件分别跑cufflinks,然后将得到的两个结果文件用cuffmerge合并。
    不知道上面的3个方案那个更好一些,希望您给点建议,谢谢!

    • 这个问题都会遇到,因为同一个样本的测序结果文件也是多个,另外一个比较棘手的问题就是质控后有些一端的被去掉了,需要将另外一个的也去掉,保持顺序上的对应。我的目前的做法是先将SRA转换的fq文件进行合并,然后质控,然后去除单个的,再分成两个文件作为tophat的输入,你说的另外两种方法可能比较费事。

    • 不知道这里你提到的sequenc资讯具体指的是那些信息,GFT或者GFF是对于sequence的注释,输入到mysql时,可以将sequence的fasta格式文件,一并进行输入。

      • 謝謝回應
        但是我的情況如果是一群long non coding sequence(>200bp) 的GFF檔案
        有沒有軟體可以input進去database後就直接有他們的Sequence呢?
        我沒有fasta的檔案
        但是GFF有start position和 end position
        應該一些軟體可以在某些opendatabase取得sequence?

        • 可能没有现成的软件,或者你再搜索一下,写一个perl脚本应该很好实现,如果我没有理解错的话,另外就是把你的GFF,复制几行作为例子,我可能更容易理解些。

  10. 你好,我是做分子生物的,但是对生物信息非常感兴趣,但是却不知道怎么入门,像你《生物信息学的阶梯》里说的,还在初级,只会用网页工具做简单的分析,不知道张老师有没有学习建议。
    PS,目前在上海工作,但是不是生物信息方向

    • 生物信息也有很多的方向,比如数据处理(流程执行,软件安装与运行)、相关软件开发、流程开发及其优化、算法方面的等等,要选择一个方向,保持好奇心,多看看,找些例子进行实践,NCBI、EBI、UCSC等网站,有什么板块,是什么,对于流行的数据,比如SNP数据,包含哪些信息,有哪些数据库,数据规范,得到这些数据的处理流程,这些数据主要用途等等。另外就是电脑方面,学习数据库、linux、脚本语言(perl、R、python)、网络编程(javascript、php、css),有关的事情、项目积极参与进来。

  11. 张老师:
    你好!看到你做生物信息这方面的 ,并且做得还不错,精通。我想请教您几个问题,不知道有空没有。
    我是刚接触这一方面,好多东西不知如何下手。现在有两种藻的est序列,也是从ncbi上下载的,但对于这两种的基因组序列,目前还没有。我怎么比较这两物种的表达差异呢?请指教,详细点更好,谢谢

    • 这两个物种亲缘关系进吗?首先要反思一下你的目的,不同物种之间表达差异想要说明什么样的问题,而你找的EST能否反映出这样的差异,再说方法,没有基因序列,况且是不同物种的,只能从功能基因的角度去比较,比如将两个物种EST进行功能鉴定,按照GO进行分类,然后比较两个物种每个GO分类上对应基因数的差异,或者再进一步的按照分类,比较有哪些共同的功能基因,这是整个思路,供你参考。

  12. 您好,我是做生物信息的研一的学生,导师做肿瘤,最近在查补体有关的基因,自己查的东西感觉没有进展,求思路,求帮助,

  13. 请教博主,我现在手上有一个基因家族的多条蛋白序列,想通过hmmemit 从HMM模型中,得到一个模式序列,请问我的具体步骤和命令输入是什么呀?谢谢答复!

    • 抱歉,这段时间许多网友的留言,由于工作上的原因没有及时回复,希望不算太晚。我不知道这里你指的模式序列指的是什么,做什么用途,如果是做搜索条件,这个HMM模型就可以,需要需要设计兼并引物,还是最好看这些蛋白质的多重比对结果,然后手工做设计。hmmemit没有用过,具体步骤最好看一下他的文档。

    • 您好,不知道你是安装Gbrowse还是其他的,linux下软件安装,如果出现问题,一定要细看安装时候,命令的输出,注意error之类的,并且检查保证每一步都执行成功。如果看到error,办法总比问题多,一定记着搞定再继续前行。

  14. 老师您好,我是研二的学生,做protein fold recognition 预测分类的,可是正确率一直没达到理想的状态,老师让我用hhsearch进一步提高正确率,可是我不知道怎么用hhsearch?是从它的输出提取特征值吗?hhsearch的到底是做什么的,我们怎么用它呢?谢谢老师

  15. 你好,我想在在做直系同源基因的比对及鉴定,需要formatdb软件,看到在对公司的网站上有关于这个软件的讲解,能将软件发给我一下么?

  16. 非常不错,先来留言,我是一名研究生,正在学习相关生物信息学知识,看到您这里,感觉很好,希望以后能跟您多交流,多学习!

发表评论

电子邮件地址不会被公开。 必填项已用*标注

请启用Javascript,以完成验证!