也谈统计分析

最近看到一篇博客《最新研究质疑RNA测序数据的统计分析》,Nature上一篇关于印记基因研究的文章的数据分析方法以及结论遭到质疑,其统计分析及其整体的数据分析不够仔细,导致数据的假阳性排除方面不够严格。激起我很强的共鸣,或者说触及到了我们这些生物方面做数据分析的软肋。同样的研究对象,不同的人,不同的处理方法,会得到不一样的数据;同样的数据,不同的人,不同的分析流程,不同的平台软件,会得到不同的结果。而之所以少有这样的结论,或许因为证明别人的结论不正确要远远的比自己得出一个结论难,况且还有面子和气,以及项目资助等等。

而国内更为深有感触,而目前的普遍的形式,公司流水线的程序,给出一套结果,然后是下面交给一个学生负责,包括数据分析、思路拟定,文章撰写。而预想的结果就是能有些数据,凑成文章,发表就可以了,而至于结果的正确性,只能听天意了,如果碰巧测序样本制备的很好,测序的质量很好,数据又没有特殊的偏好性,也符合目前的归一化的分析流程,结果OK,但是却无法证明这个结果OK,也没有精力或者能力去证明。

再反思,自己从前到后学活的统计学,分析过程中接触的统计学,研究结论中使用的统计学,也从来都是一种形式,学过的统计学有多少的统计方法,用这样的一组名词解释另一组的名词。而分析过程而完全依赖于软件,哦,这个值应该大于多少,统计学上才有意义,结论分析也同样,现成的别人的套路,这样的分析,就得到这样的结果,这样的结果就说明了这样的结论。没有压根搞明白,为什么?

回过头,想再补补课,深奥的统计学,什么时候可以真正变成自己的武器,而不是一个模子,变成一种思想,而不是一种形式。当然也希望这方面的高手多奉献些为什么的帖子。