生物科学门户网站
BIO1000.COM

新的统计方法缓解了数据重现性危机

宾夕法尼亚大学公园-科学研究中一直存在着重现性危机,其中许多研究可能难以或无法复制并因此无法通过验证,尤其是当研究涉及非常大的样本量时。例如,要评估高通量遗传研究结果的有效性,科学家必须能够复制该研究并获得相同的结果。现在,宾夕法尼亚州立大学和明尼苏达大学的研究人员已经开发出一种统计工具,可以准确地估计一项研究的可重复性,从而消除了重复工作的需要,并有效地缓解了重现性危机。

研究小组使用了他们的新方法(他们在今天(3月30日)在《自然通讯》上发表的一篇论文中描述了这一方法,以证实2019年有关导致吸烟和饮酒成瘾的遗传因素的研究的结果,但指出该方法也可以应用其他全基因组关联研究-或研究疾病的遗传基础的研究。

“我们将这种方法用于研究与吸烟和饮酒成瘾相关的结果,但它可能会使其他类似的大规模财团研究受益,包括目前有关宿主遗传对COVID-19症状的研究,”公共副教授刘大江说。宾夕法尼亚州立大学健康科学与生物化学与分子生物学。

Liu认为,要检测全基因组关联研究中的模式,重要的是从大量个体中获取数据。科学家经常通过结合许多现有的类似设计的研究来获得这些数据,这是Liu和他的同事在2019年吸烟和饮酒成瘾研究中所做的工作,该研究最终包括120万人。

Liu表示:“我们非常努力地收集了所有可以管理的患者样本,”他指出这些数据来自生物库,流行病学研究和直接面向消费者的基因检测公司,例如23andMe。但是,他补充说,由于该团队在分析中使用了所有可用的研究,因此没有剩下的可以用作验证的比较。他说:“我们的统计方法使研究人员无需复制数据集即可评估遗传关联信号的可复制性。”“它有助于最大化遗传研究的力量,因为不需要保留任何样本来进行复制;相反,所有样本都可以用于发现。”

该团队的方法被称为MAMBA(基于元分析模型的可复制性评估),用于评估DNA的非典型位(称为单核苷酸多态性(SNP))与疾病特征(如成瘾)之间的关联的强度和一致性。具体来说,MAMBA计算出如果可以用另一组不同的个体重复进行实验,则SNP与这些个体特征之间的关系将与第一个实验相同或相似。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。