生物科学门户网站
BIO1000.COM

参与环境健康研究的参与者容易受到重新识别

马萨诸塞州牛顿市(2020年1月13日)–科学家在共享人类研究数据之前,会例行剥离其个人信息,例如姓名,地址和生日,以保护研究参与者的隐私。但是,Silent Spring研究所的研究人员及其同事在《环境健康观点》杂志上的报告显示,对于环境健康研究而言,这可能还不够,甚至有时可以将匿名数据追溯到个人。

这项新研究突出了对人类研究参与者的保护的必要性。这也对美国环境保护署(EPA)提议的联邦法规产生影响,该法规要求科学家公开其数据,以便将其研究用作环境法规的基础。

《寂静的春天》的首席科学家凯瑟琳·博罗诺(Katherine Boronow)说:“研究人员承诺保护研究参与者的隐私,这是几乎所有涉及人的科学研究的惯例。”“我们的研究表明,即使删除了明显的标识符,也可以从环境健康研究中公开获得数据,这可能违反这些承诺。”

在先前的研究中,寂静之春的研究人员进行了一项实验,他们与具有重新识别技术的哈佛研究人员小组共享了该研究所在加利福尼亚的家庭接触研究中的匿名数据。通过将研究中的住房和人口统计数据与税收评估员记录等可公开获得的数据相关联,并使用研究中描述的其他信息(例如住房发展的位置和所测量的室内空气污染物的水平),该小组成功地从一个住房开发中按名称确定了25%的参与者。

现在,在这项最新调查中,研究人员表明,重新识别的漏洞是环境健康数据的常见方面。他们回顾了十二项环境健康研究,确定了五种不同类型的数据(位置,医学,遗传,职业和住房),这些数据与外部数据库重叠,并且可能导致重新识别的风险。

研究人员发现,所有12项研究至少包括五种数据类型中的两种,而三项研究包括了全部五种。“具有多种数据类型为某人提供了更多将研究数据与现有商业或公共数据库进行匹配的机会,” Boronow说。

人体或家中污染物的测量也是许多环境健康研究的特征数据类型。但是,目前,仅这些测量值就不太容易受到数据链接的影响,因为很少有包含可用于匹配的化学测量值的数据库。

为了探索将化学暴露数据用于重新识别的另一种方法,该团队使用了Silent Spring在加利福尼亚州和马萨诸塞州进行的家庭暴露研究以及疾病控制中心在波士顿和辛辛那提进行的绿色住房研究中的数据进行了聚类分析。 。他们将原始化学测量结果提供给一种算法,该算法将每个研究中的数据分为两组。该算法创建的组对应于地理位置,准确度为80%到98%。

Boronow说,如果将数据按位置分组,则可以将每个组与缩小到该位置的数据进行匹配,从而使重新标识攻击更有可能产生正确的匹配。这说明了即使共享研究数据时,即使排除了某人的特征,某人也可以使用化学数据来推断该人的特征。

数据共享有很多好处。通过汇总数据,研究人员可以创建更大,更多样化的数据集,从而可能导致知识的进步。它还可以使研究人员能够访问难以获得或昂贵的数据,例如在发生环境灾难后从生物学或环境样本中收集的数据。但是,正如新研究表明的那样,它也有其风险。

该研究的合著者,《寂静的春天》(Silent Spring)的执行董事朱莉娅·布罗迪(Julia Brody)博士说,隐私风险的影响并非微不足道。隐私的丢失可能会给个人和社区带来耻辱。它可能会影响财产价值,保险或一个人的就业机会。它还可能破坏对研究的信任。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。