一场医疗数据泄露事件,让中国科研人员陷入了信任危机。
2026 年 4 月,有人在阿里巴巴平台上发现了有数据清单正在出售,内容是英国生物样本库(UK Biobank)50 万名志愿者的医疗数据——性别、年龄、生活习惯、生物样本检测结果,明码标价,等待买家。相关报道中并未指明具体是阿里巴巴旗下哪个平台,但众多网友猜测其应为闲鱼。
疑似售卖页面
这不是黑客攻击的结果,也不是系统漏洞。上传数据的,是中国三家获得合法授权的学术机构的研究人员。
在英国和中国政府的协调下,阿里巴巴迅速移除了这些清单。但这起事件暴露的问题远比数据本身更深刻:当科学研究需要开放共享数据,如何防止“合法下载者”变成数据贩子?
这是一场“合法”的数据泄漏
UK Biobank 是英国从 2006 年开始建立的一个大型健康数据库。50 万名年龄在 40 到 69 岁之间的志愿者,同意将自己的健康数据贡献给科学研究:全身扫描、DNA 序列、血液和尿液样本、完整的医疗记录,甚至生活习惯的详细问卷。
这不是一次性的体检,许多志愿者在过去 20 年里多次返回评估中心,更新数据,追踪健康变化。他们中的一些人患上了癌症,一些人被诊断出帕金森病,还有一些人出现了痴呆症的早期症状。这些真实世界的数据,成为科学家研究疾病机制、寻找治疗方法的宝贵资源。
UK Biobank 是英国从 2006 年开始建立的一个大型健康数据库丨ukbiobank.ac.uk
到目前为止,UK Biobank 已经支持了超过 18,000 篇科学论文的发表,帮助科学家发现了某些癌症的早期检测标志物,揭示了帕金森病的遗传风险因素,甚至为痴呆症的预防提供了新思路。
这个项目投入了约 2 亿英镑(约合人民币 18 亿元),既是英国国家级的科学基础设施,更是全球生物医学研究的标杆。
正因如此,数据被挂上网的消息才显得格外刺眼。更讽刺的是,这些数据的来源完全合法。中国三家学术机构通过严格的审核程序,获得了访问 UK Biobank 研究平台的权限。按照规定,这些数据只能用于科学研究,但他们却将其挂到了电商平台上出售。
网友们的评论丨小红书截图
事情暴露后,UK Biobank 在 4 月 21 日将此事通知了英国政府。英国科技部长伊恩·默里(Ian Murray)随后在议会上证实,这些数据涉及全部 50 万名参与者。
虽然数据不包含姓名、地址、联系方式或电话号码,但包含了足够详细的信息:性别、出生年月、社会经济地位、生活习惯,以及从血液、尿液、唾液等生物样本中提取的各种生理指标。
“这不是泄露或网络攻击,”默里在议会上强调,“这是一次合法的下载,由一个合法认证的组织完成。这才是问题所在。”
阿里巴巴在接到通知后迅速移除了这些清单,并表示没有任何购买记录。涉事的三家机构和相关研究人员已被暂停访问权限,一场全面调查正在进行。
志愿者们的隐私还安全吗?
数据泄露后,关于志愿者的隐私安全,UK Biobank 的官方回应是,这些数据都经过了“去标识化”处理,不包含任何可以直接识别个人的信息,比如姓名、地址、出生日期或医保编号。
去标识化,简单来说就是把数据中所有能直接指向你的标签都抹掉。就像你在图书馆借书,系统记录了“借书者身高 170 厘米,喜欢科幻小说,上周感冒了”,但不记录你的名字和借书证号。
在过去,这种方法相当有效。因为即使有人拿到了这些数据,也很难把“身高 170 厘米的科幻爱好者”和现实中的你对应起来,毕竟符合这些特征的人太多了。
去标识化,简单来说就是把数据中所有能直接指向你的标签都抹掉丨© Dave Guttridge/UK Biobank
但在 AI 时代,情况变了。
想象一下,如果有人同时拿到了多个数据库:健康数据、社交媒体上的公开信息、购物网站的消费记录。通过交叉比对,AI 可以找到那些独特的特征组合。比如,“40 岁女性,住在某个特定区域,有两个孩子,患有罕见的遗传病,去年做过膝盖手术”,这样的组合可能在 50 万人中只有一个。
英国法律公司 Freeths 的威尔·里士满-科根(Will Richmond-Coggan)警告说,即使数据经过了去标识化处理,仍然可能被视为个人数据,因为详细的信息可能导致参与者被重新识别。
面对这次事件,各方反应不一。
UK Biobank 的首席科学家娜奥米·艾伦(Naomi Allen)教授毫不掩饰自己的愤怒。她接受媒体采访时表示:“归根结底,这是那些流氓研究人员的错。他们给全球科学界抹黑了。”
但志愿者们的反应却出人意料地淡定。《卫报》专栏作家波莉·汤因比(Polly Toynbee)是 UK Biobank 的志愿者。接受采访时她说:“我不担心。数据是匿名的,即使有人买到了,也无法追溯到具体的人。我不认为这会动摇志愿者们的信心。”
面对这次事件,各方反应不一丨图虫创意
在英国议会,这起事件也引发了争论。有政客要求禁止中国人员继续访问数据库,但科技部长默里批评了这种说法,他指出自 2012 年以来,数千名中国研究人员一直在“安全可靠地”使用 UK Biobank 的数据,这次事件是个别机构和研究人员的违规行为。
一道无解的难题
这起事件暴露的,是科学研究中一个根本性的矛盾。
UK Biobank 的运作模式建立在一个基本假设之上:科学家是值得信任的。任何想要访问数据的研究机构,都需要经过严格的审核,证明其研究目的的正当性。一旦获得批准,他们就可以下载数据,在自己的系统中进行分析。
这种模式在过去是有效的,它让全球数千名科学家能够利用这些宝贵的数据,推动医学进步。但它也有一个致命的弱点:一旦数据离开了 UK Biobank 的服务器,就很难控制它的去向。这不是技术漏洞,而是信任机制的失效。
事件发生后,UK Biobank 宣布了一系列补救措施:暂时暂停研究平台的访问,对可以导出的文件大小施加严格限制,每天监控文件导出情况。但这些措施都是亡羊补牢。
目前,UK Biobank 已暂停研究平台的访问丨community.ukbiobank.ac.uk
这次事件真正需要思考的,不是简单的追责,而是如何完善数据基础设施的建设。像UK Biobank这样的大型数据管理项目对推动科学创新绝对至关重要,但维护这类基础设施的成本往往被视为事后考虑。更令人担忧的是连锁反应。公众对类似项目的信心一旦受损,参与度哪怕只是小幅下降,都会开始影响大规模研究的质量和可靠性。
调查仍在进行,涉事机构和研究人员的身份尚未公开,数据是否真的被购买也无法完全确认。但困境已经摆在眼前。50 万名志愿者,当初同意贡献自己的健康数据,是出于对科学的信任,对人类未来的善意。他们中的大多数人,即使在得知数据被挂上网后,仍然选择相信这个项目的价值。
但这份信任,经不起太多次背叛。
参考文献
作者:数芽
编辑:黎小球
封面图:ukbiobank.ac.uk
本文来自果壳,未经授权不得转载.
如有需要请联系sns@guokr.com
点个“小爱心”吧
