伦敦帝国理工学院的研究人员宣称,机器学习算法可识别任意匿名数据集中 99.98% 的用户真实身份。
研究人员开发出的算法仅需 15 个人口统计学属性即可从匿名数据集中正确确定个人真实身份。
该研究由伦敦帝国理工学院和比利时天主教鲁汶大学的科学家联合展开,揭示当前数据匿名化方法无法阻止个人信息复杂数据集被重新识别出来。
公司企业和政府辩称自己出售的数据集通常是不完整的,以此淡化个人身份被重新识别的风险。但我们的发现证明了现有匿名化方法并没有什么隐私保护作用。
该项研究发表在《自然·通讯》期刊上,证明机器学习算法可轻易逆向工程此类匿名数据,以极高的准确率重新识别出个人身份。
研究人员表示,仅需 15 个人口统计学意义上的属性,比如性别、年龄、婚姻状态等,该新工具便可重新识别出任意匿名数据集中 99.98% 的美国人。
该研究共同作者,天主教鲁汶大学博士卢克·罗彻 (Luc Rocher) 解释道:生活在纽约市的 30~40 岁男性肯定很多,但生日是 1 月 5 号,且开着红色跑车,与两个女儿和一条狗一起生活的 30~40 岁纽约市男性就少得多了。
有了这些细节,买家入手本应匿名的数据后便可构建出十分具体的个人资料了。
来自伦敦帝国理工学院计算机系与数据科学研究所的伊夫-亚历山大·蒙鸠斯依 (Yves-Alexandre de Montjoye) 博士指出,尽管个人数据受 GDPR 保护,但只要是匿名的,仍可出售给任何人。
尽管他们(公司)受 GDPR 约束,但只要经过匿名化处理,这些数据仍可出售给任何人。我们的研究证明了一旦数据售出,追踪到个人是如此容易而准确。
研究结果显示,攻击者能轻易准确估算出所发现记录属于自己目标人物的概率。
天主教鲁汶大学教授朱利安·亨德里克斯 (Julien Hendrickx) 补充道:我们总是假定匿名化能保护个人信息安全。但研究显示,反识别根本不足以保护个人隐私。
研究人员还发布了一款在线工具,可以帮助人们找出自己的独特属性。该在线工具仅用于演示目的,不会保存用户的数据。
近些年来,主流科技公司面临公众及数据隐私监管机构对其用户数据处理的严密审查。
今年早些时候,隐私活动家称,已找到新的证据证明互联网巨头谷歌公司未遵守欧盟《通用数据保护条例》(GDPR)。
今年 5 月,Facebook 一名律师在美国法庭上告知法官称,Facebook 用户不应期待在 Facebook 上有隐私,因为任何社交媒体平台都不存在用户隐私。该公司还被控向电信公司及手机制造商出售用户的智能手机数据。
医疗技术公司常会收集用户数据,比如来自医疗记录的信息,然后将之转换成所谓匿名数据。
也就是不包含个人可识别信息 (PII) 的数据。PII 包括姓名、电子邮件地址、电话号码等。将可识别属性从数据中去除是为了确保没人能从该数据中识别出个人,至少理论上不能。
而且,此类匿名化数据不再归属 GDPR 等数据保护规定的管辖范围,共享或售卖给数据代理商和广告公司也是可以的。
发表在《自然·通讯》上的论文:
https://www.nature.com/articles/s41467-019-10933-3
在线工具地址:
https://cpg.doc.ic.ac.uk/individual-risk/
相关阅读