隐私保护的挑战
示例 1
- 一种简单的方法:匿名化您的数据
- 这看似合理,但并不能真正保护隐私。
- 原因:匿名数据往往会保留很多可能泄露隐私的信息
- 一些数据可能在别处获得后,数据匹配后,用户信息会被反转,从而破坏用户隐私。
例如:
- 在 1990 年代中期,马萨诸塞州的一个政府部门遭受了这样的攻击。
- 他们发布匿名的员工医疗记录以供研究
- 后果:当时的州长的医疗记录被泄露
- 后续研究表明,63%的美国人口有着唯一的{出生日期、性别、邮编}组合,这说明有着63%的人可能面临着暴露身份
由于匿名化容易受到攻击,我们是否可以考虑不发布详细的元组,而是发布粗粒度的统计信息?
答:统计数据也有可能泄露隐私
数据重构攻击
这种重建有多准确?
数据重构攻击的实际效果
- 美国普查局用他们2010年所发布的一组统 计数据试验了数据重构攻击
- 结果表明,他们能重构17%美国人口的数 据
- 为此,他们宣布将于2020年的统计数据发 布中使用差分隐私
机器学习模型发布
机器学习模型也可能泄露隐私原因?
- 机器学习模型往往会无意中“记住”源数据中的元组
- 因此,模型在这些元组上的表现可能与在其他元组上的表现不同
- 类比:学生参加考试时,遇到以前做过的题和没做过的题,会有不同的反应。
对机器学习模型的隐私攻击
小总结:
- 总而言之,攻击者可以通过多种不同方式攻击私人数据
- 为了防范这些可能的攻击,我们需要一个严格的框架来保护数据隐私
- 差分隐私就是这样一个理论框架
差分隐私:定义和原则
差异隐私的直观原则
- 差分隐私要求任何被发布的信息都应当与上图中的信息0类似:应当避免让攻击者分辨出任何具体的个人数据
- 为此,差分隐私要求公开的信息经过随机算法处理,随机算法会对信息产生一定的扰动。
差分隐私的定义
差分隐私定义说明
- 攻击者无法观察到某个元素对结果输出的影响,从而保证了用户的隐私
差分隐私算法
如何设计满足差分隐私的算法
拉普拉斯机制
- 因为对个体依赖程度变为3了
灵敏度
其他噪音机制
随机化响应
如果用这种随机的方式估计,对真实结果的原始估计不会有很大的影响吗?
从随机答案中获取统计数据
随机答案:总结
只能推出有多少个是yes,有多少个是no,只能知道yes和no的比例,而不是知道具体谁投了yes,谁投了no
- 拉普拉斯机制和随机答案是两种经典的差分隐私算法,还有很多其他不同的算法。一般来说,不同的应用场景、不同的数据集、不同的输出往往需要不同的算法设计。如何根据应用设计差异化隐私方法是众多领域学者感兴趣的问题
差分隐私:应用程序
差分隐私数据库
技术难点
差分隐私机器学习
TensorFlow Privacy 的基本原理
差异隐私数据收集
技术难点
差分隐私数据合成
技术难点
外表
差分隐私的新方向
- 联合学习
- 与多方安全计算相结合
总结
- 差分隐私是近年来受到较多关注的一种隐私保护模式。
- 具有很强的理论保障,并已在多个场景中得到应用
- 但是还有很多问题需要解决
文章出处登录后可见!
已经登录?立即刷新