怎样看待大数据时代下隐私权保护问题?
▍怎样看待大数据时代下隐私权保护问题?
从信息时代开始,关于隐私保护的研究就开始了。随着数据不断地增长,人们对隐私越来越重视,接下来我们讨论隐私保护的两种情况。
第一种是公司为了学术研究和数据交流开放用户数据,学术机构或者个人可以向数据库发起查询请求,公司返回对应的数据时需要保证用户的隐私。
第二种情况是公司作为服务提供商,为了提高服务质量,主动收集用户的数据,这些在客户端上收集的数据也需要保证隐私性。学术界提出了多种保护隐私的方法和测量隐私是否泄露的工具,例如K-anonymity(K-匿名化)[1]、Differential privacy(差分隐私)[4]、Homomorphic encryption(同态加密)[2]、Zero-knowledge proof(零知识证明)[3]等等。
今天主要看一下K-anonymity(K-匿名化)和Differential privacy(差分隐私)。因为这两种方法在学术界和工业界得到了最普遍的应用。
一、K-anonymity(K-匿名化)
K-匿名化( K-anonymization) 是数据发布时保护私有信息的一种重要方法。K-匿名技术是1998 年由Samarati和Sweeney 提出的,它要求发布的数据中存在一定数量(至少为K) 的在准标识符上不可区分的记录,使攻击者不能判别出隐私信息所属的具体个体,从而保护了个人隐私,k匿名化能保证以下3点:
(1) 攻击者无法知道某个人是否在公开的数据中;
(2) 给定一个人,攻击者无法确认他是否有某项敏感属性;
(3) 攻击者无法确认某条数据对应的是哪个人。
K-匿名隐私保护模型要求每条记录在发布数据前,都至少与某记录无法区分开来。具有相同准标识符的记录构成一个等价类。所以,即使攻击者知道了一定的背景知识,也无法与确定的一条信息进行链接,这是一种泛化技术。
二、Differential privacy(差分隐私)
差分隐私是对数据发布时,数据集中的隐私损失进行量化的数学模型。在数据集中增加了一定数量的“随机噪声”,这个噪声通过概率分布产生,噪声保证对隐私保护的同时,仍然具有分析价值。苹果公司在iOS 10中就引入差分隐私技术以提高对用户的隐私保护。
差分隐私保证以下内容:攻击者能获取的个人数据几乎和他们从没有这个人记录的数据集中能获取的相差无几。因为它符合现实世界的动机——个人没有动机不参与数据集,因为不论自己在不在数据集中,该数据集的分析者都将得出关于该个人的相同的结论。由于其敏感的个人信息与系统的输出几乎完全不相关,因此用户可以确信处理其数据的组织不会侵犯他们的隐私。分析者几乎"无法获得个人信息"意味着他们被限制在关于任何个人的看法的微小变化中。在这里和下面,"变化"是指使用数据集和使用相同的数据集减去任何一个人的记录之间的变化。这种变化的范围由参数控制,对任何可能的结果,该参数设置了变化的边界。低的值,例如0.1,意味着关于任何个人的看法的改变非常少;高的值,例如50,意味着关于个人的看法的变化更大。正式的定义如下。
当且仅当以下情况下,算法A是ε-差分隐私的:
对于所有的x和对于所有的数据集对和,缺少任何一条记录的被称为,比如缺少某个人的数据。符号指的是数学常数。注意,这个定义只对随机算法有意义。给出确定性输出的算法都不适合差分隐私。差分隐私保证的主要吸引力在于其对分析者所能获取的个人信息量的限制。此外,它具有以下有用的属性:
可组合性:如果用保证程度分别为和的差分隐私来回应两个查询,则该对查询的差分隐私性等同于保证程度。回想一下,较高的ε值意味着较弱的保证。
针对任意背景信息的强度:这种保证不以任何方式依赖于攻击者知道的背景信息。该属性是差分隐私强于早期的隐私保证(k-anonymity)的主要原因之一。
后期处理的安全性:对于差分隐私的结果,没有限制可以做什么——无论它与什么结合或者怎么被转换,它仍然是差分隐私的。
所以最常用的方法是在结果上加入满足某种分布的噪音,使查询结果随机化。目前常用的有两种方法,一个是Laplace机制,在查询结果里加入Laplace分布的噪音,适用于数值型输出。例如:一个人群范围内里有多少人是男性?假如结果是2000人,那么每一次查询得到的结果都会稍稍有些区别,比如有很高的概率输出2001,也有较高概率输出2010,较低概率输出1990,等等。另外一个是指数机制,在查询结果里用指数分布来调整概率,适用于非数值型输出。
▍怎样看待大数据时代下隐私权保护问题?
谢谢邀请。
其实很多的隐私在当下的定义中,已经都是公开化了,比如个人的电话,家庭住址这些在如家的大背景下,公开性比较大。对于出现这样的问题,有多方面的因素,首先,当下的公民对这块也不太注重了。其次,很多app都增加功能,比如附近的人,或者群里多少距离,都是清清楚楚,通过媒介后,这些信息很难成为隐私了。
上述的隐私在10年前,或者更早,都是一些比较保密的东西,时代的发展,我们习惯的将这些隐私暴露出来。
但是,我们当下将隐私看成是,个人的缺陷,个人的阴暗面,将这些保护的非常好。反到会导致人与人之间交流的矛盾增多。
------------------
推荐阅读:
过年了,好多人回来相亲,看对眼,年前就订婚,年后就结婚,没有基础的婚姻,会幸福吗?
上一篇:人生低谷,你们都是如何走出来的?
下一篇: 世界上最美的一句话,你觉得是什么?