关键字 |
隐私保护、匿名化、随机化、分布式的隐私保护 |
介绍 |
近年来,数据挖掘隐私被视为一种威胁的广泛扩散电子数据维护的公司。这已导致增加对底层数据的隐私的担忧。在过去的几十年,大量的方法和技术,如分类、关联规则挖掘提出了修改或改变数据以这样一种方式,以保护隐私。保护个人信息是一个重要的数据所有者,以确保他的隐私。隐私数据发布中扮演着重要的角色。 |
数据挖掘过程允许公司使用大量的数据来开发相关性和数据之间的关系,提高业务效率。因此隐私保护数据挖掘已成为重要的研究领域。数据挖掘技术可以开发这些分析,使用混合的统计,人工智能,机器学习算法和数据存储。 |
为了面对挑战风险,一些研究者提出了解决这个尴尬的情况下,在完成目标的平衡数据工具和信息隐私当发布数据集。正在进行的研究被称为隐私保护数据发布。平衡的隐私数据按用户的合法的需要是主要问题。 |
卫生处理的原始数据修改过程隐藏敏感知识之前发布能够解决这个问题。隐私保护敏感的知识是由一些研究人员解决关联规则的形式通过抑制频繁项集。作为关联规则的数据挖掘处理生成的变化关联规则的支持和信心隐藏敏感规则。一个新概念命名„不改变支持?提出了隐藏一个关联规则。 |
数据挖掘中的保密问题。在任何集体出现的一个关键问题,收集的数据是保密的。需要隐私有时是由于法律(例如,医疗数据库)或可以出于商业利益。具有讽刺意味的是,数据挖掘的结果很少违反隐私。数据挖掘的目的是概括穿过人群,而不是透露个人信息。 |
缺点是数据挖掘的作品评价个人数据隐私问题。本文组织如下。第二部分是关于隐私保护相关工作第三节介绍了隐私保护技术第三节总结分布式数据隐私保护的概念基础。第四部分讨论现代隐私攻击。第五部分给出了解释的比较研究各种方法的隐私保护。 |
相关的工作 |
数据隐私一直是一个活跃的研究主题的统计数据,数据库和安全社区在过去三十年[5]互动和交互。在交互框架,通过私人数据矿工可以构成查询机制,和一个数据库所有者回答这些查询。在非交互式框架,数据库所有者首先匿名化原始数据,然后发布匿名版进行数据分析。一旦数据发布,数据所有者没有进一步控制发表的数据。这种方法也被称为隐私保护数据发布(PPDP)[5],在分布式(多方)场景中,数据所有者想要达到相同的任务作为单一政党的集成数据不与他人分享他们的数据算法解决了分布式和非交互式场景。下面,我们简要回顾一下最相关的研究工作。Iyengar[9]提出了匿名的问题分类和提出了一种遗传算法的解决方案。Fung等人提出了另一个匿名化技术,使用多维重新编码分类。研究建议[10]解决问题的非交互式数据发布只考虑一党场景。因此,这些技术不满足我们的数据集成应用的隐私需求的金融行业。 Jurczyk and Xiong[12] have proposed an algorithm to securely integrate horizontally partitioned data from multiple data owners without disclosing data from one party to another. |
隐私保护技术 |
在本文中,我们将提供一个广泛的概述不同的隐私保护数据挖掘的技术。我们将提供一个广泛的主要算法可用于每个方法,和不同的技术上的变化。我们还将讨论不同的概念的组合。 |
随机化方法 |
在本节中,我们将讨论隐私保护数据挖掘的随机化方法。随机化方法的上下文中被传统扭曲数据概率分布的方法,如调查这一个含糊其词的回答倾向,因为隐私问题 |
随机化的方法可以描述如下。考虑一组数据记录用X = {x1,….xn}。习记录吗?X,我们添加一个噪声分量的概率分布(y)财政年度。这些噪声组件是独立的,并表示y1 .... yn . .因此,新的扭曲记录用x1 + y1…. . xn + yn . .我们表示这组新记录的z1…….zn。 |
随机化方法已经扩展到各种数据挖掘问题。许多其他技术也已提出似乎很好地工作在各种不同的分类器。技术也提出了隐私保护的方法提高分类器的有效性。关联规则的问题是特别具有挑战性,因为离散的本质属性对应商品的存在与否。 |
隐私量化 |
用来测量数量的隐私应该表明密切属性的初始值可以估计。如果原始值可以估计与c %信心躺在区间,然后间隔宽度定义的隐私在c %的信心水平。 |
对手的攻击随机化 |
一般来说,可以使用系统方法在多维数据集使用光谱滤波或基于主成分分析的技术。在主成分分析等技术的广泛的思想是,相关结构的原始数据可以相当准确地估计即使在噪声增加。一旦广泛的相关结构的数据被确定,然后尝试删除噪音数据以这样一种方式,它适合聚合相关的数据结构。 |
的另一种敌对的攻击是使用公共信息。考虑一个记录X = {x1……xd},这是摄动Z = {z1…. . zd}。然后,由于扰动的分布是已知的,我们可以尝试使用最大似然的Z的潜在干扰公共记录。对数似适合越高,概率越大记录W对应X如果众所周知,公共数据集总是包括X,然后最大似然适合可以提供高度的确定性识别正确的记录,特别是在情况d是大。 |
随机数据流的方法 |
随机化方法尤其适合保护隐私的数据挖掘流,由于噪声添加到给定的记录是独立于其他的数据。然而,流提供一个特别脆弱的目标对手的攻击使用PCA技术由于大量的数据进行分析。在一个有趣的随机化技术提出了使用汽车在不同的时间序列相关性,同时决定的噪音被添加到任何特定的值。 |
乘法扰动 |
随机化的最常见方法是加性扰动。然而,也可以使用乘法扰动为隐私保护数据挖掘效果好。乘法扰动也可以用于分布式数据挖掘隐私保护。 |
数据交换 |
我们不仅注意噪音加法或乘法技术可以用来扰乱数据。一个相关的方法是数据交换,在交换值在不同的记录进行隐私保护。这种技术的一个优点是,数据的低阶边际总数是完全保留,不摄动。我们注意,这种技术并不遵循随机化的一般原则允许的值记录被摄动独立;y的其他记录。因此这一技术可以结合使用其他框架如k-anonymity,只要交换过程的目的是保护隐私的定义模型。 |
匿名化技术 |
随机化方法是一种简单的方法可以很容易地实现数据采集时,由于噪声添加到给定的记录是独立于其他记录的行为。这也是缺点,因为离群值记录往往是难以掩盖。随机化框架的另一个关键的弱点是,它不考虑公开记录可以用来识别这些记录的主人的身份。因此,一个广泛的许多隐私转换方法是构造组的匿名记录转换为特定的方式。 |
K-ANONYMITY |
可用的数据记录是由通过简单地删除键标识符名称和社保号码等个人记录。K-anonymity提供保护,确保发布的信息映射到不,k或不正确的实体,分别。确定有多少个人发布的每一个元组可以匹配需要结合外部可用数据的公布的数据和分析其他可能的攻击。 |
定义k-anonymity |
让RT (A1,…. .一个)是一个表和QIRT准标识符相关联的。RT是满足k-anonymity当且仅当每个序列中的值的RT (QIRT)至少有k出现出现在RT (QIRT)。 |
排序的方法假定在quasi-identifiers属性。属性的值是离散时间间隔或分组到不同的值。创建一个索引使用这些attribute-interval副和一组枚举树是一个系统化的枚举所有可能的概括与使用这些分组。一个分支和绑定技术可用于先后在遍历过程中提高解决方案的质量。最终有可能终止算法最大的计算时间,并使用当前的解决方案。减少匿名总是控制,所以k-anonymity从不违反。因为k-anonymization问题本质上是一个搜索可能的多维的空间解决方案,标准启发式搜索技术,如遗传算法、模拟退火可以有效地使用。这种技术可能是有用的在需要的情况下确定是否应该使用匿名化技术的选择一个特定的情况。 |
攻击K匿名 |
一)匹配攻击k-anonymity无序 |
这种攻击是基于元组的顺序出现在了桌子上。这些可以纠正随机排序表元组的解决方案。否则,释放一个相关的表可以泄漏敏感信息 |
b)互补释放攻击k-anonymity |
在这种攻击中,构成准标识符属性是自己发布的属性的一个子集。结果,当一个表T,坚持k-anonymity,释放,它应该被认为是加入其他外部信息。因此,后续版本相同的私有信息必须考虑所有的T准标识符属性发布禁止连接T,当然,除非后续版本是基于T。 |
c)颞攻击k-anonymity |
数据收集是动态的。元组添加、更改和删除。因此,版本的广义数据随着时间的推移可以暂时的攻击。让表T0原私营表在时间t = 0。假设基于T0 k-anonymity解决方案,如表RT0打电话,释放。让RTt k-anonymity解决方案基于Tt,释放在时间t。因为没有要求RTt尊重RTo连接表RTt和RTo可能会透露敏感信息,从而妥协k-anonymity保护。 |
K-anonymity算法未能保护隐私或过度降低数据的实用程序。匿名性是通过使用安全多方计算。隐私要求匿名化个性化的基于个人偏好对敏感属性。 |
自底向上的搜索策略提出了寻找最佳的匿名化。这个策略效果特别好时k的值很小。更复杂的推广计划允许更多有效的概括和产生一个数据集与数据质量更好。 |
摄动技术 |
隐私的担忧不断增加的各种机构收集个人信息的隐私保护数据的发展。微扰的方法保护数据的隐私数据,通过一个方法。数据扰动的主要挑战是实现所需的结果之间的数据隐私和数据的效用水平。 |
数据隐私和数据效用通常被认为是一对相互冲突的需求为应用程序和采矿系统的保护隐私数据。乘法扰动算法以改善数据隐私的同时保持一定程度的选择性的保留效用的数据挖掘任务,模型数据扰动过程中特定的信息。 |
乘法扰动算法可能会发现多个保护所需的数据的数据转换工具。因此,下一个重大挑战是找到一个好的转换提供一个令人满意的水平的隐私数据。 |
数据扰动技术的评价 |
数据扰动技术效率的好处,并且不需要了解其他记录的分布数据。这不是真正的其他方法,如k-anonymity需要知识的其他记录数据。这种方法不需要使用受信任的服务器包含所有原始记录为了执行匿名化过程。 |
在分布式数据库隐私保护。 |
关键目标在大多数分布式数据挖掘隐私保护方法是允许计算有用的聚合数据在整个数据集在不影响个人的隐私数据集与在不同的参与者。因此,参与者可能希望获得总合作的结果,但可能并不完全相互信任的分配他们自己的数据集。为此,数据集可以是水平分区或垂直分区。在水平分区数据集,个人实体,每一种都有相同的一组属性。在垂直分区中,个人实体可能有不同的属性相同的记录。这两种类型的分区构成不同的分布式保护隐私的数据挖掘问题的挑战。 |
分布式数据挖掘隐私保护的问题与重叠在密码学领域确定安全多方计算。一个广泛的概述密码学领域之间的交叉。 |
水平分区数据集分布式算法。 |
在水平分区数据集,不同的站点包含不同的记录相同的属性集用于开采的目的。随后,各种分类器已被推广到水平分区的情况下的隐私保护问题的分类是在一个完全分布式执行的设置,其中每个客户只有私人访问自己的记录。 |
分布式算法在垂直分区的数据。 |
对于垂直分区的情况,许多原语操作如计算标量产品或安全设置大小路口可用于计算的数据挖掘算法的结果。关联规则挖掘的另一种方法是使用安全的标量产品垂直位表示的项目集夹杂物在交易中,为了计算的频率对应的项集。 |
分布式算法K-ANONYMITY |
在许多情况下,重要的是要保持k-anonymity不同分布式派对。在k匿名协议数据在两党垂直分区。k-anonymity也很重要的问题的背景下,分布式的基于位置的服务。在这种情况下k-anonymity用户身份的维持即使位置信息发布。 |
类似问题出现在通信协议的背景下的匿名发送方可能需要保护。消息发送者k-anonymous说。如果它是保证最多攻击者可以缩小k-individuals发送方的身份。同样的消息接收器k-anonymous说,如果它是保证最多攻击者可以缩小接收者k个人的身份。 |
现代隐私攻击 |
背景知识的攻击 |
解剖学是一种另类的匿名化技术推广。解剖学释放所有quasiidentifier和敏感数据直接进入两个不同的表提出了一个计算实例剖析算法表。算法首先散列记录到水桶基于敏感属性,即。与相同的敏感值,记录在同一个桶。然后迭代算法获得桶,目前有最大数量的记录并选择一个记录每个桶组成一组。然后分配给每个重新主要记录现有的集团。 |
未分类的匹配攻击 |
这种攻击是基于元组的顺序出现在了桌子上。当我们保持关系模型的使用,所以不能假定元组的顺序,在实际使用这常常是一个问题。当然可以纠正,通过随机排序的元组的解决方案。否则,释放一个相关的表可以泄漏敏感信息。 |
解决方案:随机洗牌的行。 |
互补释放攻击 |
更常见的是属性,构成了quasi-identifier本身发布的属性的一个子集。因此,当k-minimal解决方案,我们将调用表T是释放,它应该被认为是加入其他外部信息。因此,后续版本相同的私有信息的概括必须考虑的所有属性发布T T quasi-identifier禁止链接,当然,除非后续版本本身就是T的概括。 |
解决方案: |
1)考虑所有的表之前释放新的发布,并尽量避免链接。 |
2)其他数据持有者可以释放一些数据,可以使用在这种攻击。一般来说,这种at-tack很难禁止完成 |
时间攻击 |
数据收集是动态的。元组添加、更改和删除。因此,版本的广义数据随着时间的推移可以受到时态推理攻击。 |
解决方案:后续版本必须使用已经重新租赁表。 |
|
结论 |
本文讨论了各种方法和技术应用于数据挖掘的隐私保护。由于大量的信息,重要的是要保持隐私的敏感信息。每种技术都有自己的优点和dis-advantages。最隐私的攻击可以有效地摧毁了先进的技术和方法。在分布式数据挖掘隐私保护领域,效率是一个重要的问题。隐私和准确性是一对矛盾;改善其他通常会增加成本。所有方法近似隐私保护的目标,我们需要进一步完善这些方法或开发一些有效的方法。 |
|
引用 |
- N。穆罕默德,D。Alhadidi B.C.M. Fung”获得两党不同私有数据发布垂直分区数据”,Ieeetransactions可靠和安全的计算,2014年。
- n·穆罕默德,b . c . m . Fung, p . c . k .挂和c·李”为高-维healthcaredata集中式和分布式匿名化,“ACM交易知识发现的数据(TKDD), 4卷,没有。2010年10月4 pp.18:1-18:33。
- Ravindra年代,Wanjari .Devi教授(2013),“改善的新方法实现数据隐私保护数据挖掘usingslicing”。国际期刊的现代工程研究(IJMER), 3卷,问题。3
- 莫尼什帕特尔,PrashantRichariya AnuragShrivastava,(2013),„„回顾纸保护隐私的数据挖掘”,评论文章onScholars工程和技术杂志》(SJET) pp.359 - 361
- r . b . c . m . Fung k . Wang Chen,另外Yu”,保护隐私数据发布:最近的一项调查发展,“ACM的电脑。调查卷。42,页14:1-14:53,2010年6月。
- CharuC。Aggarwal”,一般的调查隐私保护数据挖掘模型和算法”,IBM, T。j·沃森研究中心。
- p . Jurczyk和l .熊”分布式匿名化:实现隐私数据对象和数据提供者,“Proc。安。。联合会WG11.3相依数据和应用程序安全工作(DBSec ? 09年),2009年
- Charu c Aggarwal和菲利普·s。保护隐私的数据挖掘:愤愤然算法。斯普林格出版公司,注册成立,2008年7月。
- Proc转换数据满足隐私约束。”ACM Int ?l相依。知识发现和数据挖掘(SIGKDD ? 02), 2002年
- m .干草,诉Rastogi、g . Miklau和d Suciu,“增加的准确性不同私人直方图通过一致性,“Proc, Int ? lConf。非常大的数据基地(VLDB ? 10), 2010年
- c . Dwork k . Kenthapadi米罗诺夫,和m . Naor f . McSherry说“我们的数据自己:隐私通过分布式噪音的产生,“Proc。25坦。Int ?l相依的理论和应用加密技术(EUROCRYPT ? 06), 2006年。
- p . Jurczyk和l .熊”分布式匿名化:实现隐私数据对象和数据提供者,“Proc.Ann。联合会WG 11.3相依数据和应用程序安全工作(DBSec ? 09年),2009年。
|