关键字 |
|
敏感信息、k-anonymity l-diversity、数据库隐私安全 |
|
介绍 |
|
使用Facebook、LinkedIn和更多的社交网站在最近几年增加了月饼的价格。由于 这陡峭的上升,有一个很好的机会让入侵者获得有用的信息,比如用户的行为模式, 增长的一个社区,一个特定疾病的传播在一个地理区域。这样的私人信息 个人必须保存在社交网站的关键挑战出现在确保隐私和效用 好。我们做一个详细调查隐私的光谱模型和图形模型的节点 图显示一个敏感属性。最近很多工作已经完成在匿名的关系数据库中。kanonymity 方法由L。《理发师陶德》出版社。(2001)[26],a model for protecting privacy which poses the k-anonymous条件是一个数据库,那么每个记录是区别至少k - 1其他记录 quasi-identifiers尊重。Quasi-Identifiers当总的来说可能是属性的值 识别一个人。自从k-anonymity未能获得属性信息披露,并容易同质性 攻击攻击和背景知识。Machanavajjhala出版社。,[20] (2006) introduced a new privacy notation called “l-diversity”。一个等价类据说拥有l-diversity如果有至少“l”代表值 敏感的属性。据说一个表l-diversity如果每个等价类表的l-diversity。隐私是 以一个观察者的信息增益。之前看到的观察者可能认为公布表 事情可能发生在一个人的敏感属性值。在看到发布的表观察者 可能敏感属性的详细信息。t-closeness应该类和整个之间的距离 表是不超过一个阈值t,李Ningui出版社。[17](2010)。图结构也时发表的 出版社交网络隐私数据可能利用妥协。节点的度和子图 被用来识别一个节点。从文学观察,为了防止结构攻击图执行 满足k-anonymity。 |
|
本文的其余部分组织如下。隐私保护的基本定义和原语 在第二节中详细数据库进行处理。第三节给出了调查应用节点具有敏感属性应该发表。第四节内裤对集群和边缘保护图形编辑方法 隐私。第五节总结本文,并概述了未来的工作 |
|
基本的定义和基本类型 |
|
数据指的是有组织的个人信息以行和列的形式。行是指单个元组或 记录和列指的字段。元组形成一个表的一部分不一定是独一无二的。列的 表被称为属性指的是字段的信息,从而可以总结为一个属性域。它 是必要的属性组成一个表的一部分应该是唯一的。根据L。《理发师陶德》出版社。(2001)[26] 表中的每一行是一个有序的n元组的值< d1, d2, ....dn >,这样每个值dj形式j的领域的一部分 列j = 1, 2,……n ' n '列数来表示。 |
|
答:属性 |
|
传记 |
S.Charanyaaobtained her B.Tech degree in Information Technology from Bannari Amman Institute of Technology, Sathyamangalam, Tamil Nadu, India. She is currently pursuing her M.Tech degree in Information Technology at S.N.S. College of Technology, Coimbatore, Tamilnadu, India. Her areas of research interest accumulate in the areas of Database Security, Privacy Preserving Database, Object Modeling Techniques, and Software Engineering. |
Prof.T。Shanmugapriya目前担任助理教授S.N.S.学院信息技术部门的技术,哥印拜陀,Tamilnadu、印度。她的教学经验6年零2个月。她发表了大量的研究论文,包括4个国际期刊,5国家会议和3国际会议。她的研究领域的兴趣在计算机网络领域的积累。 |
|
根据Ningui李,李天成出版社。,[17] (2010), attributes among itself can be divided into 3 categories 即 |
|
1。显式标识符——清楚指明个人属性。例如,美国公民的社会安全号码。 |
|
2。准标识符——属性的值加在一起可以识别一个人。如。,postal 代码,一个人的年龄、性别。结合这些会导致披露的个人信息 |
|
3所示。敏感属性标识符——需要提供给研究人员保持匿名标识符。为 如在医院“病”属性数据库,“工资”属性在数据库一个员工。 |
|
b .准标识符 |
|
提出的L。《理发师陶德》出版社。(2001)[26],一个single attribute or a set of attributes that, in combination with some 外部世界的信息可以识别一个人关系中元组称为quasi-identifier。给定一个 B组实体E,和一个表(a1,…),费尔南多-阿隆索:E→B和fb: B→E, E→E。的quasi-identifier B,写成问题, 是一组属性{ai,…, aj}→{a1,…,一个}:ΕsiεU这样fa(神奇动物(si)[问题])= si。 |
|
c . K-ANONYMITY |
|
让RT (A1, A2,…,)是一个表和QIRT准标识符。RT是k-anonymous[26]当且仅当每个 序列中的值的RT (QIRT)出现至少k乘以RT (QIRT)。简而言之,至少准标识符必须出现 “k”次RT, k = 1, 2, 3,…在“k”称为表的匿名性。 |
|
d . L-DIVERSITY |
|
自从k-anonymity未能获得属性信息披露,并容易受到攻击和同质性背景 知识攻击。Machanavajjhala出版社,(2006)[38]引入了一个新的隐私符号称为“l-diversity”[20]。一个等价类据说拥有l-diversity如果有至少“l”代表的敏感属性值。一个 表据说l-diversity如果每个等价类表的l-diversity。这里的技巧是敏感的 属性在每个等价类分布与l-well代表值。通常有四种类型的ldiversity。 |
|
1)不同的l-diversity:这将确保至少l-distinct敏感属性的值在每个等价 类。最大的缺点是明显的l-diversity未能防止概率推理攻击。 |
|
2)概率l-diversity:据说一个匿名表概率l-diversity如果敏感的频率 每组中值是atmost 1 / l。 |
|
3)熵l-diversity:它被定义为,Entrop (E) = -ΣP (E, S) logp (E, S),在那里,“年代”是敏感的属性。 |
|
4)递归(c、l)多样性:这种技术通过,出现最频繁的值,也没有出现 经常和频繁出现不出现得很少。 |
|
l-diversity的一个问题是,它假设敌对的知识是有限的。l-diversity未能阻止 属性信息披露和容易受到两种类型的攻击。 |
|
大肠T-CLOSENESS |
|
隐私是衡量一个观察者的信息增益。之前看到表公布的观察者可能会认为 这种情况可能发生在一个人的敏感属性值。在看到发布的表 观察者可能敏感属性的详细信息。t-closeness[17]应该类之间的距离 整个表是不超过一个阈值t,李Ningui出版社。(2010)[17]。 在下一节中我们将描述不同阶段参与了睡意检测系统 |
|
在应用程序中需要敏感的属性 |
|
a . Campan T.M. Truta, n·库珀(2010)[5]为隐私保护,提出了一种新的方法 要求允许的变形量的初始数据被迫为了保持它的实用性。 他们的方法包括指定quasiidentifiers吗?泛化的约束,实现磷敏感kanonymity 在施加约束。根据他们的观点,限制允许的数量 泛化时屏蔽微数据对现实生活中至关重要的数据集。他们制定了一个算法来生成 限制磷敏感k-anonymous微数据,将其命名为限制磷敏感k-anonymity模型,和 证明了算法是在与其他类似的现有文献中算法的结果的质量。 |
|
周b和j·裴(2011)[33]主动向保护隐私的社会网络数据。在特定的 作者发现和关注的一个重要类型隐私攻击称为邻居攻击。如果敌人有 某些知识目标受害者的邻居和邻居之间的关系,受害者可能 之后从一个社交网络,即使受害者?使用传统的匿名化年代标识保存 技术。 |
|
为了保护隐私附近攻击,作者扩展传统k-anonymity 和l-diversity模型从关系数据到社交网络数据也证明了计算的问题 最佳k-anonymous和l-diverse社交网络是np难。作者制定实时的解决方案 推断,匿名的社会网络数据,该方法可以用来回答总 网络查询与高度的准确性。 |
|
Terzi k .刘和大肠(2008)[18]和m .干草,g . Miklau d·延森d . Towsley, p . Weis (2008) [15] 阐述degree-attack,一个流行的攻击方法,证明可以用来保护机制 身份和敏感的标签。其他类型的攻击,如子图查询查询攻击是攻击或中心节点 研究了m .干草,g . Miklau d·延森d . Towsley, p . Weis (2008) [15] |
|
图方法保护隐私 |
|
当前图保护隐私的方法可以分为两类:集群和边缘编辑。 |
|
|
|
答:聚类图保护隐私的方法 |
聚类方法进行合并一个超级节点的子图,不适合敏感标记图,因为当一组节点合并成一个单一的超级节点,节点标签关系丢失。 |
g . Cormode d·斯利瓦斯塔瓦,t . Yu,问:张(2008)[7]引入了一个新家庭的匿名化,对于两偶图数据,称为(k, l)分组。这些分组保存基本完全图结构,而不是匿名化的从实体映射到节点图。作者发现了一个类的“安全”(k, l)分组有说服力的担保,抵抗各种攻击,并展示如何找到这样的安全分组。实验真实两偶图数据研究匿名版的效用,以及出版交替分组的影响相同的图表数据表明显著(k, l)分组提供良好的隐私之间的权衡和效用大肠Zheleva和l . Getoor(2007)[30]把问题的保护隐私的敏感关系图数据。在特定的作者推断的问题处理敏感的关系从匿名图reidentification数据链接。我们建议五个不同的隐私保护策略,不同的的数据量,数据效用和隐私保护的数量。他们的实验调查显示几个鉴定的胜利策略下不同结构特性的数据。 |
a . Campan和T.M. Truta(2008)[4]的发展贡献了一个贪婪的社交网络隐私匿名化算法和引入结构信息损失的量化衡量的信息量损失由于边缘泛化的匿名化过程。提出SaNGreeA社交网络贪婪的匿名化算法,它执行一个贪婪的集群处理生成一个k-anonymous蒙面社交网络和量化泛化信息损失和结构信息的损失。Clusteringbased模型是集群节点在一起形成超级节点“类似”。每个超级节点代表几个节点,也称为“集群。“然后,节点之间的联系被表示为超级节点之间的边叫做“超级边缘。“每个超级边缘可能代表不止一个边缘在原始图。集群图是图只包含超级节点和超级边缘(2013)[35]。 |
b .边缘编辑图保护隐私的方法 |
Edge-editing方法维持原始图中的节点不变,只添加/删除/交换的边缘。K.B. Frikken和p . Golle(2006)[10]提出一个方法来重建整个图私下里,即,in a way that hides the correspondence between the nodes and edges in the graph and the real-life entities and relationships that they represent to assuage these privacy concerns. Authors first represent the privacy threats posed by the private reconstruction of a distributed graph. Proposed model takes into account the possibility that malicious nodes may report incorrect information about the graph in order to facilitate later attempts to de-anonymize the reconstructed graph. Also the authors propose protocols to privately assemble the pieces of a graph in ways that diminish these threats. These protocols substantially restrict the ability of adversaries to compromise the privacy of truthful entities. |
吴应x, x(2008)[29]成功地研究了各种网络上随机属性的影响。具体地说,作者强调的特征值谱,因为网络上很多重要的拓扑特征密切相关。他们也进行了广泛的实验实现匿名边缘。作者还提出,对光谱进行了实证评价保留图随机化方法,更好的保护网络属性从而保护匿名边缘。这条边编辑方法保护图隐私可能很大程度上拆除的属性图。边缘编辑方法有时可能大幅修改距离属性通过连接两个遥远的节点。 |
也挖掘这些数据可能会导致错误的结论关于工资分布在社会。因此,完全依赖于边缘编辑可能并不总是解决实用程序保存数据。提出的另一个新奇的想法是Mingxuan元,Lei陈出版社。,(2013) [35] to preserve important graph properties, such as distances between nodes by appending some “noise” nodes into a graph. The core idea behind this is that many social networks satisfy the Power Law distribution [2], i.e., there exist a huge number of low degree vertices in the graph which could be used to hide appended noise nodes from being reidentified. Some graph nodes could be preserved much better by appending noise nodes than the existing pure edge-editing method. |
E.M.克诺尔、R.T. Ng和诉Tucakov(2000)[16]发现异常值处理[14]很大,多维数据集。异常值的识别会导致真正的发现意想不到的知识在电子商务等领域,信用卡欺诈,甚至药物分析运动员的性能统计信息。现有的方法在大型数据集中发现异常值只能交易efficientlywith两个维度/属性的数据集。作者研究的概念DB -基于距离的离群值和提供一个适当的和实验证据显示DB-outliers的价值,专注于发展等算法计算离群值。首先,作者提出了两个简单的算法,都有一个复杂的O (k N2), k是维度和N在数据集对象的数量。这些算法容易支持与两个以上的数据集的属性。其次,是一种优化的细胞算法的复杂性是线性对N,但指数k。第三,对于主要是磁盘上的数据集,作者提出了另一个版本的细胞算法保证最多3通过一个数据集,并提供实验结果表明这些cellbased算法是目前最好的k < = 4。 |
g . Ghinita p。卡拉、p . Kalnis和n Mamoulis(2007)[12]和g . Ghinita p。卡拉·Kalnis和n Mamoulis(2009)[13]设计启发式算法单一维度不展览kanonymous要求l-diversity模型。g . Ghinita p。卡拉、p . Kalnis和n Mamoulis(2007)[12][13]关注一些quasi-identifiers,并研究了最优解的性质k-anonymity l-diversity,基于合理的信息损失指标。基于这些属性,他们开发出高效的启发式方法来解决一些问题在线性时间。作者也广义生成的使用空间映射技术解决多维quasiidentifiers在文学方面优于其他方法的执行时间和信息损失。 |
伙夫Puttaswamy、a .萨拉和B.Y.赵(2009)[24]分析了隐私保护的地位在社会共享应用程序和有效的隐私攻击描述今天好吗?社交网络,提出了匿名化技术来保护用户。作者证明了简单的保护机制,如匿名共享数据仍然可以让用户“社会交叉攻击”,某些妥协的用户可以识别共享内容的发起者。通过制定这个图匿名化问题,提出为用户提供k-anonymity隐私保证通过补充社交图与“潜在的边缘。“他们inventied StarClique,本地用户达到k-anonymity所需最小图结构,在最坏的情况下,一个用户被确定为k数据对象可能的贡献者之一。 |
结论和未来的工作 |
在这项研究中,大量的工作目前在隐私保护数据库报道。几种方法的匿名化和知识隐藏研究和观察的结果。算法与确保数据库隐私研究以及真正实现算法的计算开销和合成数据集。等方法,确保隐私k-anonymity及其变种进行了系统地分析。尽管k-anonymity模型中,入侵者可能会获得敏感信息如果一组节点共享类似的属性。我们也做一个详细的研究k-degree-l-diversity匿名模型,考虑结构信息和敏感的个人标签。还研究添加噪声的算法影响节点原始图和严格分析理论局限性的附加噪声节点和它的影响。将来我们计划提高算法显著提高算法效率,噪音比例的节点和其他几个指标。这个调查将推动很多研究方向在社交网络领域的数据库隐私通过匿名化 |
|
表乍一看 |
|
表1 |
|
|
引用 |
- l . Backstrom c . Dwork J.M. jonkleinberg:“汝为何r3579x ?:社交网络匿名,隐藏模式,和StructuralSteganography Proc, Int ?l相依万维网(WWW), 181 - 190年,2007页。
- A.-L。Baraba´si和r·阿尔伯特”出现随机网络的扩展,“科学,286卷,第512 - 509页,1999年。
- 美国巴g . Cormode b••d·斯利瓦斯塔瓦,“基于类图匿名化社交网络数据,”Proc, VLDBEndowment 2卷,第777 - 766页,2009年。
- A . Campan和T.M. Truta”数据的聚类方法和结构的匿名在社交网络,“Proc。第二ACM SIGKDDInt ?l车间隐私、安全性和信任在知识发现(KDD)(08年PinKDD ?), 2008年。
- a . Campan T.M. Truta n·库珀,“磷敏感与泛化K-Anonymity约束”反式。数据隐私,2卷,第89 - 65页,2010年。
- j . Cheng A.W.-c。傅,j .刘“k同构:隐私保护网络出版结构攻击,“Proc, Int ?l Conf.Management数据,459 - 470年,2010页。
- g . Cormode d·斯利瓦斯塔瓦,t . Yu,张问:“匿名化使用安全分组,两偶图数据”Proc。VLDB养老,第1卷,第844 - 833页,2008年。
- s Das, o . Egecioglu A.E. Abbadi,“加权社会网络隐私保护,”Proc。英格Intl相依数据。(ICDE ? 10), 904 - 907年,2010页。
- w . Eberle和l .持有人“基于数据,发现结构性问题”Proc。IEEE第七Intl相依数据挖掘研讨会(ICDM ? 07), 393 - 398年,2007页。
- “黄俭邦(K.B. Frikken和p . Golle表示,私人社交网络分析:如何组装件图私下里,“Proc。第五ACM WorkshopPrivacy电子Soc。(wp ? 06), 89 - 98年,2006页。
- S.R. Ganta、美国Kasiviswanathan和a . Smith”组合攻击和辅助信息在数据隐私,“Proc。ACM SIGKDD Int ? lConf。知识发现和数据挖掘,265 - 273年,2008页。
- g . Ghinita p。卡拉、p . Kalnis和n . Mamoulis”快速的数据匿名化信息损失较低,“Proc。第33 Int ?l相依非常LargeData基地(VLDB ? 07), 758 - 769年,2007页。
- g . Ghinita p。卡拉、p . Kalnis和n . Mamoulis”一个有效的数据框架AnonymizationUnder隐私和精度的限制,“ACM反式。数据库系统、卷34页。9:1-9:47,2009年7月。
- j·汉,数据挖掘:概念和技术。摩根Kaufmann出版商,Inc ., 2005年。
- m .干草,g . Miklau d·延森d . Towsley和p . Weis“抵制匿名社会网络结构鉴定,”Proc.VLDB养老,1卷,第114 - 102页,2008年。
- R.T. E.M.克诺尔,Ng,诉Tucakov“基于距离的离群值:算法和应用程序,”VLDB J。,8卷,第253 - 237页,2000年2月。
- 李n和t·李”T-Closeness:隐私K-Anonymity和L-Diversity之外,“Proc。IEEE 23日Eng Intl相依数据。(ICDE ? 07), 106 - 115年,2007页。
- k·刘和大肠Terzi,身份匿名化图,“SIGMOD ? 08: Proc。ACM SIGMOD Intl相依数据的管理,pp.93 - 106, 2008。
- j·j·l . Liu Wang刘,j .张“隐私保护在社交网络对敏感的边缘信息披露,“CMIDAHiPSCCS006-08技术报告,2008。
- a . Machanavajjhala d麻醉品,j·耶尔克和米。L-Diversity:隐私K-Anonymity之外,“Venkitasubramaniam ACM反式。KnowledgeDiscovery数据,1卷,第三条,2007年3月。
- a . Narayanan和诉Shmatikov De-Anonymizing社交网络,“Proc, IEEE 30日计算机协会。安全性和隐私,173 - 187年,2009页。
- 林祖嘉D.J.做饭,高贵和基于异常检测、Proc。第九ACM SIGKDD Int ?l相依。知识发现和数据挖掘(KDD ? 03), 631 - 636年,2003页。
- l .页面,美国布林、r . Motwani和t . Winograd“Pagerank引文排序:将以网络,“Proc。万维网Conf.Series, 1998。
- 伙夫Puttaswamy, a .萨拉,B.Y.赵”Starclique:在社交网络交叉攻击,保证用户隐私”Proc.Fifth Int ?l相依新兴网络实验和技术(CoNEXT ? 09), 157 - 168年,2009页。
- Shrivastava n ., a Majumder和r . Rastogi“矿业(社会)网络图来检测随机链接攻击,“Proc, IEEE 24日Int ?l Conf.Data Eng。(08年ICDE ?), 486 - 495年,2008页。
- l·斯威尼K-Anonymity:保护隐私的典范,“Int ?l j .不确定。模糊性知识系统,10卷,第570 - 557页,2002年。
- 肖x和y道,“解剖:简单而有效的隐私保护,“Proc。第32 Int ?l相依非常大的数据库(VLDB ? 06), pp.139 - 150, 2006。
- 吴x, x, d·芭芭拉,“社交网络,基于频谱的欺诈检测”Proc。IEEE 27日Intl相依非常大的数据库(VLDB ? 11), 2011年。
- x应,吴x随机的社交网络:频谱保护的方法,”Proc。第八暹罗相依数据挖掘(长效磺胺吗?08),2008。
- 大肠Zheleva和l . Getoor“保护隐私的敏感关系图数据,“Proc。首先SIGKDD Int ?l车间隐私、安全性和信任在知识发现(KDD) (PinKDD ? 07), 153 - 171年,2007页。
- 大肠Zheleva和l . Getoor”,加入或不加入:在社交网络隐私的幻想混合公共和私人用户配置文件,“Proc。18 Int ?l相依万维网(WWW ? 09), 531 - 540年,2009页。
- 周b和j .裴”社交网络社区攻击,保护隐私”Proc, IEEE 24日Int ?Eng l相依数据。(08年ICDE ?), 506 - 515年,2008页。
- b .周和j .贝聿铭“K-Anonymity和L-Diversity方法对NeighborhoodAttacks社会网络的隐私保护,“知识和信息系统,28卷,47 - 77、2011页。
- l .邹l . Chen和M.T. O¨zsu,“K-Automorphism:隐私保护的总体框架网络出版、“Proc, VLDBEndowment 2卷,第957 - 946页,2009年。
- 陈Mingxuan元,Lei, Philip s . Yu Ting,“社交网络数据匿名化保护敏感标签”,IEEE onKnowledge和数据工程,25卷,3号pp.633 - 647, 2013年3月
- 年代。Balamurugan, P。Visalakshi”,修改分区算法与完全函数依赖微数据发布的隐私保护”,澳大利亚基础和应用科学学报,7 (8):pp.316 - 323, 2013年7月
|