所有提交的EM系统将被重定向到网上投稿系统.作者被要求将文章直接提交给网上投稿系统各自的日志。

基于云地图缩减的可伸缩两阶段自顶向下专门化数据匿名化方法

Shweta Sunil Bhand, j.l. chaudhari教授
  1. PG学者,计算机工程系,JSPM比瓦拉巴萨旺特技术研究所,印度马哈拉施特拉邦浦那
  2. 计算机工程系,JSPM的比瓦拉巴萨旺特技术研究所,印度马哈拉施特拉邦浦那
有关文章载于Pubmed谷歌学者

更多相关文章请访问国际计算机与通信工程创新研究杂志

摘要

以最特定的状态发布个人特定数据会对个人隐私构成威胁。本文提出了一种实用且高效的算法,用于确定数据的抽象版本,该版本掩盖了敏感信息,并对标准化组织仍然有用。数据的分类是通过自顶向下的方式专门化或详细描述信息级别来实现的,直到最低的隐私要求受到损害。这种自顶向下的专门化对于处理确定属性和连续属性都是实用和有效的。我们的方法利用了数据通常包含冗余结构进行分类的场景。虽然泛化可能会删除一些结构,但会出现其他结构来提供帮助。我们的研究结果表明,即使在高度禁止隐私要求的情况下,分类标准也可以被保留。这项工作对公共和私营部门都有很大的应用价值,因为它们可以共享信息,实现互利和提高生产力。

关键字

数据匿名化;自上而下的专业化;MapReduce;云;隐私保护

介绍

云计算是最近计算和存储趋势中最主要的范例之一。数据的安全性和隐私性是云计算的主要关注点之一。在数据发布和共享方法中,数据匿名化是一种被广泛研究和采用的隐私保护方法。数据匿名化是防止显示所有者数据记录的敏感数据,以减轻未知风险。在充分维护个人隐私的同时,将部分聚合信息共享给数据使用者进行数据分析和数据挖掘。提出的方法是基于云的Map Reduce数据匿名化的广义方法。这里是两阶段自顶向下专业化。第一阶段,将原始数据集划分为一组较小的数据集,对数据集进行匿名化处理,生成中间结果;在第二阶段,先对中间结果进行进一步的匿名化处理,实现数据集的持久化。并利用广义方法将数据以广义形式表示出来。
一种基于MapReduce的高可扩展性两阶段TDS数据匿名化方法。为了利用MapReduce在云上的并行能力,将匿名化过程中需要的分类分为两个阶段。在第一种方法中,原始数据集被划分为一组小数据集,这些数据集被并行匿名化,创建中间结果。在第二种方法中,将中间结果聚合为一个结果,并进一步匿名化以获得一致的k-匿名数据集。它利用mapreduce来完成两个阶段的具体计算。一组mapreducejob被精心设计和协调,以协同地对数据集执行专门化。它通过在真实世界的数据集上进行实验来评估这种方法。实验结果表明,该方法可以提高TDS的可扩展性和效率。它通过在真实世界的数据集上进行实验来评估这种方法。实验结果表明,与现有方法相比,该方法可显著提高TDS的可扩展性和效率。 The major contributions of the research are threefold. Firstly, it creatively applyMapReduce on cloud to TDS for data anonymization and deliberately design a group of innovative MapReduce jobs to concretely accomplish the specializations in a highly scalable fashion. Secondly, it propose a two-phase TDS approach to gain high scalability via allowing specializations to be conducted on multiple data partitions in parallel during the first phase.

相关的工作

近年来,数据隐私保护受到了广泛的研究和调查。Le Fever等人通过引入可扩展决策树和抽样技术解决了匿名化算法的可伸缩性问题,lwuchkwu等人提出了基于r树的索引方法,通过在数据集上建立空间索引,实现了高效率。但该方法的目标是多维泛化,在自顶向下特化中无法实现。Fung等人提出了一些TDS方法,生成带有数据探索问题的匿名数据集。利用数据结构分类索引分区(TIPS)来提高TDS的效率,但无法处理大数据集。但是这种方法是集中租赁,不能保证大数据集的充分性。为了保护多方保留的多个数据集的隐私,提出了几种分布式算法,Jiang等人提出了对垂直分割数据进行匿名化的分布式算法。然而,上述算法主要基于安全匿名化和集成。但我们的目标是TDS匿名化的可扩展性问题。Zhang等人利用Map Reduce自身根据安全级别对计算作业进行自动分区,保护数据,再由其他Map Reduce自身进行处理,将大规模数据匿名化,再由其他Map Reduce作业进行处理,达到隐私保护。

提出了系统

自顶向下专门化:自顶向下方法(也称为逐步设计,在某些情况下用作分解的同义词)本质上是对系统进行分解,以深入了解其复合子系统。在自顶向下的方法中,设计了系统的概述,指定但不详细说明任何第一级子系统。然后细化各个子系统的主要细节,有时细化到许多附加的子系统级别,直到整个规范被推导为基本元素。一个自顶向下的模型是在“黑盒”的帮助下指定的,这些使得它更容易更新。然而,黑盒可能无法阐明基本机制,或者不够详细,无法实际验证模型。自顶向下的方法从大局开始。它从那里分解成更小的元素。
两阶段自顶向下专门化(TPTDS)方法,以高度可伸缩和高效的方式进行TDS中所需的计算。该方法的两个阶段基于MapReduce在云上提供的两个级别的并行化。实际上,云上的MapReduce有两个级别的并行化,1)作业级和2)任务级。作业级并行化是指可以同时执行多个MapReduce作业,充分利用云基础设施资源。与云聚合后,MapReduce变得更加强大和弹性,因为云可以按需提供基础设施资源,例如Amazon elastic MapReduce服务。任务级并行化是指一个MapReduce作业中的多个mapper/reducer任务在数据分片上同时执行。为了获得高可伸缩性,在第一阶段将数据分区上的多个作业并行化,但所得到的匿名化级别并不相似。为了获得最终一致的匿名数据集,第二阶段需要集成中间结果并进一步匿名整个数据集。具体表述如下。所有中间匿名化级别在第二阶段合并为一个级别。 The merging of anonymization levels is done by merging cuts. Precisely, let in and in be two cuts of an attribute. There are domain values and that satisfy one of the three conditions is identical to is more general than is more specific than. To ensure that the merged intermediate anonymization level never breaks privacy requirements, the more general one is chosen as the merged one, e.g., will be selected if is more general than or identical to . For the case of multiple anonymization levels, it can merge them in the same way iteratively.

优点:

自顶向下(又名符号)方法
•层次组织(自上而下)架构
•所有必要的知识都是预先编程的,即已经存在于知识库中。
•分析/计算包括创建,操作和链接符号(因此命题和谓词演算方法)。
•“串行执行器”可以看作是作用于并行处理无意识直觉处理器的自然规则解释器。
•因此,该程序在相对高级的任务中表现得更好,如语言处理(又名NLP)——这与目前接受的语言习得理论一致,这些理论假设了一些高级模块性。
•缺点:
•解决方案在第一阶段的覆盖范围有限。
•第一阶段管理用户帐户的平均百分比。
•您可以在早期阶段开发自定义适配器。
•支持和业务将无法迅速实现解决方案的好处。
•实施成本可能更大。

算法:

1算法TDS
2将T中的每个值初始化为最上面的值。
3初始化Cuti以包含最上面的值。
而某些x∈4∪Cuti是有效且有益的
从∪Cuti中找到最好的专精。
6在T上执行Best,更新∪Cuti。
7更新x∈x∈Cuti的分数和有效期。
8结束while
9返回广义T和∪Cuti。

直接匿名化算法DA (D,I,k,m)

1.扫描D,创建计数树
2.InitializeCout
3.对于每个节点v在序前计数树中做横向
4.如果v的项在Cout中被推广了,那么
5.回溯
6.如果v是叶节点并且v.count
7.J:=对应于v的itemset
8.找到J中使J k-匿名的项的泛化
9.合并泛化规则与Cout
10.回溯到路径J的最长前缀,其中Cout中没有泛化项
11.ReturnCout
12.对于i:=1进行计数
13.初始化数= 0
14.扫描Cout中的每笔交易
15.将事务中的每个项目分开并存储在p中
16.增量计算
17.对于j:=1进行计数
18.我尽我所能
19.将p的每一项与Cout的每一项进行比较
20.如果i的所有项都等于cout
21.增加r
22.如果ka等于r,那么回溯到i
23 else如果r大于ka,则得到相似事务的索引位置
24.使它们为NULL,直到ka等于r
25.否则更新数据库中的事务

方法

MapReduce程序由Map()过程组成,Map()过程执行过滤和排序(例如将学生按电子邮件排序到队列中,每封电子邮件对应一个队列),Reduce()过程执行汇总操作(例如计算每个队列中的学生数量,得出姓名频率)。“MapReduce系统”(也称为“基础设施”或“框架”)通过编组分布式服务器来编排处理,并行执行各种任务,保持系统各个部分之间的所有通信和数据传输,并提供冗余和容错。
该模型的灵感来自于map,并减少了编程中常用的函数,尽管它们在MapReduce框架中的用途与原始形式不同。MapReduce框架的主要贡献不是实际的map和reduce函数,而是通过一次优化执行引擎为各种应用程序获得的可扩展性和容错性。MapReduce的单线程实现通常不会比传统实现快。当优化的分布式shuffle操作(降低网络通信成本)和MapReduce框架的容错特性发挥作用时,使用该模型是有益的。MapReduce库是用多种编程语言编写的,具有不同的优化级别。一个著名的开源实现是Apache Hadoop。MapReduce这个名字最初指的是专有的谷歌技术,但后来被普遍化了。
Hadoop分布式文件系统(HDFS)是用Java语言为Hadoop框架编写的可扩展、分布式和可移植的文件系统。一个Hadoop集群通常有一个namenode和一个数据节点集群,由于namenode的重要性,它可以使用冗余选项。每个datanode使用特定于HDFS的块协议通过网络提供数据块。文件系统使用TCP/IP套接字进行通信。客户端使用RPC(远程过程调用)在彼此之间通信。HDFS在任何机器上存储大文件(通常在千兆字节到兆兆字节的范围内)。它通过跨主机复制数据来实现可靠性,因此理论上不需要在主机上使用RAID存储(但为了提高I/O性能,一些RAID配置仍然有用)。默认复制值为3时,数据存储在三个节点上:两个节点在同一个机架上,一个节点在不同的机架上。数据节点之间可以相互通信以调整数据、移动副本以及保持数据的复制。HDFS不是POSIX兼容的,因为POSIX文件系统的需求不同于Hadoop应用程序的目标。 The advantage of not having a fully POSIX-compliant file-system is increased performance for data throughput and support for non-POSIX operations such as Append.
首先,许多现有的聚类算法(例如k- means)需要计算“质心”。但是在我们的设置中没有“质心”的概念,其中msa数据点的每个属性在聚类空间中。其次,k-medoid方法对于异常值(即距离其他数据点非常远的数据点)的存在非常可靠。第三,检查数据点的顺序不会影响从kmedoidmethod计算的聚类。现有的匿名化算法可以用于列泛化,例如Mondrian。算法可以在只包含一列属性的子表上进行验证,以确保匿名性要求。现有的数据分析(例如,查询回答)方法可以很容易地用于切片数据。目前针对会员信息披露的隐私保护措施包括差别性隐私和存在性。

结论

隐私保护、数据分析和数据发布正在成为当今世界面临的严重问题。这就是为什么提出了不同的数据匿名化技术方法。据我们所知,TDS方法使用MapReduce在云上应用于数据匿名化,并特意设计了一组创新的emapreduce作业,以高度可扩展的方式具体完成专业化计算。

FUTUTRE范围

有几种可能的数据匿名化方法可以改善目前的情况,并可能开发出下一代解决方案。在未来的工作中,将结合自顶向下和自底向上的方法进行数据匿名化,其中使用数据泛化层次结构进行匿名化。

数字一览

图1
图1

参考文献










全球科技峰会