所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

隐私保护数据挖掘(PPDM)水平分区的数据

Mohasin Tamboli, Jayapal PC Bhalerao M。
信息技术部门,Vishwabharati学院工程学院Ahmednagar,印度马哈拉施特拉邦
相关文章Pubmed,谷歌学者

访问更多的相关文章国际创新研究期刊》的研究在科学、工程和技术

文摘

由于增加分享敏感数据通过网络在企业、政府和其他党派,隐私保护已成为一个重要的问题在数据挖掘和知识发现。隐私问题可能阻止当事人直接共享数据和某些类型的数据的信息。私下里提出了一种解决方案计算数据挖掘分类算法水平分区数据没有透露任何信息或数据来源。该方法(PPDM)结合RSA公钥密码体制的优点和同态加密方案。实验结果表明,该PPDM方法是健壮的隐私,精度和效率。数据挖掘是一个热门的研究领域十多年来由于其庞大的光谱的应用程序。然而,数据挖掘工具的普及和广泛的可用性也提出了对个人隐私的担忧。隐私保护数据挖掘研究的目的是开发的数据挖掘技术,可以应用在数据库没有侵犯个人隐私的。隐私保护技术提出了各种数据挖掘模型,最初为关联规则分类集中数据然后在分布式环境中。

关键字

隐私、数据挖掘、分布式集群、安全、RSA公钥

介绍

数据挖掘是一个重要的工具来从数据中提取模式或知识。数据挖掘技术可以用于我的频繁模式,寻找关联,进行分类和预测,等等。数据挖掘过程所需的数据可能存储在一个数据库或在分布式资源。分布式资源的经典方法是数据仓库。图1显示了一个典型的分布式数据挖掘方法建立一个数据仓库包含所有数据。这需要仓库被信任和维护各方的隐私。因为仓库知道数据的来源,它学会定位信息以及全球的结果。如果没有这样的值得信赖的权威吗?在某种意义上,这是一个放大版的个人隐私问题;然而它是一个地区安全多方计算方法更可能是适用的。本文使用RSA公钥密码体制和同态加密开发可靠的保护隐私水平分区数据的数据挖掘技术。Homomorphic encryption is a type of encryption method which lets specific kind of computations to be carried out on cipher text and get an encrypted result which decrypted matches the result of operations performed on the plaintext. For eg, one person can add two encrypted numbers and then another person can decrypt a result, without either of them can be to find the value of the individual numbers.
这是一个理想的特性在现代通信系统架构。同态加密将允许不同服务的连接在一起,没有公开的数据,每个服务,如链不同的服务从不同的公司可以计算税收、货币汇率、航运、事务而不暴露未加密的数据,每一个服务。同态加密方案灵活的设计。所有类型的密码的同态属性可用于创建安全的投票系统,collision-resistant哈希函数,和私人信息检索方案,使云计算的广泛使用,确保加工数据的机密性。有几种有效,部分和完全同态的数量,但不有效的密码。虽然一个偶然同态密码体制可以受到攻击在此基础上,如果治愈仔细同态也可以用于安全地执行计算。

II.BACKGROUND

这部分提供了一个简短的观点是关于数据挖掘算法,分布式数据的形式以及使用的工具和技术对隐私保护数据挖掘过程。

数据挖掘技术和分布式数据

再答:邻居分类:标准数据挖掘算法再邻居分类是一个基于实例的学习算法,已被证明是非常有效的各种问题。knearest邻居分类的目的是发现k最近的邻居对于一个给定的实例,然后指定一个类标签给定实例根据多数类的k最近的邻居。最近的邻居的一个实例定义的距离函数,例如:标准的欧几里得距离:
图像
其中r是记录实例的属性x, ai (x)表明第i个记录实例的属性值x,和D (xi, xj)是两个实例之间的距离,xj。

B。垂直和水平的数据分区

当一个函数的输入是分布在不同的来源,每个数据源的隐私问题。数据分布的方式也起着重要的作用在定义问题,因为数据可以分割成许多部分垂直方向或水平方向振动的垂直分区数据意味着不同的网站或组织收集不同的信息相同的实体或个人,e。g医院和保险公司收集数据的人可以共同联系在一起。数据挖掘是数据的加入网站。水平分区,组织收集相同的信息不同的实体或个人。例如超市收集他们的客户的交易信息。结果,数据挖掘是数据的联盟网站。在这个报告应该是所有组织或部门,开采有相同的信息(同质),但不同实体(记录或元组),所以水平的方法。

c .隐私保护工具和技术

安全多方计算(SMC): SMC概念引入了姚明,他给了两个百万富翁的问题的解决方案。每个百万富翁想知道谁是富裕没有透露个人财产和财富。这个想法被Mr.Goldreich等人进一步扩展多党计算问题。安全多方计算任务的目的是参政党安全地计算某个函数的分布和私人投入。每一方学习对其他政党除了其输入和数据挖掘算法的最终结果。作为一个例子,考虑许多不同的场景,然而连接,计算设备(或政党)希望进行联合计算的函数。让n政党与私人投入x1,…, xn希望共同计算一个函数的输入。这个关节计算财产,双方应该学习正确的输出y = f (x1,…, xn),没有别的,这应持有即使一些当事人的恶意企图获得更多的信息。函数f代表一个数据挖掘算法运行在所有的习的结合。
数字信封:数字信封是一个随机数(或一组随机数)唯一已知的所有者私有数据用来隐藏私有数据。一组进行数学运算之间的一个随机数(或一组随机数)和私有数据。数学运算可以添加,减法,乘法,等。例如,假设值是一个私人数据。有一个随机数R是唯一已知的所有者。业主可以隐藏通过添加这个随机数,例如,+ R。

d . RSA公钥加密算法

RSA公钥密码体制是其发明者的名字命名的,r·莱维斯特Shamir和l . Adleman。到目前为止,RSA公钥密码系统是应用最广泛的。其安全取决于事实的数论的大整数分解是非常困难的。RSA算法,生成密钥对(e、d)接收机,帖子上储存的密钥e公共媒体,同时保持解密的密钥d的秘密。
图像

E。同态加密和解密方案

密码系统是同态的一些操作∗消息空间如果有相应的操作∗′密文空间这样∗′′=∗′。在本节中,提出了一个加法同态加密和解密方案,提供如下:
加密算法:
1)算法使用大量,这样=×,和大安全素数。
2)鉴于X,这是一个明文信息,加密计算价值:
图像

解密算法

鉴于y,这是一个密码短信,我们使用安全关键p恢复明文
图像
置换映射表:sequence1, 2,…,一个¯害怕害怕一个½¯½,每个值是相对与其他序列的值相比,如果结果等于或大于零的结果将是1 + 1,否则将如表1所示,e。g if1-2 > = 0映射表中的值是+ 1,否则是1。所以sequence1的置换映射表,2,…,4将如下:
图像
序列中的任何元素的重量相对于其他的行对应的代数和元素。

三世。提出工作

1 -本文semi-honest模型对手使用,每个党遵循正确的安全计算协议功能但奇怪的是试图推断出有关各方的数据。一个关键的结果也用于这项工作是合成定理。现在我的状态semi-honest模型。公式(1):“假设g是私下简化为f,存在一个私下协议计算f。然后存在私下的协议计算g”。大致说来定理构成州如果协议由几种sub-protocols,并且可以证明是安全除了subprotocols的调用,如果sub-protocols本身安全,那么协议本身也是安全的。这个定理的详细讨论,证明,可以找到。私下2 -该算法提出了一种方法计算的数据挖掘过程的分布式来源没有透露任何信息来源或他们的数据,除了揭示了最终的分类结果。该算法开发解决方案保护隐私再邻居分类的常用的数据挖掘任务。该算法确定哪些当地的结果最接近通过识别类的最低重量使用K最近的邻居。我们假设实例所需的属性分类不是私人(查询实例的隐私不受保护的)。 Therefore, it is necessary to protect the privacy of the data sources i.e. a site / partyis not allowed to learn anything about any of the data of the other parties and it is trusted not to collude with other parties to reveal information about the data. 3- The idea of the proposed algorithm is based on finding K-nearest neighbours of each site, then scramble and encrypts the local with homomorphic encryption and its class ���� with the public key ���� sent from Encryption Decryption Management Server (EDMS). The results from all sites are combined to produce the permutation table at EDMS and instance with minimum weight with its class is determined as the class of querying instance which is transferred to querying site. Each site learns nothing about other sites. Since the KNN algorithm executed locally for each site.
标准的数据挖掘算法K近邻为每个站点/党将如下:
1 -事先确定参数K =数量的最近的邻居。
2 -计算查询实例之间的距离,所有的训练样本使用欧氏距离算法。
3 -所有训练样本的距离,确定基于k最近邻的最小距离。
4 -因为这监督学习,得到所有训练数据的类属于K的排序值。
5 -使用最近邻的大多数的预测价值。
符号:(¯害怕害怕一个½¯½)意味着使用特殊的加密算法加密数据x大肠¯害怕一个½¯害怕一个½¯害怕一个½¯害怕一个½(¯害怕害怕一个½¯½);是指加密数据x使用特殊算法E键k。
图像
图像

第四讨论

保护隐私的数据挖掘的目的是发现准确,有用的和潜在的模式和规则和预测分类不准确对原始数据的访问。因此,评估保护隐私的数据挖掘算法通常需要三个关键指标,如隐私(安全),精度和效率。
隐私:提出PPDM算法、密码管理在不同层次上采用。•首先,党与同态加密加密,和内一个随机数(1,¯害怕一个½¯害怕一个½¯害怕害怕一个½¯½),作为数字信封。
图像
由于RSA公钥加密是语义安全;因此,每一方是语义安全的,任何一方可以了解私有数据的其他各方除了其输入和最终结果。作为一方的隐私是保存,应用组合定理(定理1),然后总提出PPDM算法是安全的。准确性:线切割机,解密(迪民)和密码(),它的类标签和RAS和同态密码系统产生精确的结果。如表3所示,4和5中,分类器的准确性2到6之间的政党是73.6 - 94.5%与经典方法的准确性。在图5.1的准确性是根据数据集的大小和数量的不同政党但精度范围仍接受只要政党数量的增加精度更好。
效率:提高算法的效率主要是显示时间复杂度的降低。PPDM-KNN算法降低了时间复杂度主要在两个方面。
•第一:全球K-distances迅速生成,因为每个站点的本地资讯算法执行一个¯害怕一个½¯害怕一个½¯害怕害怕一个½¯½,这使得解决方案的沟通成本是独立于数据库的大小和大大减少沟通成本比较与集中式数据挖掘需要所有的数据转移到仓库数据进行数据挖掘算法。
•第二:Sitenly加密加密同态加密系统的参数和类拉贝河RSA的公钥。因此,该算法避免了大量的指数运算和大大提高操作的速度。表3、4和5所示,最大性能的时间是1222 ms的训练集规模6000条记录。
这些结果表明,隐私的数据来源是保存和准确的结果虽然没有信息损失。

V的结论

在这篇文章中,保护隐私的分布式资讯挖掘算法已被提出。作为证明,该算法是基于语义的同态和RSA加密技术保护。此外,没有集中的站点进行全球计算但每个站点的本地资讯算法计算和地方结果转移到比较集中的站点。实验结果表明,PPDM隐私保护能力好,准确性和效率,相对比较经典的方法。

承认

每个方向都有许多人的印记,它成为我们的责任也表达深深的感谢。在整个时间准备这个论文,我们收到许多人的无穷无尽的帮助,觉得这份报告是不完整的,如果我不表达优雅的感谢他们。这个确认是一个卑微的尝试感谢所有那些参与项目的工作和对我的巨大的帮助。首先我们借此机会扩展我的深衷心的感谢全能的安拉没有他们的关心和祝福这项工作还没有完成。我们也谦逊地谢谢MandarKhsirsagar教授,PG协调员,计算机工程系,VACOE,和Ahmednagar不可或缺的支持,他无价的建议和宝贵的时间。

引用

  1. 答:一转眼,y Saygin,保护隐私水平分区数据时空聚类,DAWAK06学报》,第八届国际会议上数据仓库和知识发现,2006年。
  2. m . j . Atallah f . Kerschbaum w·杜安全和私人序列比较,《2003年ACM研讨会在电子协会(2003)39-44隐私
  3. m . Klusch s .洛迪·g·莫罗,基于抽样的分布式集群当地密度估计,美国18人工智能国际联合大会(2003)485 - 490
  4. m . Kantarcioglu c·克利夫顿,保护隐私水平分区数据分布式关联规则挖掘,IEEE TKDE 16 (9) (2004)
  5. j . Vaidya c·克利夫顿,保护隐私k - means聚类在垂直分区数据,第九届ACM SIGKDD学报》国际会议上知识发现和数据挖掘(2003)206 - 215
  6. j . Vaidya c·克利夫顿,隐私保护关联规则挖掘在垂直分区数据,程序第八届ACM SIGKDD国际会议上知识发现和数据挖掘(2002)639 - 644
  7. 引用在KDD ' 99分类器学习竞赛:http://www-cse.ucsd.edu/users/elkan/clresults.htm (2006)
  8. r . Agrawal r . Srikant隐私保护数据挖掘,Proc. 2000 ACM SIGMOD会议管理的数据(2000)439 - 450
  9. s . Merugu j . Ghosh保护隐私分布式集群使用生成模型,第三IEEE国际会议的程序数据挖掘(2003)211 - 218
  10. 美国Jha, l·克鲁格,p . McDaniel、隐私保护集群、学报第十届欧洲研究在计算机安全研讨会上(2005)397 - 417
  11. s r·m·奥利维拉o r . Zaiane实现隐私保护共享数据聚类时,《国际研讨会上安全的数据管理在一个连接的世界(2004)67 - 82
  12. s r·m·奥利维拉o r . Zaiane隐私保护集群数据转换,18巴西研讨会上的程序数据库(2003)304 - 318
  13. s r·m·奥利维拉o r . Zaiane隐私保护集群对象相似性表示和降维变换,学报2004年ICDM车间在隐私和安全方面的数据挖掘(2004)40-46
  14. s . Vassilios a . Elmagarmid e . Bertino y Saygin, e . Dasseni关联规则隐藏。IEEE知识和数据工程4 (16)(2004)
  15. w·杜詹z,构建决策树分类器对私人数据,美国IEEE ICDM研讨会隐私,安全和数据挖掘(2002)1 - 8