所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

基于数据集互补的隐私保护决策树

Madhusmita Sahu1,Debasis Gountia2和Neelamani Samal3
  1. m技术。学者,部门的信息技术、工程技术学院Bhubaneshwar,印度
  2. 助理教授,计算机科学与应用部门,工程技术学院Bhubaneshwar,印度
  3. 助理教授,计算机科学与工程部门,甘地教育和科技研究所Bhubaneshwar,印度
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

隐私保护数据挖掘,已成为一种流行和十多年的一个重要研究领域,由于其庞大的应用程序。一个新类称为隐私保护数据挖掘算法的数据挖掘方法。该算法的目的是保护敏感信息在大量数据集的数据。数据集可以表示的隐私保护决策树的形式,集群或关联规则。本文提出了基于数据集补的隐私保护算法存储信息的真实数据集。这样私人数据可以从未经授权的一方是安全的,如果一部分数据可能会丢失,我们可以重建原始数据集未实现数据集和扰动数据集。

关键字

数据挖掘、分类、机器学习、隐私保护。

介绍

最近数据挖掘是一个新兴领域,连接数据库的三个世界,统计和人工智能。数据挖掘是一个过程,从大量的数据中提取知识或模式。人们普遍使用的科学研究人员和业务流程。收集的数据信息提供者对重组模式和决策很重要。数据收集过程需要时间和努力因此样本数据集的某个时候存储以便重用。然而攻击试图窃取这些样本数据集和私人信息可能泄露从这些偷来的数据集。因此隐私保护数据挖掘开发将敏感数据集转化为私人或敏感信息的隐藏净化版从未经授权的猎犬。
隐私保护数据挖掘是数据挖掘领域的,旨在保护敏感信息从未经批准的或主动披露。隐私保护数据挖掘是采矿过程中引入保护隐私,使传统的数据挖掘技术。许多隐私保护方法是保护私人信息的样本数据集。

相关的工作

在隐私保护数据挖掘:模型和算法[14],Aggarwal和Yu隐私保护数据挖掘分类技术,包括数据修改和加密,统计,查询审计和perturbation-based策略。统计、查询审计和加密技术大部分是超出了本文的重点。在本节中,我们探索的隐私保护技术存储隐私攻击。
数据修改技术维护隐私通过修改属性值的样本数据集。从本质上讲,修改数据集通过消除或统一的常见元素在所有的数据集。这些类似的数据集作为集团内的其他的面具,因为他们不能区分开来;每个数据集都是松散与一定数量的信息提供者。k-anonymity[15]是一种数据修改的方法,旨在保护私有信息的样本泛化属性。K-anonymity交易隐私的效用。此外,这种方法只能应用在整个数据收集过程已经完成。
Perturbation-based方法试图实现隐私保护通过扭曲信息从原始数据集。摄动数据集仍然保留原件的特点,这样他们可以用来执行数据挖掘直接或间接地通过数据重建。随机替换[16]是一种微扰方法,随机替代选择属性的值来实现隐私保护的属性,然后应用数据重建时需要这些数据集数据挖掘。虽然可以保护隐私所选属性,该实用程序是不可恢复的,因为重建数据集是随机的。
大多数加密技术是安全多方计算推导,但只有其中一些适用于我们的场景。保护私人信息,样品由一个函数加密,f(或一组函数)与一个键,k,(或一组键);同时,原始信息可以通过应用重建一个解密函数,f,(或一组函数)的关键,k,这提高了安全问题的解密函数(s)和(s)的关键。建立有意义的决策树需要加密的数据加密的形式被解密或解释。(反)单调框架[17]旨在保护隐私和效用的样本数据集用于决策树数据挖掘。这种方法适用于一系列的加密和解密函数来净化样品他们相应地构建决策树。然而,这种方法提高了安全加密和解密功能的担忧。除了保护输入数据的数据挖掘过程,这种方法还可以保护输出数据,即。,生成的决策树。不过,这个输出数据通常可以被认为是消毒,因为它是一个聚合的结果和不属于任何个人信息提供者。此外,这种方法不适合discrete-valued属性。

决策树分类器

决策树[3][4][5]的定义是“一种预测建模技术的机器学习和统计领域构建一个简单的树状结构模型数据”的基本模式。决策树是一个流行的方法是能够处理分类和数值数据和执行分类用更少的计算。决策树通常更容易解释。决策树分类器,是一个有向树的节点没有传入边缘称为根。所有节点除了根有一个传入的边缘。每个非叶节点称为内部节点或分裂节点包含一个决定最合适的目标价值分配给一个类是由叶节点表示。决策树分类器能够将一个复杂的决策过程分解成简单的集合决定。复杂的决策被细分为简单决策的基础上分裂的标准。它将整个训练集划分为更小的子集。信息增益,增益比,基尼指数三个基本分裂标准来选择属性作为分割点。 Decision trees can be built from historical data they are often used for explanatory analysis as well as a form of supervision learning. The algorithm is designed in such a way that it works on all the data that is available and as perfect as possible. According to Breiman et al. [6] the tree complexity has a crucial effect on its accuracy performance. The tree complexity is explicitly controlled by the pruning method employed and the stopping criteria used. Usually, the tree complexity is measured by one of the following metrics:
•的节点总数;
•树叶的总数;
•树深度;
•使用的属性数量。
决策树归纳规则归纳密切相关。每条路径从决策树的根到它的叶子可以转换为一个规则只需沿着路径形成连接测试前期部分,和叶的类作为类值的预测。生成的规则集可以简化来提高其准确性和可理解性人类用户[7]。
流程图为基础的树分类图1所示
Hyafil和莱维斯特证明,获得最优的树是np完全[8]。大多数算法采用贪婪搜索和种植一棵树的分而治之的策略。特别是,训练数据集仍然是分裂成小的。相关算法ID3和C4.5[9]采用贪婪的方法构造决策树的自顶向下递归分而治之的方式。ID3是第一个决策树算法。它适用于各种各样的问题在学术界和产业界和多次修改改进和借鉴。ID3选择分裂值和指标的基础上增加分割或分裂提供的信息。获得代表不同的信息需要正确地作出预测前后分割。信息增益定义为原始段和熵之间的差异累积熵产生的分裂。C4.5是ID3的扩展,提出了由同一作者(昆兰,1993)。 It uses gain ratio as splitting criteria.
分裂时停止实例的数量低于某个阈值划分。C4.5可以处理数值属性。它执行基于错误的修剪后增长阶段。它可以使用修正增益比率诱导训练集,包含缺失值。

数据集互补的方法

隐私保护数据集通过互补是一种数据摄动方法,替代每个原始数据集与整个不真实的数据集。与隐私保护策略,这种新方法保存的原始精度训练数据集没有链接信息提供者的摄动的数据集。换句话说,数据集互补可以保护个人的隐私记录和产生准确的数据挖掘的结果。然而,这种方法是专为离散值分类,这样范围值必须定义为连续值。
方程
方程
方程
如果D2 T是D1的子集,那么所有的元素存在于D2 T也存在D1。因此,所获得的信息内容分类q-absolute-complement一组数据集,可以确定说dt,利用U qT的大小和dt的信息。
c .未实现训练集
一个训练集S T是由样本数据集插入一个数据表。然而,一个数据集互补的方法,提出了需要额外的数据表,P T。P T是一个扰动集生成不真实数据集,用于将示例数据转化为未实现训练集,T。未实现的算法训练集S T,如图所示:
算法
方程

决策树生成

ID3算法[18]构建决策树,递归地调用算法选择字段。该算法选择测试属性(最小熵)根据信息的内容培训集合S T。给出了信息熵函数
方程

算法

算法
8。例子←{元素我年代最好的例子= v}
9。m←MAJORITY-VALUES(例如我)
10。子树←GENERATE-DECISION-TREE(例子我年代,属性←最好,m)
11。添加一个分支和标签树我v子树
12。回归树
答:信息熵确定
方程
方程
修改后的决策树生成算法
作为原始数据集的熵,S T,可以由检索信息,未实现训练集的内容,”T,干扰组,P T, S T的决策树,可以由以下生成算法。
算法
算法
方程

输出精度

未实现的决策树生成的样本是一样的决策树,树S T,来自原样品的常规方法。
答:存储复杂性
从实验中,数据集的存储要求互补方法增加从| T |年代u (2 T ?) * T,而所需的存储可能翻了一倍,如果任何属性值技术应用于双样本域。最好的情况下当样品是均匀分布的,是原始的存储要求是一样的。
b .隐私风险
平均每泄露隐私的损失未实现数据集很小,除了均匀分布情况(未实现样本是一样的原件)。增加一倍的样品域,平均单个泄露隐私的损失数据集是零,实现样本不与任何信息提供者。随机选择的测试表明,该数据集互补的方法消除了大多数情况下的隐私风险和使用新值时总是将极大地提高隐私安全的属性。

结论和未来的工作

方程
数据集互补失败,如果所有训练数据集被泄露,因为数据重建算法是通用的。因此,进一步的研究是需要消除这种限制。本文是通过使用ID3决策树算法和实现的离散值属性。进一步的研究应该开发利用C4.5决策树算法与离散值和持续的价值属性。未来的研究还应该探索意味着减少与派生的数据集相关联的存储需求互补的方法。本文依靠理论证明有限的实际测试,所以测试与实际样品应该是下一步获得坚实的基础在现实生活中的应用程序,因为C4.5决策树算法进行了数值。

数据乍一看

图1 图2 图3 图4
图1 图2 图3 图4

引用