所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

隐私保护CART算法在垂直分区的数据

Divyarth Rai Raghvendra Kumar Ashish贾斯瓦尔
部门的计算机工程LNCT群大学,贾巴尔普尔,议员、印度
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

数据挖掘分类算法集中式算法和集中式数据库上工作。在这个信息时代,组织使用分布式数据库。由于数据挖掘的私人数据是一个组织成功的关键之一,这是一个具有挑战性的任务来实现分布式数据库的数据挖掘。协作的组织给相关方带来互利。所以不同的组织想合作和执行有效的数据挖掘算法。这个隐私问题出现。组织无法合作,因为私人的隐私数据没有完全保留。摘要CART算法实现在垂直分区的数据。有效的隐私保护的私人数据,隐私保护协议(如标量产品,使用x (ln x)协议。

关键字

隐私保护;车;决策树。

介绍

合作是成功的重要关键。它带来互利重结果,帮助组织在决策。但由于担心隐私数据,组织合作的犹豫。现在隐私保护一直是一个重要问题,因为分布式数据挖掘进入场景。分布式数据库已进入以来,发生了三个问题。第一个问题是私有数据的隐私保护。第二个问题是集中式数据挖掘算法在分布式环境中运行。第三个问题是提取有效运行后结果集中的数据挖掘算法获得的方式。

数据挖掘

数据挖掘[1]一直在行业中一个重要方面由于巨大的数据可用性。数据挖掘是最好被视为信息技术自然发展的结果。数据挖掘通常被称为知识发现的数据,从大量数据中提取重要的知识。随着技术的变化组织也是如此。现在一天的组织使用分布式数据库。

分布式数据库

在这个信息时代组织使用分布式数据库[2]因为组织是地理上分布的。分布式数据库是数据的集合,在逻辑上属于同一系统,但分布在计算机网络中的站点。它分为三种类型。
水平分区的数据库:数据库分为这样D1和D2数据库元组的结果子部门数据库的D。
垂直分区的数据库:垂直数据库的数据库子划分根据属性。让数据库D是大小为n拥有一个属性子分为数据库D1和D2 D1控股属性a1, a2,……,正义与发展党和D2控股属性ak + 1,正义与发展党+ 2,…,。
混合分区数据库:数据库是第一水平分区然后垂直分区,反之亦然

分类规则挖掘

分类[3],[4]是数据挖掘和机器学习技术用来预测数据实例的组成员关系。分类规则挖掘也被称为基于规则的分类。它使用if - then规则。如果规则的一部分被称为规则前提和当时被称为规则的一部分。这些规则可以直接从训练集开采或间接通过转换模型和提取规则。

决策树分类器

这是一个监督学习方法,从训练集数据构造决策树。决策树分类器[3]有效地用于雷达信号的分类、特征分类、医学诊断、专家系统等决策树[1]是一个流程图最喜欢选择措施用于属性,将元组划分成不同的类。在决策树结构,许多分支可能繁殖噪声或训练数据中的异常值。所以树修剪完成改善算法。它把复杂的决策过程分为一组简单的决定。决策树算法采用了贪婪的方法中,以自顶向下的递归各个击破的方式构造决策树。最常用的决策树算法迭代二分ID3、C4.5和购物车。隐私保护决策树算法已被用于解决分布式计算问题当事人完全建立决策树对数据集通过共享必要的数据和防止私人敏感数据的接触。

隐私保护技术

出现了隐私保护数据挖掘已成为数据挖掘中一个非常活跃的研究领域。通过结合不同的数据库发现知识提出了安全问题。尽管数据挖掘结果通常不会侵犯个人隐私,不能保证一个未经授权的人不会访问数据在不同的网站和数据分区不加密,是不可能获得关于其他网站的新知识。数据挖掘技术试图识别数据中的规律,由个人未知的和难以发现。规律或模式是显示在整个数据,而不是个人。然而要找到这样的披露模式,挖掘过程访问和使用个人信息。技术讨论了标量积协议:标量积协议[4]允许超过双方计算。该协议的主要目的是保证等其他党派的私有数据,只能知道自己的结果和数据。
X (lnX)协议:X (lnX)协议[5],[6]是两党通常用于保护隐私。假设我们有两党A和B分别Xa和Xb有价值。X (lnX)协议的目标是给A和B两Ya和分别,这样的分享
Ya + = (Xa + Xb) ln (Xa + Xb)

相关的工作

分类[3],其中一个机器学习技术,数据挖掘过程中一直是一个重大突破,导致决策树。有三个最受欢迎的决策树。第一个决策树ID3[3],使用信息增益的属性选择。第二个决策树C4.5[3],使用增益比率作为其分裂属性。第三个决策树是车[7],使用基尼系数作为其分裂的标准。隐私一直以来主要关心分布式数据库进入画面。数据挖掘分类算法使用集中式算法,只用于集中的数据库。主要的突破是Lindell和Pinkas[5]和Agrawal Srikant [8]。Lindell Pinkas引入了安全多方技术分类水平分区数据集上使用ID3算法和显示的方式如何分类算法可以运行在分布式数据库和保护私有数据已经开始从他们的隐私。通过这条道路一个广泛的研究应用数据挖掘分类技术在分布式数据库。 To add more security Du and Zhan [4] has introduced a scalar protocol. Vaidya and Clifton in [9] and J. Vaidya [10] have introduced a secured way to apply ID3 classification algorithm in vertically partitioned database. Shen, Shao and yang [11] and Y. Shen, H. Shao, J. Jianzhong [12] studied C4.5 classification and introduced PPC4.5 algorithm over vertically distributed database for two parties. C4.5 algorithm has been extended to multiparty in vertically partitioned environment in [13]. In this paper we have designed privacy preserving CART over vertically distributed database.

数据库模型

数据库分布在下面描述的网站:有N个数据库D1,……, Dn分布式S1 / N多的网站,……,在这样一种方式,如果Di Sn j然后从D1,所有数据库属性……,Di-1 Di + 1……Dn有j属性。

隐私保护决策树

Breiman CART算法,弗里德曼Olshen[7]和石头。购物车创建二叉树并使用基尼系数作为其分裂属性。这使得车不同于其他决策树。在本文中隐私保护使用购物车购物车生成决策树算法。

隐私保护分类问题

让我们考虑这样一个场景的两个政党,a和B,想进行分类技术。有一个私人数据库Da和B拥有私人数据库Db。两个数据库是联盟A和B的数据集(Da U Db)[4]和这两个数据库连接垂直把Da和Db在一起以便j的浓度与j Da记录在Db成为j记录(Da U Db)。的假设是Da和Db包含相同数量的数据记录。
Da包含一些属性对所有记录和数据库包含其他属性。
双方分享类标签的所有记录和所有的属性的名称。

隐私保护CART算法

让N地图当前节点,D = Da U Db地图当前数据库。Nattr地图列表当前的测试属性
PPCART树(D, Nattr列表)开始
步骤1 -创建根节点R
所有属性的计算基尼系数出现在哒。同样B计算基尼系数的所有属性出现在数据库中。初始化根用最小的基尼系数。属性选择最低基尼系数的属性最大化减少杂质。
步骤2 -如果同一个类D的所有记录值,然后返回R作为叶子节点指定的类值每条记录被两党之间的分歧,双方共享类标签的所有记录。所以如果我们想要确定双方是否留在相同的单独的类,我们必须验证记录是否在Da或Db都属于同一个类C。如果他们属于同一个类,那么返回特定类的叶子节点值。
步骤3 -如果Nattr列表为空或左记录小于给定值,然后返回R作为叶子节点标明类值分配给最记录美国两党分享所有记录的类标签和所有属性的名字,所以他们都知道是否Nattr列表为空。如果是的,只是扫描数据集Da或Db和统计最常见的类,这是叶与最常见的类标签。
步骤4 -初始化队列问含有根节点。
步骤5 -而队列问不是空的{
步骤6 -弹出第一个节点N问。
步骤7 -评估每个属性的基尼系数。
步骤8 -找到最好的分裂属性。
步骤9 -如果分裂属性是不断发现其分区值
步骤10 -使用最好的分裂属性分裂节点N N1、N2…Nn。
步骤11 -i = 1,…, n
{
如果所有记录在倪属于同一类然后返回镍作为叶子节点标记类值
其他的
添加镍Q和继续执行PPCART树(D, Nattr列表)
}
}
步骤12 -计算每个节点的分类错误和树进行修剪。
结束

计算的最佳分裂

我们需要计算每个属性的基尼系数承认最好的分裂属性。让D代表数据集属于当前节点n让C代表所需的数据集计算基尼系数为每一个记录在当前满足节点。会有两种情况:
如果C和Nattr列表的属性属于同一个数据集,它们可以单独计算基尼系数。如果所涉及的所有属性C和_attr列表不属于同一方,任何一方可以计算信息增益率本身。在这种情况下,每个人都需要工会另一方来计算它。下面的三个步骤将被重复,直到我们获得所有属性的信息增益率。最后我们选择最大的属性值作为当前节点的分裂属性。
计算L (D, Nattr列表):L代表逻辑表达式,满足当前节点n L代表了逻辑表达式,只有参与Da属性。磅表示逻辑表达式,只有参与数据库的属性。
扫描数据集Da和产生一个向量的大小n。弗吉尼亚州(i) = 1如果第i个记录满足拉其他Va (i) = 0。5月计算的价值
v弗吉尼亚州载体本身。类似地,B也可以计算向量Vb的价值。
让Vi的矢量大小n, Vi (n) = 1,如果第n个记录属于一级别的Vi (k ? = 0。弗吉尼亚州V (i) =(我)?Vb(我)意味着c orresponding记录满足拉和磅。
甲基砷酸钙产品Vb Va (j) Vb (j)意味着whichsatisfiesbothLa记录的数量和磅。
弗吉尼亚州弗吉尼亚州π(Vb V j) (V j) Vb意味着属于类的数量我在分区s .现在我们可以计算基尼系数
L (D, Nattrlist)

计算获得:

N_attrlistΔGain (D)
G (s1 j s2 ........Nattrlist snj) L (D)
在哪里
L (D, N_attrlist)计算每个属性的基尼系数G (s1j + s2j +……+ snj)计算类的基尼系数值。
根据标量积协议[4]semi-honest第三方介绍计算标量产品Va Vb不暴露隐私。结果分为两个部分
弗吉尼亚州Vb X X b:(政党分别X和Y的股票
XX和XY,这可以保证X无法得到Y, Y的内容不能得到X的内容,所以它可以保护他们的隐私。
根据Xln (X)协议[5],[6]我们可以获得ln (XX + XY) = PX + PY。X和Y PX和PY分别股票。(XX + XY) ln (XX + XY) = (XX + XY) (PX + PY) = XXPX + XYPY + XXPY + XYPX XXPY分为两部分的结果QX和QY分别由X和Y .同样,共享的结果XYPX也分成两部分SX SY,也分别由X和Y共享一个可以计算WX = XXPX + QX + SX和Y可以计算王寅= XYPY + QY + SY . so XX + XY ln (XX + XY) = WX +王寅,结果是分为两部分的天气和王寅,分别和共享的X和Y。
让我们考虑这样一个场景,X和Y两党想进行CART算法。双方共享类值(玩)。
现在双方都有自己的私有数据,希望对方不应该知道他们的私人数据。所以发生的问题是找到基尼指数和微分基尼没有乙方的知识。让R的要求,它分为两个子集RX和RY RX是需求涉及党X属性的子集,子集从总体需求涉及的聚会
Y属性。让我们考虑两个向量分别VX和v的大小为n。VX (t) = 1, v (t) = 1如果t记录分别满足RX和变化中。其他VX (t) = 0和v (t) = 0。让我们考虑另一个向量VB知道t属性属于类C。如果VB (C) = 1,属性被其他类C VB (C) = 0。V是一个非零项,V (t) = VX (t) ?V (t) (t = 1,2,…, n)意味着V (t)是令人满意的RX和变化中。现在党X和Y可以计算自己的私人数据由以下公式计算标量的乘积VX和V
图像
计算电脑这意味着出现次数计算的类C p是在一个分区
Pc VX (VX VC) v (v VC)
基尼指数的计算方X矢量VX和党Y v大小为n。首先计算属性“前景”。在前景属性有三个属性“阳光”,“阴”,“雨”。我们知道基尼系数使得二元分裂,所以他不得不合并这三个属性和属性的组合有最低基尼指数选择分裂属性。所以
TVX(前景)(阳光,阴暗的)= (1,1,1,0,0,0,1,1.1.0,1,1,1,0)T VX(前景)((阳光,阴天)-不)= (1,- 1,0,0,0,0,0,1,0,0,0,0,0,0)
TVX(前景)((阳光,阴天)-)= (0,0,1,0,0,0,1,0,1,0,1,1,1,0)T Vx(前景)(晴天、雨天)= (1,- 1,0,1,1,- 1,0,1,1,1,- 1,0,0,1)
VX(前景)((晴天、雨天)-不)= (1,- 1,0,0,0,1,0,1,0,0,0,0,0,1)T VX(前景)((晴天、雨天)
是的)= (0,0,0,1,1,0,0,0,1,1,- 1,0,0,0)T
VX(前景)(阴,雨)= (0,0,1,1,1,1,- 1,0,0,1,0,1,1,1)T VX(前景)((阴、雨天)-不)= (0,0,0,0,0,1,0,0,0,0,0,0,0,1)T
VX(前景)((阴、雨天)-)= (0,0,1,1,- 1,0,1,0,0,1,0,1,1,0)T稍加观察属性除以该集团“75 >”和“< = 75”基尼指数作工作实数。所以VX(稍加观察)(> 75)= (1,1,1,0,0,0,0,0,0,0,0,0,1,0)T
VX(稍加观察)((> 75)-不)= (1,- 1,0,0,0,0,0,0,0,0,0,0,0,0)T VX(稍加观察)((> 75)-)= (0,0,1,0,0,0,0,0,0,0,0,0,1,0)T
VX(稍加观察)(< = 75)= (0,0,0,1,1,1,1,1,1,1,- 1,0,0,1)T
VX(稍加观察)((< = 75)-不)= (0,0,0,0,0,1,0,1,0,0,0,0,0,1)T VX(稍加观察)((< = 75)-)= (0,0,0,1,1,0,1,0,1,1,1,- 1,0,0)T
湿度属性包含实数数据所以也分为75 " >”和“< = 75”。
v(湿度)(> 75)= (1,1,1,1,- 1,0,0,1,0,1,0,1,0,1)T v(湿度)((> 75)-不)= (1,- 1,0,0,0,0,0,1,0,0,0,0,0,1)T v(湿度)((> 75)
是的)= (0,0,1,1,- 1,0,0,0,0,1,0,1,0,0)T v(湿度)(< = 75)= (0,0,0,0,0,1,1,0,1,0,1,0,1,0)T
v(湿度)((< = 75)-不)= (0,0,0,0,0,1,0,0,0,0,0,0,0,0)T v(湿度)((< = 75)-)= (0,0,0,0,0,0,1,0,1,0,1,0,1,0)T
为风属性
v(风)(false) = (1, 0, 1, 1, - 1, 0, 0, 1, 1, - 1, 0, 0, 1, 0) T v(风)((false) -不)= (1,0,0,0,0,0,0,1,0,0,0,0,0,0)T
v(风)((false) -) = (0, 0, 1, 1, - 1, 0, 0, 0, 1, 1, 0, 0, 1, 0) T v(风)(真正的)= (0,1,0,0,0,1,1,0,0,0,1,1,0,1)T
V(风)((真正的)-不)= (0,1,0,0,0,1,0,0,0,0,1,1,0,0)T V(风)((真正的)-)=(0,0,0,0,0,0,1,0,0,0,1,1,0,0)为类属性T V(玩)(是)= (0,0,1,1,- 1,0,1,0,1,1,1,1,1,0)T V(玩)(no) = (1, - 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1) T
属性选择最低基尼系数作为分割点。所以前景(雨天、晴天)被选中作为分割点GiniIndexoutlook(雨天、晴天)是最低等。党X和Y交换信息和得出属性组雨和阳光明媚的前景是选为根节点,因为它已经至少基尼指数。
想让前景是假的那么多风多党X将计算向量
VX(前景)(雨)= (0,0,0,1,1,- 1,0,0,0,1,0,0,0,1)T
VX(前景)((雨)-不)= (0,0,0,0,0,1,0,0,0,0,0,0,0,1)T
VX(前景)((雨)-)= (0,0,0,1,1,0,0,0,0,1,0,0,0,0)T方Y将计算向量
v(风)(false) = (1, 0, 1, 1, - 1, 0, 0, 1, 1, - 1, 0, 0, 1, 0) T
双方必须使用标量积协议计算前景= = false多风多。但添加更多的安全xlnx协议也是这样使用
(XX + XY) ln (XX + XY) = (XX + XY) (PX + PY) = XXPX + XYPY + XXPY + XYPX
XXPY的结果是分成两部分分别QX、和QY共享的X和Y。
同样,XYPX也分成两部分的结果SX SY,也分别由X和Y共享。
可以计算的天气= XXPX + QX + SX和Y可以计算王寅= XYPY + QY + SY . so XX + XY ln (XX + XY) = WX +王寅,结果是分为两部分的天气和王寅,分别和共享的X和Y

实验和结果

购物车使用基尼系数和构造二叉树密切模型更平衡的分裂。此外,它优于ID3和C4.5。证明使用Weka软件工具。Weka是一个开源的数据挖掘工具。汽车评估的数据库是出于比较目的三大受欢迎。ID3的结果如下所示

结论和未来的工作

本文显示两党合作的方式和使用CART决策树算法比其他受欢迎的决策树和密切模型均衡的分裂,给党带来沉重的结果。私人的隐私数据完全保留隐私保护协议,也就是说,使用标量积协议。增加更多的安全保护私人的隐私数据,XlnX协议也使用。所以数据泄漏为零。这棵树可以使用不同的organizaion准确的结果。

表乍一看

表的图标 表的图标
表1 表2

数据乍一看

图1 图2 图3
图1 图2 图3
图4 图5 图6
图4 图5 图6

引用