所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

保护神经遗传方法预测患心脏病的风险

净收益Bhuvaneswari Amma, K。Malathi, P.Balasubramanian
教师、信息技术部、印度信息技术研究所Srirangam, Tiruchirappalli Tamilnadu、印度
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

医学诊断是主要由医生的专业知识和经验来完成的。但在某些情况下,它可能会导致错误的诊断和治疗。在这篇文章中,一个医疗诊断系统提出了预测心脏病的风险使用安全神经遗传方法。安全数据分类的目的是建立准确的分类器没有透露私人信息的数据挖掘。在这篇文章中,神经网络的学习功能和遗传算法相结合的优化功能,以提供更好的分类。安全地计算困难问题方案使用激活函数和数据是垂直分区。通过实验验证了模型的分类器的有效性在克利夫兰心脏病数据集提供的加州大学欧文(UCI)机器学习库。

关键字

安全计算、神经网络、遗传算法、多方计算,困难的计划

介绍

心脏疾病是一种疾病,包括心脏、血管或两者兼而有之。心脏泵血的器官身体的所有组织。如果心脏的泵作用变得效率低下,重要器官,如大脑和肾脏受损,如果心脏停止工作,几分钟内死亡发生。世界卫生组织估计,1200万年死亡发生在世界范围内,每年由于心脏病[2]。医学诊断是一个重要而复杂的任务,需要准确、高效地完成。这个系统的自动化非常需要帮助医生诊断和治疗做得更好。医学知识的表示、决策、选择和适应一个合适的模型的一些医疗系统应该考虑的问题。医学进步总是支持的数据分析,提高了医学专家的技能和建立疾病的治疗技术。医疗诊断系统的目的是协助医生定义单个病人的风险水平。在UCI机器学习库中发现心脏疾病数据集[22]用于训练和测试系统。 The purpose of using this dataset is to provide a complex, real world data example where the relationships between the features are not easily discovered by casual inspection.
在医学诊断中,知识,描述了所需的系统行为都包含在数据集。当数据集包含的知识系统设计,神经网络解决方案的承诺,因为它可以训练自己的数据集。神经网络对这些应用程序的适用性是出于他们的健壮性噪声数据和确定通用模式的能力在一个有效的方式。可以更新一个由呈现新的训练数据训练网络的网络。使用训练数据映射的神经网络建立一个内部的模型给定的数据类的任何一个。然后经过训练的网络用于分类新数据。神经网络的分类质量取决于训练数据的数量。因此,通过使用更多的训练可以提高分类性能数据。遗传算法是一种优化算法,模拟自然遗传学的原则。它可以迅速发现可以很好的解决问题。 In this paper, genetic algorithm is used to optimize the weights of the neural network.
在大多数应用程序中,隐私问题出现,因为他们的数据被认为是敏感数据。因此,传统的方法对知识发现的数据是不合适的。因此,安全数据挖掘方法提供机会没有披露私人数据构建模型和提取模式。安全数据挖掘知识发现的方法可以分为两类:数据扰动方法和加密方法[8][9]。数据扰动方法使用数据扭曲如添加统一的噪声与隐藏私有数据的目的。加密方法用于协作学习模型。两方或多方贡献自己学习的数据共享模型根据安全协议,防止披露了数据。摘要加密的监督学习方法提出了和我们关注隐私保护基于遗传神经网络的训练。数据贡献了各方垂直分区的共享模型是建立在联盟的数据集。

相关工作

许多方法被用来构造一个分类器。海,侯赛因和鑫(2008),在他们的工作提出分类数据挖掘任务的神经基础学习分类器系统[1]。方,Jens[20]应用隐私保护方法与ID3决策树学习算法和discrete-valued属性。他们提议开发应用范围等算法C4.5和C5.0和数据挖掘方法与混合离散和连续值属性。也提出了优化的存储大小未实现样品和处理时间从这些样本生成决策树。
Alka Gangrade Ravindra Patel[20],应用隐私保护数据挖掘决策树方法在使用UTP水平分区的数据(不受信任的第三方)。夏尔马和Vibha Ojha[21],应用算法ID3、增益比,基尼系数用于构建决策树。Shantakumar和Kumaraswamy(2009),在他们的工作提出了一个智能和心脏病有效预测系统使用数据挖掘和人工神经网络[4][5]。
第一个安全多方计算(SMC)问题被姚明[6]。SMC允许政党与披露的威胁最小化解释[7]。隐私保护数据挖掘的十年中一直是一个活跃的研究领域。很多工作是由研究人员在分布式数据挖掘隐私保护分类。概述新的和迅速的新兴研究领域的隐私保护数据挖掘分类的技术,回顾和评价的隐私保护算法[8]中给出。各种工具讨论和他们如何可以用来解决一些隐私保护数据挖掘问题[9]。密码安全的分布式计算及其应用研究数据挖掘被Pinkas证明本尼[10]。算法ID3分类特别精心设计和自然的解决方案是首先提出的昆兰[11]。Lindell和Pinkas提出一个安全的算法来构建一个使用ID3决策树在两党之间的横向分区数据用SMC [12]。广义的隐私保护变体ID3算法垂直分区数据分布在两个或两个以上的政党中引入[12]。 A decision tree algorithm over vertically partitioned data using secure scalar product protocol proposed in [12].A novel privacy preserving distributed decision tree learning algorithm [14], that is based on Shamir [16] and the ID3 algorithm is scalable in terms of computation and communication cost, and therefore it can be run even when there is a large number of parties involved and eliminate the need for third party and propose a new method without using third parties.
算法建立决策树,树每一方不包含任何信息属于另一方[15]。这种方法的缺点是生成的类可以被恶意修改。隐私保护决策树算法在垂直分区数据,基于概念提出的通过控制从站点到站点魏芳和阳[17]。数据分类的主要目的是建立一个模型(即。,classifier) to predict the (categorical) class labels of records based on a training data set where the class label of each record is given. The classifier is usually represented by classification rules, decision trees, neural networks, or mathematical formulae that can be used for classification. The work of Agrawal and Srikant [18] utilized a randomization-based perturbation approach to perturb the data. The data are individually perturbed by adding noise randomly drawn from a known distribution. A decision tree classifier is then learned from the reconstructed aggregate distributions of the perturbed data. In [19], a condensation based approach is proposed. Data are first clustered into groups, and then pseudo data are generated from those clustered groups.
数据挖掘任务然后在生成的合成数据而不是原始数据。上面讨论的作品比较,探讨了不同的工作使用基于遗传神经网络构建隐私保护分类器。的激活函数神经网络计算使用困难问题方案来保护隐私的分类器。神经网络用于训练系统。在使用遗传算法优化神经网络的初始权值。

算法

提出了系统的框图如图1所示。神经网络系统的主要组件是所有者,训练引擎,优化引擎,和分类引擎。
答:心脏病数据集
克利夫兰心脏病UCI机器学习库提供的数据[22]用于分析的工作。数据集有13个数字输入属性即年龄、性别、胸痛类型、胆固醇、空腹血糖、静息心电图,最大心率、运动诱发心绞痛,老峰,斜坡,血管彩色和需要的数量。它还预测属性ie)类标签。
b .神经网络的主人
在本文中,我们提出了一个两党分布式算法基于隐私保护的遗传神经网络训练和垂直分区的数据。我们认为有两种神经网络的主人,每一方都有自己的数据集。这两个所有者必须建立一个神经网络基础上所有的数据,但是每一方没有透露自己的数据。只有一个隐层神经网络和隐藏节点选择基于试验和错误。
困难是一个公钥加密方案[24],可以定义在任何循环组。让G是一个循环群'命令q和发电机G。困难问题的组件密钥生成方案,加密和解密。
算法1:困难的计划
步骤1:x值属于Zp随机选择的私钥。对应的公钥(G, q, G h), h = gx的地方
步骤2:m属于G是加密消息如下:r值属于Zp和随机选择。密文是构造成(C1, C2) = (gr m.hr)
步骤3:计算纯文本
图像
在本文中,我们只考虑两党和两党持有乙状结肠的输入函数的一部分。该算法使他们能够计算函数的近似值不知道来自另一方的输入的一部分。实际上,在该算法为每个党没有办法探索其他的输入,但仍然可以计算函数值。正式,算法的输入是甲方持有的x1, x2,党b的输出函数y, y (x1 + x2),也是随机由双方共享。注意,当事人可以交换他们的随机结果的算法,这样他们可以学习乙状结肠的完整价值函数。
算法2:乙状结肠函数
步骤1:甲方生成一个随机数R和计算mi = y (x1 + i) - R - n < < = n。每个使用Algorithm1 mi,并获得甲方加密E (mi, ri),其中每个ri是一个新的随机数。它发送每个E (mi, ri)增加我的顺序。
步骤2:乙方挑选E(第二,rx2),随机排列它并发送E ((r1)回,r1 = rx2 + s, s是唯一已知的乙方。
步骤3:甲方部分解密E ((r1)和B发送部分解密消息
步骤4:乙方最后得到解密消息(= y (x1 + x2) - R R是唯一已知的和第二只知道B函数f (x)计算,(+ R = y (x1 + x2) = f (x)
c .培训引擎
该算法用于训练网络反向传播算法的修改版本。输入层由13节点,隐层由7节点和输出层由5节点。隐层节点选择基于试验和错误。神经元激活函数使用的是乙状结肠函数[25]。
d优化引擎
使用遗传算法来优化神经网络的权值。拟议中的神经基因的方法是训练的结合和重量优化子系统。该算法解释如下:让p, q, r代表输入神经元的数量,分别隐藏层和输出层。维琪代表顶点的权向量输入层节点之间的隐层节点。Wjk代表顶点的权向量之间的隐层节点输出层节点。Eo代表预期的输出给定数据Xo [23]。
算法3:算法
步骤1:初始化染色体人口与随机数在0和1之间。
第2步:为每一个染色体的人口
步骤2.1:初始化均方根误差(RME)为0
步骤2.2:对于每一个数据Xo (x1, x2,…, xp),在训练集,计算
2.2.1步:输入层神经元的输出OiI = xi, i = 1到p
2.2.2步:隐层神经元的输入
对于每个隐层神经元hj,甲方计算Σj < = mA Wijxj和乙方计算Σ马马< j < = + mB Wijxj
2.2.3步:隐层神经元的输出
使用算法2,甲、乙共同计算每个隐层节点的乙状结肠函数hj和获得随机股hj1 + hj2 = f(ΣjWijxj)
2.2.4步:隐藏到输出层神经元
对于每一个输出层节点,甲方计算Ok1 =Σk Wjkhj1和乙方计算Ok2 =Σk Wjkhj2,这样好= Ok1 + Ok2
2.2.5步:输出层神经元的输出
使用算法2,甲、乙共同计算乙状结肠为每个输出层神经元的功能。
2.2.6款步:累积误差
呃=犯错+根(Oko-Ako) 2 / r
步骤2.3:计算平均误差
Avgerr =呃/ n
步骤2.4:计算染色体的适应度
健身= 1 / avgerr
第3步:如果没有达到阈值
步骤3.1:选择前50%的染色体根据健身价值
步骤3.2:应用交叉和变异选中的染色体上获得另外50%的染色体
步骤4:转到步骤2
e .分类子系统
经过训练的神经网络用于分类。如果用户提交的查询分类子系统、隐私保护神经遗传分类器预测心脏病的风险数据。

仿真结果

克利夫兰心脏病数据集提供的UCI机器学习库[9]用于医疗诊断系统培训和测试。表1中给出的数据集的分布。在303的实例数据,200个实例用于培训和103个实例用于测试。
给定数据的分类器分类属于心脏病或没有心脏病的存在。实际和预测分类混淆矩阵包含信息的分类系统。训练和测试数据集分类的建议的方法在表2中给出。和表3所示。分别。
绩效指标的测试数据如表4所示。的准确性和精度计算分类器使用真阳性,假阳性,真阴性和假负值。测试集的分类精度为93.2%。

结论和未来的工作

在这篇文章中,隐私保护神经遗传方法提出了预测心脏病的风险数据。数据集进行分析的目的是来自UCI机器学习库。数据集垂直划分为两组,给两个神经网络的主人,每个老板都有自己的数据集。这两个业主共同建立一个神经网络安全地使用基于遗传神经网络训练算法。最后一个网络是用于分类。使用这种方法获得的分类精度为93.2%。
为未来的工作有很多有趣的方面。可以进行水平分区数据集构造一个分类器。超过两个神经网络所有者可以考虑。不止一个隐藏层可以用来构造分类器。可以在每一层不同的激活函数。

表乍一看

表的图标 表的图标 表的图标 表的图标
表1 表2 表3 表4

数据乍一看

图1
图1

引用


























全球技术峰会