关键字 |
遗传编程,支持向量机、良性、恶性 |
介绍 |
乳腺癌是排名第一的影响女性癌症的主要原因之一。统计数据表明,一个在十个女性乳腺癌的影响在他们的生活。检测和诊断的疾病在早期阶段可以确保长期生存的生命。乳腺癌的症状包括质量,乳房的形状和尺寸的变化。各种诊断测试和程序可用于检测乳腺癌的存在。其中之一是分析从乳房活检确定乳腺癌。几种方法乳房像细针吸活检存在,芯针吸活组织检查,真空辅助活检、开放手术活检等来识别乳腺癌。(FNA)是一种经皮细针愿望过程使用细针和一个注射器从乳腺囊肿样液从固体或删除集群的细胞。乳房组织的样本进行了分析使用显微镜和结果可能是良性(非癌细胞)或恶性(癌细胞)。 |
相关工作 |
采取了许多方法和算法分类的乳腺癌。Sarvestan Soltani,等人提供了一个比较在各种神经网络的功能,如多层感知器(MLP),自组织映射(SOM)、径向基函数(RBF)和概率神经网络(并)用于白细胞和NHBCD数据进行分类。这些神经网络结构的性能研究对乳腺癌的诊断问题。RBF和并通过分类器被证明是最好的分类器训练集。这项工作表明,统计神经网络可以有效地用于乳腺癌的诊断[1]。 |
福格蒂等人从威斯康辛州预处理数据诊断乳腺癌(WDBC)是直接美联储作为终端值遗传规划算法和算法的输出与所需的输出和健身计算。人口的个人生成和最好的个人选择。收敛于最佳解决方案,代表人口的歧视功能和获得96.32%的检测精度和比较他们的结果医生和许多技术即延时,一般的回归,径向基函数,混合物的专家,LDA,逻辑回归,K搜索邻居和内核的诊断乳腺癌[2]。 |
Iranpour,等人讨论了应用支持向量机(SVM),径向基函数(RBF)网络对乳腺癌检测和获得98.1%的准确性比较优惠的其他研究中获得的精度等线性SVM分类器(94%)、模糊分类器(95.8%),和编辑近邻纯过滤(95.6%)[3]。 |
在拟议的工作中,乳腺癌分类任务使用威斯康辛诊断乳腺癌(WDBC)数据库是一种处理的细针吸活组织数据。遗传编程和使用支持向量机分类器进行分类。 |
支持向量机 |
支持向量机的一种新的监督模式分类方法已成功地应用于广泛的模式识别问题。学习的支持向量机训练算法从数据分类和回归规则。支持向量机最适合工作的准确、高效,高维度特征空间。支持向量机是基于强大的数学基础和结果简单但非常强大的算法[4 - 6]。 |
标准的支持向量机算法构建一个二元分类器。一个简单的方法来构建一个二元分类器是构造一个超平面分离类成员与非成员输入空间。SVM还发现输入空间的非线性判决函数通过将数据映射到一个高维特征空间,然后将其分隔的最大利润超平面。系统自动识别信息的一个子集点称为支持向量,并使用它们来表示稀疏的分离超平面的一个线性组合这些点。最后支持向量机解决一个简单的凸优化问题。 |
机是提供一组训练的例子,(xi, yi) xi是现实世界中数据实例和彝族的标签指示属于哪个类的实例。两类模式识别问题,易= + 1或易= 1。一个训练的例子(xi, yi)积极如果易建联= + 1和消极的。支持向量机建立一个超平面,分离两类,并试图获得最大的类之间的分离。分离的类有一个很大的利润最小化泛化误差上的束缚。 |
最简单的SVM模型称为最大边缘分类器,构造一个线性分离器(最优超平面)由w T x -γ= 0的两个类之间的例子。重量w的自由参数向量正交的超平面和一个阈值γ。这些参数是通过解决以下使用拉格朗日对偶优化问题 |
|
Dii对应于类标签,假定值+ 1和- 1。实例与非零权重被称为支持向量。 |
异常值的存在和错误分类培训允许一些例子可能是有用的错误,以避免过度拟合。松弛变量的向量ξi测量介绍了违反约束和优化问题称为软边缘下面 |
|
目标函数的最小化导致最大与最小数量的两个类之间的分离点穿越各自边界的飞机。参数C是一个正则化参数,控制目标函数的两个术语之间的权衡。C的正确选择好的分类器的泛化能力是至关重要的。以下正确的决策规则是用来预测误差最小的类的新实例。 |
双重配方的优点是,它允许一个有效的学习非线性支持向量机分隔符,通过引入核函数。从技术上讲,核函数计算两个向量之间的点积,(非线性)映射到一个高维特征空间。因为不需要显式地执行这种映射,培训仍然是 |
|
可行的尽管真正的特征空间的维数可以非常高的甚至是无限的。通过解决以下获得的参数非线性支持向量机双配方(矩阵), |
|
Q = DKD和K是内核矩阵。内核函数K (AAT)多项式或RBF(径向基函数)是用于构造特征空间的超平面,分离两类线性的输入空间进行计算。这个非线性情况下的决策函数给出 |
|
u,拉格朗日乘数的地方。 |
当超过两类的数量,那么问题称为多类支持向量机。有两种类型的多类支持向量机的方法。在第一种方法称为间接法,几个二进制支持向量机的构造和分类器的输出相结合寻找最终的类。在第二种方法称为直接法,一个单一的优化配方。制定的一个直接的方法叫做谎言和歌手的方法 |
|
ki在哪类训练数据xi所属, |
|
习一个新的输入数据的决策函数给出 |
|
在哪里 |
|
遗传规划 |
遗传规划(GP)是一种进化计算技术,自动解决问题而不需要用户知道或指定解决方案的形式或结构。遗传规划的发展人口的计算机程序。一代复一代,GP随机种群的程序转换成新的,希望更好,人口的计划。医生非常成功在小说发展的和意想不到的方式解决问题。遗传程序可能被视为预测模型近似目标函数f:在→Om的表示的输入数据空间维数n和Om是m维输出数据空间。在大多数情况下只有m = 1的输出。遗传程序也可能完全失踪(未知的)部分现有的模型。其他进化算法,如遗传算法、进化策略,减少现有的目标函数(模型)通过搜索最优设置的变量(模型参数)。 |
目标函数本身代表了医生要解决的问题。实际上这个函数通常是未知的,不完全定义为相对较小的一组输入输出向量。的进化过程搜索程序,代表一个给定问题的最佳解决方案。遗传程序所需的训练数据的概括未知数据。 |
答:线性遗传规划 |
LGP是遗传编程,计算机程序的一个特定子集的人口被表示为一个序列从命令式编程语言或机器语言的指令。线性的语义全科医生有很大的不同;指令在LGP通常读他们的输入从一个或多个寄存器或内存位置和他们的计算结果存储在寄存器中。指令在线性的医生都有相同的角色和交流只能通过寄存器或内存。在线性医生没有相当于树型GP固有的功能和终端之间的区别。指令在线性医生可能是机器代码的全科医生,直接由CPU执行每条指令,或者解释线性GP,每条指令执行一些更高级的虚拟机通常用一种有效的语言如C / c++ / Java)。解释线性程序比机器码程序更慢,但一种解释线性GP系统可以比一种解释基于树的系统更有效。 |
在一个线性遗传编程的基本步骤是[7] |
步骤1:随机产生初始种群的程序可用的原语 |
第二步:重复 |
步骤3:执行每个项目和确定其健康 |
第四步:选择一个或两个项目从人口概率基于健身参与遗传操作 |
第五步:创建新的个人项目通过应用遗传操作与指定的概率 |
第六步:直到找到一个可接受的解决方案或其他满足停止条件(例如,一代又一代的最大数量达到)。 |
第七步:返回到目前为止最个人。 |
线性遗传规划涉及到各种操作初始化种群,基于健康选择的程序,应用遗传操作,参数设置。阐述了各种任务。 |
初始化的人口:像其他进化算法,初始种群中的个体在LGP通常是随机生成的。有许多不同的方法在这个随机初始种群生成和生长方法,增加一半,一半的方法。 |
个人的选择:对于大多数进化算法,遗传算子在LGP概率的应用于个人选择基于健身。,更好的人更有可能有更多的孩子比劣质个体项目。最常使用的方法,选择在GP个体锦标赛选择,但任何标准进化算法选择机制像fitness-proportionate选择、随机抽样可以使用通用。 |
线性GP运营商:全科医生离开明显与其他进化算法实现的交叉和变异的操作符。交叉操作创建一个子程序结合随机选择部分从两个选择父程序。变异操作创建一个新的子程序通过随机改变随机选择所选父项目的一部分。典型的交叉和变异算子线性医生忽视的细节正在使用计算机的机器代码。例如,随机交叉可以选择两个交点在每个父母和互换它们之间的代码。自跨越碎片通常是不同的长度,这样的交换可能会改变程序的长度。自从计算机机器代码被组织成32位或64位的话说,交叉点只出现在单词之间的界限。因此,一个整数的话,包含一个整数的指令通常是交换。同样,变异操作通常尊重单词边界并生成法律机器代码[8]。 |
适应度函数:通常健身来源于之间的映射误差预测模型和所需的模型。以后,一般来说,健康问题的情况下代表一小部分数据空间;健身可能反映了表型的行为只在部分程序。健身评价个人是最关键的一步,GP算法由于遗传程序必须执行至少一次在适应度函数为每个健身例。有一些不寻常的东西医生使用的健身功能区分他们从那些用于其他进化算法。因为结构进化在GP计算机程序,健身评价通常需要执行人口中的所有项目,通常很多次了。当一个可以编译GP程序构成人口,建设一个编译器的开销通常是巨大的,所以它是更常见的使用解释器来评估发展计划。 |
实验和结果 |
乳腺癌分类工作进行了使用威斯康辛诊断乳腺癌数据集由威廉·h·威斯康辛大学Wolberg博士。这个数据集由569名乳腺癌患者的观察其中357是良性的,212是恶性状态。每个实例有32特性包括身份证号码和类标签对应的类型乳腺癌良性或恶性。这些特性计算数字图像的细针的吸入(FNA)乳房肿块,描述图像中的细胞核的特点。 |
拟议的工作进行两个实验。第一个实验是利用支持向量机进行光,多类SVM开源工具,它使用谎言和歌手的方法。第二个实验,旨在评估使用工具Discipulus遗传规划的有效性,商业遗传编程和数据分析软件处理回归、分类、排序和物流问题。Discipulus自动生成计算机程序用C、Java、C锋利,Delphi和英特尔汇编代码在桌面电脑。Discipulus处理二进制分类任务。Discipulus与Notitia捆绑,执行操作,包括导入数据从外部来源,肃清,转换和数据用于Discipulus分裂。在这两个实验训练集由80%的实例和测试组由20%的良性和恶性类的实例。 |
线性的数据集训练,多项式和RBF核函数的支持向量机参数设置不同Cregularization参数。多项式和RBF内核,默认设置为d(多项式次数)和g(γ)的程度。培训评估模型的性能使用10倍交叉验证的预测精度。支持向量机分类器的性能是总结在表I。 |
控制参数设置用于Discipulus LGP生成过程如表2所示。 |
指定数量的运行后生成的分类器是图1所示。 |
程序转化为Java程序和测试,测试数据集和每个类的投票和信心。良性和恶性类的命中率是如表3所示。 |
从结果可以看出越来越多的运行在Discipulus工具提供实质性的准确性。与支持向量机分类器的性能相比,进化算法线性遗传规划更好的预测和训练时间。 |
结论 |
这项工作表明乳腺癌的造型作为分类任务,描述了支持向量机和遗传编程的实现方法分类乳腺癌。Discipulus已经申请生成LGP建立分类模型。可以看出本文分类由遗传编程实现比其他机器学习算法更有效,因为商业GP软件Discipulus使用二进制机器代码的自动感应来实现更好的性能。有效使用线性生成模型版权IJIRCCE遗传规划可以通过医学专家对乳房组织的细针吸活组织样本进行分类为良性或恶性,提供及时的治疗。 |
表乍一看 |
|
|
数据乍一看 |
|
图1 |
|
引用 |
- SarvestanSoltani,影响一个,Parandeh M N和萨利希米,“使用数据挖掘技术预测乳腺癌生存能力”,软件技术与工程(ICSTE), 2日国际会议》,页227 - 231,2010。
- 沃纳J C和Fogarty T C,“遗传规划应用于严重的疾病诊断”,在程序智能数据分析inMedicine和药理学(IDAMAP), 2001年。
- Iranpour M, Almassi年代和Analoui M,“乳腺癌检测使用支持向量机从fna)和RBF分类器”,在1日联合国会
- 模糊和智能系统,2007年。
- joachim T, Scholkopf B, C和Smola Burges,“大规模地支持向量机学习实用,内核Methods-SupportVector进步学习”,剑桥,妈,美国,1999年。
- 索曼K P, R和Ajay Loganathan V,“机器学习与支持向量机和其他内核方法”,φ,印度,2009。
- CrammmerKoby和推断歌手”,多层次的算法实现基于向量机”,杂志
- 机器学习的研究中,麻省理工学院出版社、剑桥、妈,美国》,页265 - 292,2001。
- 里卡多。波里,威廉B和兰登尼古拉斯·F McPhee“字段遗传规划指南”,露露企业,英国,2008年。
- ”马库斯Brameier和沃尔夫冈Banzhaf比较线性遗传编程和神经网络在医学数据
- 矿业”,IEEE进化计算,第5卷,第一,2001年。
|