所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

知识在临床数据通过数据挖掘模式:回顾癌症疾病的预测

女士Pooja Agrawal1先生,苏雷什卡2,Mr.Vikas钱德拉Pandey3普拉萨德先生,苏拉Keshri4
  1. 研究学者(博士),Dr.C.V。RamanUniversity, Kargi路哥打,比拉斯布尔,印度
  2. 研究学者(M.Tech。), Dr.C.V。RamanUniversity, Kargi路哥打,比拉斯布尔,印度
  3. 研究学者(博士),Dr.C.V。RamanUniversity, Kargi路哥打,比拉斯布尔,印度
  4. 研究学者(M.Tech。), Dr.C.V。RamanUniversity, Kargi路哥打,比拉斯布尔,印度
相关文章Pubmed,谷歌学者

访问更多的相关文章国际先进研究期刊》的研究在电子、电子、仪表工程

文摘

数据挖掘是一个重要的步骤在数据库知识发现的过程中,智能方法应用,以提取模式。一般临床癌症研究和/或生物在自然界中。数据驱动的统计研究已成为一个常见的补充。预测疾病的结果是一个最有趣的和具有挑战性的任务与数据挖掘应用程序。(电脑的使用的自动化工具)大量的医学数据被收集并公开给医学研究团体。因此,在数据库知识发现(KDD),其中包括数据挖掘技术,已成为一个流行的医学研究人员研究工具来识别和利用模式和大量的变量之间的关系,并使他们预测疾病的结果使用历史情况下,存储在数据集。本研究的目的是总结各种评论和技术文章在癌症的诊断和预后。雷竞技苹果下载它概述当前的研究被进行各种癌症数据集使用数据挖掘技术来提高癌症诊断和预后。

关键字

数据挖掘;再邻居;朴素贝叶斯;支持向量机、知识发现(KDD);癌症

介绍

医学数据挖掘潜力巨大探索隐藏的模式数据集的医学领域。这些模式可以用于临床诊断。然而,可用原始医疗数据广泛分布的、异构的性质,和大量的。这些数据需要被收集在一个有组织的形式。这个收集的数据可以组成一个医院信息系统集成。数据挖掘技术提供了一个面向用户的小说和隐藏模式数据的方法。
与流行观点相反的是,过度的保留和/或编制大量的生物数据分析变成非常困难和复杂的任务。即使有生物信息学的出现和数据挖掘,并结合生物学、计算机科学、信息技术、统计、数学,有效的知识提取的问题正日益变得更加困难。生物信息学的主要目的之一是澄清依赖遗传资源的生物过程。数据挖掘能够检测数据集对象之间隐藏的有用的模式,并使用它们作为预测因子。
通过检查确诊癌症通常是使用显微镜的细胞。成像测试计算机断层扫描(CT)或乳房x光检查帮助说明可能出现的癌症通过描述异常增长或质量。最后的决定通常是由拥有不同的实验室测试的病人和密切观察癌细胞在研究。医生使用的另一种方法称为活检。活组织检查是通过手术。医生取一个样本组织的替补。然后检查这个样本在显微镜的帮助下。正常细胞的出现是均匀分布的;他们是有组织的,大小是一致的。癌细胞比正常细胞是不同的。 They are in dispersed order, their sizes are different and they are not structured well. The problem with this is that a medical image such as CT scan or MRI cannot show all the patterns and information for a particular type of cancer or subtypes of cancer. Another issue is that a doctor with his/her naked eye and a microscope cannot remember a large number of patterns of the disease. It is frightening for a patient to know that he/she has cancer. A patient can lose all hope after being diagnosed with cancer. Therefore cancer diagnosis is a process that needs proper care and patience on both sides i.e. the patient and doctor/hospital. Early diagnosis of cancer can help save the life of a patient because cancer cells cause destruction to other cells and spread to other parts of body very quickly.
医学诊断被认为是一个重要而复杂的任务,需要准确、有效地执行。这个系统的自动化将是非常有利的。Re-grettably所有医生在每个子专业不具备专业知识,而且有一个资源短缺的人在特定的地方。因此,医疗诊断系统将自动将他们所有人在一起,可能是非常有益的。适当的以计算机为基础的信息和/或决策支持系统可以帮助实现临床试验以降低成本。
高效、准确地实现自动化系统需要一个可用的各种技术比较研究。本文旨在分析不同的预测/描述性数据挖掘技术提出了近年来诊断癌症。

二世。相关的工作

王,et al .,[1]表明,DNA微阵列可以同时追求很多基因的表达。微阵列数据习惯性地围绕一个娇小的样本的数量。它包括一个巨额数字基因表达水平的功能。这是一个具有挑战性的任务选择相关基因参与不同类型的癌症。开采为目的的信息来自一个癌症的基因微阵列数据和降维,特征选择算法等算法是系统地分析。选择相关的基因微阵列数据可以获得使用包装器、过滤器和慢性疲劳综合症(correlation-based功能选择器)和机器学习算法如决策树、朴素贝叶斯和支持向量机。本文中使用的数据集是在急性白血病和淋巴瘤微阵列数据。的分类性能实验表明,可以获得最好的精度对急性白血病和弥漫型大b细胞淋巴瘤微阵列数据集比公布的结果。也可以选择相关基因高信心通过使用不同的分类组合和特征选择方法。本文的实验结果表明,该基因选择通过过滤器,CFS,和包装,验证一个类似性能的快速分析数据集分析。数据过滤器和CFS建议? However, in order to select very few genes validation of the results, the wrapper approaches can be proposed.
f .朱棣文和l .王[2]指出,微阵列基因表达数据通常有大量的维度。这里使用的分类器是一种针对癌症的支持向量机(SVM分类与微阵列基因表达数据。基因的选择已经完成的四种有效的特征降维方法的使用,例如,主成分分析(PCA), class-separability措施,费舍尔比,和学习任务。SRBCT这里使用的数据集,数据集淋巴瘤和白血病数据集的公开可用的微阵列基因表达数据集。做多群分类投票方案然后用k (k−1)二进制svm。结果表明,基因选择的学习任务比其他三种方法表现良好。在所有三个数据集,svm获得很好的精度和很少数量的基因与以前公布的方法。
Huilin熊和陈Xue-Wen[3]表示,新方法称为核函数,提高了分类器的性能在基因数据。内核方法的效率一直在探索它取决于优化视内核模式。K-nearest-neighbor(资讯)和支持向量机(SVM)可以作为一个分类器的性能分析。数据集,利用ALL-AML白血病数据,Breast-ER, Breast-LN,结肠肿瘤数据,肺癌和前列腺癌的数据微阵列数据。内核优化方案被发现对基因表达数据进行分类。性能评估应用优化内核在分类时的基因表达数据。与资讯相比,支持向量机作为¢A€•oksvmA¢€–,优化内核提供了更好的精度。
l .沈和谭。[4]提出的惩罚逻辑回归分类癌症。美国惩罚逻辑回归和二维方法,以便减少分类精度和计算速度提高了。支持向量机和最小二乘回归是选择比较。调用的方法的递归特性消除(RFE)是用于迭代基因选择,试图选择一个最相关的癌症基因子集。七公开的数据集,如乳腺癌,中枢神经系统,结肠肿瘤,急性白血病、肺癌、卵巢癌和前列腺癌数据集被选为绩效评估[16]。线性支持向量机用于比较回归方法。两个软件包MATLAB的Schwaighofer被耿氏[18],另一个用于支持向量机实现。优秀的性能能够达到惩罚逻辑回归的组合,请。
本调查中使用系统的程序是:
冯朱棣文和脂肪王[19]提出了一个新颖的径向基函数(RBF)神经网络对癌症分类使用很少的基因的表达。这种技术被应用于三个数据集用于淋巴瘤的数据集,蓝色的小圆细胞肿瘤(SRBCT)的数据集,以及卵巢癌数据集。t检验评分法用于基因排名来衡量基因的区别的能力。只有9基因RBF神经网络用于淋巴瘤的数据。它还需要更少的SRBF和卵巢癌的基因数据。RBF只花了四个基因获得100%的准确率相比,通过使用48基因通过最近的萎缩的重心。因此,RBF神经网络消耗更少的基因以及它还降低了癌症的基因冗余分类使用微阵列数据相比最近的萎缩的重心。
张、黄、et al .,[5]提出了一个方法被誉为极端学习机(ELM) multicategory癌症分类算法在癌症诊断微阵列数据。这里使用的数据集是GCM数据集,肺的数据集,和淋巴瘤微阵列数据集的数据集。这些数据集的类别是53岁,分别为5和3。基因选择是由递归特性消除方法。5倍交叉验证已经完成并使用榆树验证精度计算。安性能比较的方法包括,君,和支持向量机算法。这个过程是在MATLAB环境中实现的。从榆树算法性能比较的结果,达到更好的分类精度与其他算法以及它的训练时间少,网络结构也非常小。
鲁伊·徐、Anagnostopoulos说道等[6]演示了一个标识符称为半监督椭球ARTMAP (SsEAM)多类癌症偏袒。的基因选择由粒子群优化已经完成。半监督等分类器椭球ARTMAP神经网络架构,是嵌入自适应共振理论。分类任务已经由聚类数据,是由于相同的类标签。进化算法PSO对全局优化技术用于指出是否指定的基因。本文使用的数据集是NC169数据来自国家癌症研究所[22],急性白血病数据和所有数据集。三个数据集分类精度一直是计算使用像SsEAM,并通过,安,LVQ1和资讯。PSO和费舍尔则基于分类器的一个基因的选择。与其他机器学习技术相比,与PSO SsEAM表现良好在所有这三个数据集的分类精度也不同,意义重大。
脂肪Wang Feng楚,et al .,[7]提出的方法对癌症分类使用一个表达式的基因。在这个过程中有两个步骤。第一个过程是重要的基因选择,这是通过使用gene-ranking方案。第二个是基因组合的分类精度进行了通过使用一个好的分类器。分而治之的方法是用来达到良好的精度。等评分法界、类可分性用于基因排序。实验数据集用于淋巴瘤数据,肝癌SRBCT数据,数据和GCM收集的数据从微阵列基因表达数据集,数据集包含一些缺失值,再由算法排除GCM数据集。这里使用的分类器是一个模糊神经网络和支持向量机(SVM)。首先我们需要将整个数据集划分为两个一个培训,其余部分用于测试,然后排名是由使用评分方案从排名最高的基因已经被选中后每个选定的基因数据集。通过一个接一个分类器。如果没有达到精度,然后下一个执行过程,是基因的组合。在这里交叉验证已经在训练数据上执行。从上面两个或三个基因组合计算基因使用交叉验证,然后输入到分类器直到达到良好的精度。 The result of all data set specifies that finding gene minimum gene selections for cancer classification provides very good classification accuracy as well as T-score and CS is the best approach for important gene selection.
王X和后藤O[8]提出的方法对癌症分类用单个基因微阵列基因表达分析的使用。基因的选择已经被使用了阶级歧视能力根据他们的依赖程度高的类。分类器是基于规则的基础由单个基因的选择。调用的方法基于粗糙集的软计算可用于癌症分类与单个基因。数据集如白血病、肺癌和前列腺癌的网站:http://datam.i2r.a-star.edu.sg/data/krbd/。之前做的基因选择和分类的数据预处理。在单一基因方法预测过程和结果很容易理解,因为这个模型是基于规则的评估与单个基因的帮助。该模型简单而有效,取得了更好的在所有的数据集分类精度比多基因模型。
锡宜挂[9]描述了一个叫做稀疏表示的新方法使用微阵列基因表达谱对癌症的诊断。稀疏表示可以收购L1-regularized最小二乘的使用。分类是通过为每个类别定义判别函数系数向量的分类。癌症诊断分析了铸造癌症的问题分类的稀疏表示测试数据作为训练数据的线性组合。使用支持向量机(SVM),这里使用的分类器性能的基础数据集是9 _tumors Brain_Tumor2。克鲁斯卡尔-沃利斯非参数单向方差分析(千瓦)和between-within类的平方和(BW)用于基因的选择。创建一个分类模型,通过使用的培训过程。数值实验缩进执行验证的新方法被称为基因表达数据的稀疏表示,与兼类svm相比。在MATLAB中实现R14的稀疏表示方法。支持向量机的结果计算了GSM宝石(基因表达模式选择器),分类数据的图形用户界面。这个免费软件可在http:// www.gemssystem.org/。 The SVM Method used are One Versus-Rest (OVR), One-Versus-One (OVO), Directed Acyclic Graph SVM (DAGSVM),all-at once method by Weston and Watkins (WW) , and all-at-once method by Crammer and Singer (CS) for computing the performance accuracy without gene selection. 9 human tumor types such as NSCLC, colon, breast, ovary, leukemia, renal, MCNS and Brain_Tumor2 contain 4 types of malignant glioma.These are classic glioblastomas, class drogliomas, non-classic glioblastomas, and nonclassic anaplastic oligodendrogliomas used as a data set in this experiment. Stratified 10-fold cross validation is utilized for performance evaluation. The result of sparse representation can be computed when KW and the Bw methods used for gene selection along with SVM result are also calculated by these 2 gene selection methods. When comparing, the new approach’s accuracy is akin to SVM result as well as there are no differences in gene selection, only partial improvement. Therefore the result shows that the sparse representation approach is similar to that of SVM performance.
Mallika Rangasamy和萨拉瓦南Venketraman[10]开发了一种新的算法被称为一个高效的基于统计模型的分类算法对癌症分类使用很少基因微基因表达数据。这个模型经典统计方法用于排名的目的基因和2各种分类器用于基因选择和预测。预计方法证明该电缆产生非常高的准确性使用很少的基因。本文利用一种淋巴瘤三项抗癌数据集;肝脏和白血病。这些数据集有一些缺失值,可以再由使用邻居(资讯)算法。基因选择的帮助下可进行方差分析,线性判别分析(LDA)和SVM-OAA RBF内核。线性判别分析(LDA)用于2类数据集如肝脏和白血病。
支持向量Machine-One-Against——所有(SVM-OAA)和线性判别分析(LDA)作为分类器的性能评估。数据集随机分为两个一个培训,另一部分用于测试和基因排名是方差分析假定值可以计算使用单向方差分析。顶级基因从排名中选择数据和基因组合。分类器训练使用所有可能的基因组合分类器是验证使用5倍或10倍交叉验证方法。最好的基因组合可以选择结果的准确性。与先前的结果相比榆树[5]SVM OAA达到最佳精度比LDA使用很少的基因。相同的分类器是用于白血病和肝癌基因选择和分类的数据集,提高了模型的强度。
王,X。,and Gotoh, et al., [11] screened high-class discriminative power and gene pairs utilized to create simple prediction models. These prediction models were used in single genes or gene pairs based on the soft computing approach and rough set theory for selecting single genes. The simple prediction models were applied to four these data sets such as CNS tumor, colon tumor, lung cancer and DLBCL.A rule base pipeline was used as a ruse based method to construct cancer predictors. Feature selection used an attribute depended degree from rough set theory and rule classifier was created by the use of selected genes. Using the attribute depended degree, some single genes or gene pairs can be detected. The algorithm was applied to the central nervous system (CNS) tumor, colon tumor, lung cancer, and diffuse large B-cell lymphoma (DLBCL) from Kent Ridge Bio-medical Dataset. Single genes are founded through the use of high-class discriminative power. Gene pair or a single gene builds four decision rules, which are used to execute prediction of cancer. The classifiers C4.5 and Naive Bayes are used to predict performance of the gene sets. The C4.5 and Naive Bayes result is compared with FCBF, CFSSF and ReliefF .The efficiency of this method can be validated with the use of Leave-one-out cross-validation (LOOCV). Cancer prediction using soft computing produces better results than the previously published results.
答:Bharathi Dr.A.M。Natarajan[12]提供了一个称为方差分析的基因选择的方案,用于发现的最小数量的基因微阵列基因表达,可用于癌症的分类。拟议中的等级方案称为2方差分析方法(方差分析)是用于重要基因的选择。分类可以通过使用众所周知的支持向量机等分类器。淋巴瘤数据集被用来证明了这种方法的有效性。如果所选数据包含缺失值或空单元条目,必须预处理。这项工作包含两个步骤。Step1基因是一个重要的选择使用一种称为方差分析的评分方案(方差分析)方法,然后顶部基因可以选择得分最高的价值排名数据。下一步是所有基因组合的分类功能,可以使用支持向量机执行的。选择基因放入分类器。 If no good accuracy is obtained ,it means classification is performed with a gene combination. Redundant can be handled by Principal Component Analysis (PCA) before using the SVM algorithm. The data set is divided into two parts by using a cross validation method such as 5 fold cross validation. One is used as a training data and remaining part is used as a testing data. For the purpose of cancer classification, finding minimum gene sets using ANOVA and CV are an efficient ranking method. The obtained results using ANOVA with SVM compared to the T - score method
r . Mallika,诉萨拉瓦南[13]定义了一个新方法对癌症分类使用很少基因的表达。该方法使用相同的选择和分类的分类器。这个方法使用了三个数据集如淋巴瘤、肝脏和白血病数据集从微阵列基因表达数据。与支持向量分类器machines-one对所有(SVM-OAA), K近邻(资讯)和线性判别分析(LDA)进行了比较。基因排序可以执行使用方差分析(方差分析)。它包括预处理等过程的基因表达数据,排名最高的基因选择、基因子集排名,基因组合,基因选择使用支持向量机和使用支持向量机分类,然而,LDA和最终测试数据可以预测。分类器是验证使用5折交叉验证(CV)技术。淋巴瘤分类器SVM-OAA表现良好的数据和资讯和SVM-OAA分类器产生相同的精度对肝脏和白血病数据。分类器SVM-OAA给更好的精度高于资讯和SVM-OAA分类器。
n Revathy和r . Amalraj[14]定义了一个新方法来处理微阵列数据对癌症分类。有几种方法可用于基因表达数据。最常用的方法是t指数和方差分析等。但这些不适合大型数据集。为了纠正这一问题作者提出了技术浓缩得分。这里使用的分类器是支持向量机(SVM)。数据集随机分为两个训练,另一个用于测试。分类器的训练数据。淋巴瘤的数据集用于性能演示。有两个过程一个基因排名由使用该方法称为浓缩得分。最高的基因可以选择从排名数据,这是传递到分类器。 If no good accuracy is attained, gene combination can be performed from the ranked data set. Again the combination of genes can be classified until good accuracy is achieved. The result can be evaluated with the use of SVM and the T - Score and SVM and Enrichment score. The performance accuracy and classification time can be compared with one another. The SVM with the enrichment score performed well with higher accuracy than the SVM with T-Score.
Santanu Ghorai、Anirban穆克吉等[15],提供非平行平面近端分类器(国家猪肉厂商)合奏癌症分类基于微阵列基因表达谱。混合CAD方法引入基于过滤器和包装方法。最小冗余最大相关性(MRMR)排名方法用于特征选择使用互信息最小基因选择标准。包装器方法应用于那些基因集,减少计算负担和非平行平面近端分类器(国家猪肉厂商)被选为包装器方法的一个组成部分。数据集利用ALL-AML,结肠癌,肺癌,乳腺癌,淋巴瘤、肝癌、前列腺癌的斯坦福微阵列数据库。淋巴瘤和肝癌的缺失值的数据集已经被使用再算法应用[24],评估性能数据集分为训练和测试数据和测试性能,提出了分类器是国家猪肉厂商在MATLAB中实现耿氏SVM工具箱[8]。基因选择和同步功能子集,由遗传算法和参数选择。国家猪肉厂商培训专家,同时功能基于遗传算法和模型选择方案是利用通过增加交叉验证的准确性。合奏的从属关系由独奏会选择训练模型的验证集。最小平均附近决策组合器开始用于分组国家猪肉厂商。混合决策的新方法对癌症的诊断与分类器相比是有预谋的,支持向量机(SVM)。 Experimental result on cancer datasets illustrates that nonparallel plane proximal classifier (NPPC) proffers enhanced accuracy comparable to that of the SVM classifier with reduced training time on average.
Zainuddin et al .,[27]给出了增强小波神经网络对早期癌症患者使用聚类算法分析。翻译参数是导致基于各种聚类算法,也就是说,k - means(公里),模糊c均值(FCM) symmetry-based k - means (SBKM) symmetry-based模糊c均值(SBFCM)和修改点symmetry-based k - means聚类算法(MPKM)。SRBCT亮氨酸等数据集,如果和中枢神经系统癌症发展的分类收集的使用微阵列基因表达数据[26]。t检验用于特征选择的基因微阵列数据集。最高的分类可以实现使用MPKM算法在所有三个数据集。实验结果表明,该分类器实现了卓越的准确性,范围从86%到100%。还用其他分类器的性能比较,表明,该建议的方法优于他们中的大多数。
微阵列数据分析是由Osareh et al .,[28]癌症分类。一个自动化系统开发一致的癌症分析基于微阵列基因表达数据。标识符命名为K最近的邻居,朴素贝叶斯、神经网络和决策树、支持向量机。微阵列数据集选择,包括二进制和参与癌症的问题。从实验的结果,最好的分类模型是使用支持向量机分类器捕获。
神灵et al .,[29]应用数据挖掘技术对癌症使用基因表达数据分类。从微阵列数据集特征选择进行了使用基于t -统计(t-GA)的遗传算法。使用decisionbased分类器应用于数据集。该方法提供了最高的精度比其他方法。结肠癌、白血病、淋巴瘤、肺癌和中枢神经系统(CNS)选择从文学。这些预处理使用min-max正常化的语法
W ' ij = W ij - min (W ij) / Max (W ij) - min (W ij)
这个T-GA的性能与以前相比基因选择方法,如遗传算法、t统计量、信息增益和GS。实验结果表明基于应用决策树时的分类器在所有这些数据集与评分方案,T-GA提供最高的精度比GA, t统计量,信息增益和GS。
Kai-Lin Tang魏佳姚明,et al .,[30]定义为癌症分类判别Kernel-PLS使用基因表达谱。的数据集,如急性白血病,前列腺癌和肺癌被使用NIPALS-KPLS测试方法。数据集分为训练和测试数据。内核矩阵制定培训和测试数据。内核函数命名为多项式,方差分析,Multi-polynomial和Poly-ANOVA用于创建内核矩阵。5-fold cross validation is used to verify the performance of the kernel functions by the DKPLS, Kernel selection based on alignment index and DFV classification accuracy is calculated. AI is used to measure the extent of matching between a kernel matrix and a target. DFV calculates the mean distance from each sample to other samples belonging to the same class. DFV and AI are found only for training data. The problem of over fitting can be avoided by concerning the second highest value with kernel function. Here, kernel matrix acts as an interface between the input and learning models, When compared with conventional method, the proposed method provides the prediction accuracy of 100% by the 1-ANOVA.
Manuel et al .,[31]提出一个内核对齐事例对癌症分类使用基因表达谱。k最近邻分类器已应用于癌症识别,从而获得更好的结果。然而,基于事例的性能取决于距离。本文学习的线性组合使用内核对齐算法不同。半定规划的方法可以利用优化误差函数,包含一个术语,处罚的复杂性的家庭距离避免过拟合。内核对齐k - NN表现良好与其他度量学习策略相比,提高了基于一个不同的经典事例。
金et al .,[32]提出了机器学习技术和卡方癌症分类特征选择使用圣人基因表达谱。最近发明的基因表达系列分析(SAGE)并发测量技术促进居民数以万计的基因的细胞。圣人比微阵列增强,圣人甚至可以检查已知和未知基因微阵列只能计称为基因。圣人基于基因表达分析的癌症分类更好因为癌症可能由于未知基因的数量。而一个广泛的各种各样的方法被应用到给出微阵列为基础的癌症分类与意向协议高维问题,卡方用于标记/基因的选择。二进制分类和multicategory分类调查。实验是人类SAGE数据集上执行两个:大脑和乳房。实验结果表明,支持向量机和朴素贝叶斯的超越圣人分类器使用卡方基因选择,比其他分类器探测可以提高性能。
Dimitris et al .,[33],解释医学诊断的基因表达分析系统。作者提出了新颖的系统医学诊断的分子水平信息。高维向量的基因表达式作为输入。数据预处理方法的多样化,如缺失值估计和数据标准化可以集成。预处理单元组织基因数据过渡到诊断单元,这是最重要的计划方法的处理单元。一个组合的基因选择方法诊断功能的支持。评估该系统的性能,三个数据集的数据集,如前列腺癌、结肠癌和肺癌被斯坦福大学微阵列数据库用于疾病诊断的一个实验。新颖的基于svm架构作为分类器在这个实验中。目标系统已经广泛的各式各样的获得测试数据集。作者显示它的独奏会对前列腺癌诊断和比较其性能与根深蒂固的多级分类系统。 The domino effect illustrate that the wished-for system could be attested a precious analytic assist in medicine.
王等人[34]承认全面Fuzzy-Based癌症基因表达微阵列数据分析的框架。fuzzy-based合奏模型和综合fuzzy-based框架对癌症分类提出了使用微阵列基因表达数据。癌症这个方法使用三个微阵列数据集,称为白血病癌症,结肠癌和淋巴瘤癌症数据集。当与其他传统的统计和机器学习模型相比,这里的方法,可以在癌症专业面对众多重要的磨难微阵列基因表达数据分析,计算高度相关的基因,高维度、高噪声数据。一种新颖的基于模糊系统是用于基因选择和使用微阵列基因表达数据分类。去噪合奏模型(NFE)使得基于模糊的系统更可行的微阵列基因资料。性能通过使用基于模糊系统是更可行的。
黄et al .,[35]建议的组织选择歧视基因微阵列基因表达数据为癌症的诊断。新的互信息(MI)的特征选择方法解决所谓的大p和小n问题技术在微阵列基因表达数据。最初,推出了基于网格的feature-clustering算法来消除多余的功能。一个巨大的基因集然后在一个有效的策略非常简略。因此,计算整个功能——分类过程的有效性在很大程度上得到了改善。其次,MI直可预测的二次MI的资源与密实度估计Parzen窗口。这个方法是赋予转达可靠的多米诺效应仍然只是一个小的先例套件时访问。,一个新的MI-based标准是非常计划避免多余的选择,有条不紊地结果。在最近,归因于MI的直接评估,适当的选择特征子集可以合理的困扰。
Ireaneus安娜Rejani等在[36]预测肿瘤发现乳房x光检查的做法。他们的策略关注两个磨难的结果。检测肿瘤可疑地区一个非常弱的对比他们的背景。特征提取,分类肿瘤。肿瘤检测方法跟踪系统(a)乳房x线照片增强(b)肿瘤的分割区域(c)方面的取出肿瘤分割区域(d) SVM分类器使用。升级是提高图像的修正案卓越和额外的理解梯队。乳房x光检查增加过程由筛分、上阀盖过程,DWT。那么不同延伸用来提升图像的差异。乳房x光图像的分割执行至关重要的功能来提高乳腺癌的检测和诊断。著名的阈值分割系统。 The features are extracted from the segmented breast area. After that, phase classifies the regions using the SVM classifier. The approach was tested on 75 mammographic images, from the mini-MIAS database. This approach acquired a sensitivity of 88.75%.
μ等在[37]预测系统适合v-SVM学习作为替代c-SVM学习乳腺癌检测,并执行v-SVM参数选择基座上的限制分析误差近似使用网格寻求确证没有必需的数据。一个行之有效的径向基函数网络(RBFN)的技术基础自组织聚类结果也被应用于改善检测只使用自组织映射的独奏会。评价这种新态度的音乐会威斯康辛诊断乳腺癌的数据集。实验监测表明,预期的方法重要的音乐会比现有的方法。
机器学习是人工智能(AI)的大树枝,利用各种统计、概率和优化系统,允许电脑一个¢€•learnA¢€–从过去的例子和检测很难辨别模式从大型,嘈杂的或复杂的数据集。因此,机器学习经常用于癌症诊断和检测。的研究工作在[38]Osareh et al,支持向量机,再邻居和概率神经网络分类器与信噪比特性有节的排名,顺序选取特征选择和主成分分析特征提取区分良性和恶性肿瘤的乳房。乳腺癌诊断的总体精度达到98.80%和96.33%,使用支持向量机分类器模型对两种广泛使用的乳腺癌基准数据集。

三世。方法

由于资源约束和论文本身的性质,本文的主要方法是通过调查领域的期刊和出版物的医学、计算机科学和工程学。研究集中在最近的出版物

第四,知识发现和数据挖掘

本节介绍知识发现和数据挖掘。我们列出了各种分析任务,可以发现过程和列表的目标方法和研究领域中有前途的解决这些分析任务。

知识发现过程

条款在数据库知识发现(KDD)和数据挖掘往往交替使用。知识发现(KDD)是一个过程,将底层数据变成高级的知识。因此,知识发现(KDD)是指非平凡的提取隐含的、未知的、潜在有用的信息从数据库中的数据。而数据挖掘和知识发现(KDD)通常作为等价的话说,但在真实的,数据挖掘是数据库知识发现(KDD)过程中迈出的重要一步
下面的图2显示了数据挖掘作为一个迭代的步骤的知识发现过程。
数据库中的知识发现过程包括几个步骤主要从原始数据收集到某种形式的新知识[2]。迭代过程包括以下步骤:
我)数据清洗:也称为数据清理。这是一个阶段的噪声数据和无关的数据从集合中删除。
ii)数据集成:在这个阶段,多个数据源,通常异构,可能结合在一个共同的来源。
iii)数据选择:在这个步骤中,相关的数据分析是决定从收集到的数据和检索。
iv)数据转换:也被称为数据整合,这是一个阶段,所选数据转化为形式适合挖掘过程。
v)数据挖掘:聪明的关键步骤技术应用于提取模式可能有用。
vi)模式的评估:这个步骤,严格有趣的图案象征着知识识别基于给定的措施。
七)知识表示:这是最后阶段的发现知识是视觉表现给用户。在这一步中可视化技术是用来帮助用户理解和解释数据挖掘结果。

b .数据挖掘过程

在KDD过程中,从数据中提取模式的数据挖掘方法。模式,可以发现取决于应用的数据挖掘任务。一般来说,有两种类型的数据挖掘任务:描述性的数据挖掘任务,描述现有数据的一般性质,和预测数据挖掘任务,尝试预测基于可用的数据。数据挖掘可以做在定量数据,文本或多媒体形式。数据挖掘应用程序可以使用不同的参数检查数据。它们包括协会(模式一个事件连接到另一个事件),序列或路径分析(模式一个事件导致另一个事件)、分类(识别预定义的目标)的新模式和集群(分组相同或相似的对象)。数据挖掘涉及以下一些关键步骤[3]
我)问题定义:第一步是确定目标。基于定义的目标,正确的一系列工具可以被应用到数据建立相应的行为模式。
ii)数据探索:如果数据的质量不适合一个精确的模型然后建议未来数据收集和存储策略可以在这个水平。进行分析,所有数据需要合并,这样就可以将持续治疗。
iii)数据准备:这一步的目的是清理和转换数据,这样失踪,无效值处理和所有已知的有效值为更健壮的分析一致。
(四)模型:基于数据和想要的结果,选择的数据挖掘算法或组合算法进行分析。这些算法包括古典等技术统计,社区和集群也下一代技术,如决策树,网络和基于规则的算法。具体算法是根据特定的目的,选择要分析的数据的质量。
v)评估和部署:基于数据挖掘算法的结果,进行分析,以确定关键结论分析和创建一系列的建议审议。

诉数据挖掘分类方法

数据挖掘的各种方法。不同用途的不同的方法,每个方法提供它自己的优点和缺点。然而,大多数常用的数据挖掘方法为本文的分类类别的应用预测技术将患者分配给一个一个¢€–benignA¢€–组,非癌变或一个¢€–malignantA¢€–组癌和生成规则相同。因此,癌症诊断问题基本上是在广泛讨论的范围分类问题
在数据挖掘中,分类是最重要的任务之一。它将数据映射到预定义的目标。这是一个监督学习目标是预定义的。分类的目的是建立一个分类器基于某些情况下一些属性来描述对象或一组属性描述的对象。然后,分类器是用来预测的新病例组属性域基于其他属性的值。数据挖掘分类任务的常用的方法可以分为以下组织[4]。

答:决策树(DT)

决策树是一个树,每个节点代表一个非终结符测试或决策的数据项。选择某一分支取决于测试的结果。分类一个特定的数据项,我们从根节点开始,遵循断言直到我们到达一个终端节点(或叶)。决定当一个终端节点isapproached。决策树也可以被理解为一种特殊形式的规则集,以他们的层次组织的规则。

支持向量机(SVM)

支持向量机(SVM)是一种算法,试图找到一个线性分离器(仿真)两类数据点之间的多维空间。支持向量机非常适合于处理功能和冗余功能之间的交互。

c .遗传算法(气)/进化编程(EP)

遗传算法和进化规划算法优化策略的启发原则中观察到的自然进化。一组潜在问题的解决方案,互相竞争,选择最好的解决方案,相互结合。在这一过程中,解集的一个预计,整个善良会变得越来越好,类似于人口的生物的进化过程。遗传算法和进化规划中使用数据挖掘来制定假设变量之间的依赖关系,关联规则或者其他形式的内部形式主义。

d .模糊集

模糊集的形式表示的一个关键方法和处理不确定性。不确定性的出现在许多形式在今天的数据库:不精确,非特异性、不一致、模糊性等。模糊集,试图利用不确定性系统的复杂性是可控的。因此,模糊集不仅构成一个强大的方法来处理不完整,嘈杂的或不精确的数据,但也可能是有用的在发展中不确定的模型数据,提供智能化和平滑的性能比传统的系统。
f .神经网络
神经网络(NN)这些系统模仿人类大脑的发展工作。作为人类的大脑由数以百万计的神经元突触,相互联系的神经网络是一组连接的输入/输出单元的每个连接都有一个与之关联的重量。网络学习在学习阶段,通过调整权重,能够正确预测类标签的输入。

g .粗糙集

粗糙集是由较低和上界的一组。每一个成员的下界是一组的某些成员。每一个非会员的上界是一定的非集合。粗糙集的上界是下界之间的联盟和所谓的边界地区。边界地区的成员可能是(但不是肯定)的成员集。因此,粗糙集可以被视为与三值隶属函数(是的,不,也许)。粗糙集是一种处理不确定性数据的数学概念。他们通常结合其他方法,如归纳法,分类或聚类方法。

VI。现有的癌症医院诊断系统

目前,癌症诊断系统在医院手册。例如,当一个病人登记他/她必须经过放射测试过程即x射线,CT或MRI。放射科医生给他的言论在测试报告。在这个过程中一个专家医生评论/ CT / MRI和x射线给了他的言论。雷竞技苹果下载在某些类型的癌症的诊断是基于最终决定医生如乳腺癌和肺癌,但在其他类型的癌症,如癌一些其他测试也需要像活组织检查。在手工系统中,放射科医生,医生诊断癌症。这个过程是缓慢的放射科医生检查后医生也要看给他/她的言论,最后告诉如果癌症存在与否。需要是自动化这个过程使癌症诊断有效和快速的使用最先进的技术。

在癌症诊断基因和它们的重要性

基因提供非常有价值的信息可用于深入研究任何疾病。研究基因的癌症病人帮助我们诊断癌症和区分类型的癌症。它还有助于分离病人的健康的人。基因包含无限模式不能使用显微镜手动记录。DNA微阵列是用于研究从基因获得的信息。

答:DNA微阵列

DNA微阵列是生物技术的最新形式。这些允许测量基因表达值同时从数百个基因。的一些应用领域从酵母DNA微阵列获取的基因值在不同的生态条件和研究基因表达值不同癌症类型的癌症患者。DNA微数组技术科学有巨大的潜力,因为他们可能是有用的基因相互作用和基因研究的规定。其他应用程序领域的DNA微阵列是临床研究和制药工业[1]。

B。从DNA微阵列数据检索

从DNA微阵列基因表达数据检索通过图像处理技术。单个基因的数据包括两个荧光的强度值即红色和绿色。这些强度代表表达水平在红色和绿色标记基因的信使rna样本。微阵列的图像扫描。这幅图像处理通过图像处理技术[1]。

C。图像处理

DNA微阵列扫描使用激光扫描仪和它的输出是存储为16位图像。DICOM图像格式。DICOM医学图像存储的标准。这张照片被认为是原始输入。为了测量准确记录财富,不同的图像处理方法[1]。扫描的图像处理的步骤从DNA微数组如下。

D。自动地址

从微阵列数据得到准确的强度值,我们需要确定每个基因点的地址/位置或位置。这被称为自动寻址和它用于分配点坐标。准确的识别点的位置是强制性的计算强度。

E.Segmentation

分割是一个分离的技术背景的兴趣点。它是用来获得基因的实际值从背景图像的斑点和区分。

F。强度提取

强度提取是图像处理中的一个重要步骤。测量强度的斑点,背景和质量测量完成这一步。

G.Signal

像素强度的总和在一个特定的点称为信号。集体的cDNA杂化标记DNA序列是由这个和表示。

七世。分析

答:卵巢癌

162癌症和91正常样本随机形成的训练和测试样本。训练样本由90癌症和45正常样本。16个数据子集的1000个基因是卵巢癌训练数据集的制定。DT算法产生最大、平均和最小分类精度为96.30%,80.69%,和62.22%,分别。独立GA-CFS算法应用到每个数据集来衡量每个基因的贡献。GA-CFS算法重要基因的数量减少了90.68%。重要基因的数量超过1000,GA-CFS算法重新应用,从而进一步减少重要基因的数量增加88.32%。最后一组重要的基因包含167个基因。一个训练数据集,使用各种数据挖掘算法分析了167个基因(10倍交叉验证)。装袋和SVM算法提供了一个类似的分类精度97.04%,DT的分类精度达到96.30%。 The above algorithms produced approximately one to four classification errors in 135 samples. Also, the Phase II training classification accuracy increased by 15.61% as compared to the average classification accuracy of Phase I. The Phase II training classification accuracy was equivalent to the maximum classification accuracy of Phase I, indicating that there was retention of knowledge while pruning the noisy uninformative genes.
训练样本被用来提取知识,测试数据集上进行了癌症和46个正常样本(72)。知识从DT算法测试分类精度为94.07%,而支持向量机和叠加算法测试分类精度为97.46%,72年癌症没有误分类测试样品。因此产生的知识DT,装袋,叠加和SVM算法代表最重要的基因能够成功识别卵巢癌样本。

b .前列腺癌

如卵巢癌、13个数据子集的1000个基因从前列腺癌制定训练数据集(50正常和52个浮夸的样本)。DT算法产生最大、平均和最小分类精度为87.25%,分别为75.79%和66.67%)。独立GA-CFS算法应用到每个数据集来衡量个体基因的贡献。GA-CFS算法重要基因的数量减少了96.10%,至491个基因。选择基因的质量进行了分析通过应用各种数据挖掘算法(10倍交叉验证)的训练数据集。最好的性能是通过SVM算法和包装技术与96%和92% 50个肿瘤样本分类精度。知识提取的训练数据集被用来预测的结果生成的测试数据集。知识的数据挖掘算法是不足以正确预测测试样品(25浮夸的9正常),作为测试样本显著不同的训练样本(参见1.1节)。对所有分类精度最高的67.65%是通过支持向量机算法。还所有九个正常测试样本正确识别。
因此产生的知识DT,装袋,从训练数据集和支持向量机算法是最重要的基因可以成功检测前列腺癌。规则的分析鉴定了22中列出最重要的基因。五个基因出现在一个以上的规则。

c .肺癌

在第一阶段的分析,训练数据集(16 MPM和16 ADCA样本)划分为12个数据子集,每1000个基因。DT算法应用于每个分区数据集。它产生最大,平均和最小分类精度为96.88%,85.68%,和62.50%,分别。两个(即基因集。,01001_0200) were able to correctly classify all the 16 ADCA training samples. The GA–CFS algorithm was independently applied to each data set to measure the contribution of each individual gene. The GA–CFS algorithm reduced the number of significant genes from the original 12,000 genes to 622 genes, a 94.82% reduction. In Phase II, the quality of the 622 significant genes was analyzed by applying various data-mining algorithms (with a 10-fold crossvalidation) to the training data set. The DT algorithm had the worst performance with a classification accuracy of 78%, while the best performance was achieved by the SVM algorithm and bagging techniques (100% classification accuracy). They were able to correctly classify both MPM and ADCA training samples without errors. Higher training classification accuracy can lead to overfitting the data. To check this, knowledge extracted from the training data set was used to predict the test samples (15 MPM and 134 ADCA). Knowledge from the DT algorithm had a testing classification accuracy of 81.88%, while the SVM algorithm had a testing classification accuracy of 98.66% with no misclassification for the 15 MPM test samples. Thus, the knowledge generated by the DT, bagging, and SVM algorithms represents the most significant genes that can successfully classify the lung cancer type, i.e., MPM or ADCA.

八世。结论

本文提供了各种技术的研究和审查论文癌症诊断和预后问题,探讨了数据挖掘技术,提供巨大的希望揭露隐藏在数据的模式,可以帮助临床医生的决策。从以上研究可以看出诊断的准确性分析各种应用数据挖掘分类技术是高度可接受的和可以帮助医疗专业人员在早期诊断决策,避免活检。预后问题主要是在分析人工神经网络相比,其准确性更高的其他分类技术申请相同。但更有效的模型也可以提供预后问题像继承定义的最好特性模型。在这两种情况下我们可以说最好的模型建立后可以获得不同类型的模型,或者尝试不同的技术和算法。癌症分类是生物信息学领域的一个新兴研究领域。在这个调查中,一些数据挖掘和机器学习算法为基础的基因选择和癌症分类详细讨论了。许多方法如再邻居,神经网络,最近的萎缩重心,逻辑回归和支持向量机(SVM)等也进行了研究。

数据乍一看

图1 图2 图3
图1 图2 图3

引用