关键字 |
数据挖掘、降维特征选择 |
介绍 |
数据挖掘(DM)是一个过程,寻找未知的信息从大量的数据库中。其他条款进行类似的数据挖掘的意义,从数据库中是知识挖掘、知识提取、数据或模式分析,数据考古学,和数据挖掘。它预测未来趋势,行为和知识决定。发现有用的知识,应该是预处理的数据。数据预处理是数据挖掘中的一个重要技术纠正错误数据在数据集[1]。数据集包含高维度的数据,由于数据挖掘算法的性能会退化。高维度问题是解决使用一个重要的技术称为降维(博士)。 |
降维 |
在许多实际应用中,使用大量特性,试图确保准确的分类。如果所有这些特性用于建立分类器,然后他们在高维度、学习过程变得复杂,从而导致高分类错误。因此,有必要降低特征空间的维数之前的分类。博士的主要目的是将高维数据样本的低维空间中包含这样的内在信息数据保存。一旦维数减少,这有助于提高分类器的鲁棒性,它减少了计算复杂度[2]。根据策略采用降维技术分为特征选择和特征提取[3]。 |
特征提取 |
特征提取技术用于提取新功能从原来的特性集的一个子集的一些功能性映射通过保持尽可能多的信息的数据。下列方法通常用于特征提取[4]。 |
主成分分析 |
主成分分析(PCA)是最受欢迎的统计方法。该方法提取低维空间通过分析多元统计的协方差结构观测[3]。PCA变换矩阵的计算给药 |
(1) |
在哪里 |
n是实例的数量 |
Y我是第i个实例 |
m是均值向量的输入数据 |
线性判别分析 |
线性判别分析(LDA)技术主要项目高维数据到低维空间。LDA旨在最大化类间距离和减少在类距离dimensionalityreduced空间[3]。LDA计算 |
(2) |
在哪里 |
年代b是类间的矩阵 |
年代w是在类矩阵 |
|
在那里, |
X我我是指数组th类 |
c我是我的平均向量th类。 |
相关工作特征提取技术 |
在这一节中列出了一些基本的贡献提高分类精度通过提取最相关的一组新特性。 |
托马斯Kajdanowicz等。[5]开发了一种新的特征提取方法。在这个新特性计算方法结合网络结构信息和类标签。这种方法能够提取重要特征和显示小提高分类精度。 |
穆罕默德等。[6]研究了现有的特征提取方法和他们发现现有方法无法找到重要的特性。因此他们开发了一种多层次的方法用于提取最重要的特性。在这种方法中使用二进制语法方法在第一级和第二级统计方法应用于提取最相关的特征。 |
Pechenizkiy等。[7]考虑三种不同的基于特征的特征提取方法。其中他们建议提取最佳特性的一个重要方法。他们设计了一个决策支持系统也使用建议的特征提取方法分类精度的改善。 |
Veerabhadrappa和Lalitha Rangarajan周二[8]设计了一个混合的方法提取特征。在这个方法中他们使用多级过程提取重要特征。在第一级他们使用统计方法来提取最好的特性和二级他们分析了个体的质量特征提取的第一级。最后,基于质量特性测量的最佳特征提取。 |
Suganya等。[9]开发了一种新的算法来提取相关特性和提高分类精度。在这个算法采用称为基于聚类的特征提取的新方法。最相关的特征提取使用监督聚类算法。该算法使用概率密度函数作为衡量。 |
因此,该算法有效地提取最重要的特征,显示了一个轻微的改善分类精度。 |
花岩王et al。[10]设计的一种新方法提取有效的特征成分数据。在此方法中引入了一个家庭的博士预测,保留所有相关约束,然后发现最大化的最优投影估计狄利克雷对投影数据精度。这种方法提取有效特征通过减少维度,提高了分类精度。 |
黄平君Vu Nguyen et al。[11]分析了现有的特征提取技术,他们发现许多缺点提取最有效的特征。因此,他们开发了一个名为/降维特征提取的新方法用于异常检测(卓特)。在这种方法中他们主要集中的异常数据,提取最相关的特征。进一步加权调整散射矩阵是用来提取有效的特征。这种方法主要用于检测离群值和提取的最佳特性。 |
Nojun夸克[12]开发了一种新方法来提取的最佳特性,通过分析现有特征提取方法和主成分分析(PCA)一样,线性判别分析(LDA),和独立分量分析(ICA)等。这三种方法搜索一组线性组合的原始特性,与输出类的互信息最大化。之间的互信息特征提取和输出类计算通过使用概率密度估计方法基于Parzen窗口。一个贪婪算法采用梯度下降法被用来确定新特性。因此,这种方法有效地提取一组新的新特性,提高了分类精度。 |
许多数据挖掘应用程序生成的数据集的小样本大小和很难执行分析。因此,Sitanshu Sekhar Sahu等人设计了一种新的混合特征提取方法。在这种方法中他们使用f值提取最有效的特征与少量的数据[13] |
穆罕默德法赫德Shinwari等。[14]研究了各种特征提取方法和发现方法无法提取最相关的特征,决定开发一个新的框架,它有助于提取重要特征。在这个框架中,他们使用两个重要统计措施即线性判别分析和互相关来提取特征。这个框架有效地提取的新功能。获得新的特性显示了提高了分类精度。 |
Gladis Pushpa Rathi和蒂[15]使用最常见的特征提取技术提取特征。在他们的研究中他们用PCA和LDA提取最相关的特性。这组新获得的特性应用于支持向量机(SVM)分类器和它显示提高分类精度。 |
Sandya等。[16]使用模糊逻辑开发了一种新的特征提取方法。在这种方法中模糊系统生成模糊评分。这个分数是用来提取最相关的特征。他们发现这种方法提取有效特征,显示了更好的分类精度。 |
结论 |
本文进行了一项调查来有效地提取的新功能。讨论了许多不同的研究人员提出的特征提取算法和现有算法中确定的问题。因此,未来的工作是克服问题,提出一种新的特征提取算法提取的新功能和提高分类精度。 |
|
引用 |
- RanshulChaudhary Prabhdeep辛格,拉吉夫•马哈在数据挖掘的一项调查技术、国际先进研究期刊》的研究inComputer和通信工程、卷3,问题1,2014,页5002 - 5003。
- AlirezaSarveniazi,降维的实际调查美国计算数学杂志》,第4卷,2014年,55 - 72页。
- 丹尼尔·恩格尔Lars Huttenberger贝恩德•哈曼,高的降维方法的调查维数据分析andVisualization信号激飞,2014年,页1 - 16。
- 哈立德,萨米娜,哈利勒Tehmina NasreenShamila,特征选择和特征提取技术的调查在机器学习IEEE科学和信息发布会上,2014年,页372 - 378。
- 托马斯Kajdanowicz、PrzemyslawKazienko PiotrDoskocz,Label-Dependent特征提取在社交网络节点分类在计算机科学中,课堂笔记(Springer), 6430卷,2010,pp.89 - 102。
- 默罕默德·m·马苏德•汗Latifur BhavaniThuraisingham,一个可伸缩的多层次特征提取技术来检测maliciousexecutable在计算机科学中,课堂笔记(Springer), 10卷,2008年,页33-45。
- m . Pechenizkiy s Puuronen a . Tsymbal分类在数据挖掘过程中特征提取国际期刊“信息理论与应用”,10卷,2008年,页271 - 278。
- Veerabhadrappa, LalithaRangarajan多层次的降维方法,使用特征选择和特征提取国际人工智能杂志&应用,卷1,4,2010年,54 - 68页。
- Suganya。D Kowshika.A增强开采使用有效的高维数据聚类算法、国际期刊AdvancedResearch在计算机科学和软件工程,3卷,12个问题,2013年,页1094 - 1096。
- 花岩Wang QiangYang,秦、HongbinZha狄利克雷成分分析:成分数据的特征提取InternationalConference机器学习,2008年,pp.20-28。
- 黄平君Vu Nguyen VivekanandGopalkrishnan,对孤立点检测的特征提取在高维空间中MachineLearning研究期刊》的研究,10卷,问题2,2010年,页252 - 262。
- NojunKwak,特征提取是基于互信息的直接计算国际杂志的模式识别和ArtificialIntelligence卷21日7号,2007年,页1213 - 1231。
- RamchandraBarik SitanshuSekharSahu,甘尼萨的熊猫,混合的特征提取方法对肿瘤分类UsingMicroarray基因表达数据国际计算机科学与信息》杂志上,卷1,问题1,2011,pp。22日至26日进行的。
- 穆罕默德•FahadShinwari Naveed Ahmed Hassan Humayun IhsanulHaq, SajjadHaider AtiqulAnam,分类算法forFeature提取心电图上使用线性判别分析和互相关信号,国际先进的科技杂志,体积48岁,2012年,页149 - 161。
- V.P.GladisPushpaRathi Dr.S.Palani,一个新颖的方法进行特征提取和选择对脑部肿瘤的MRI图像分类国际计算机科学与信息技术杂志》上,卷2,问题1,2012,页225 - 234。
- Sandya h . B。,Hemanth Kumar P. , HimanshiBhudiraja, Susham K. Rao,基于模糊规则的特征提取和分类、国际杂志的软计算和工程、卷3,问题2,2013,pp。42-47。
|