所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

一项调查显示特征提取技术

n Elavarasan1K.Mani博士2
  1. 计算机科学部门,研究学者尼赫鲁大学纪念,Puthanampatti Trichy、印度
  2. 计算机科学副教授,部门,尼赫鲁大学纪念,Puthanampatti Trichy、印度
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

数据挖掘(DM)技术能够处理大量的数据。数据挖掘应用程序包含高维度的数据集。由于高维度、机器学习算法的性能退化,这问题解决了使用一种降维技术(博士)。博士是一个重要的预处理技术在DM减少高维度。特征提取是一个重要的技术在提取博士最重要的特性。这个调查的目的是提供一个全面审查各种特征提取方法来提高分类精度。本文给出了视图的各种特征提取技术用于崭露头角的研究者。

关键字

数据挖掘、降维特征选择

介绍

数据挖掘(DM)是一个过程,寻找未知的信息从大量的数据库中。其他条款进行类似的数据挖掘的意义,从数据库中是知识挖掘、知识提取、数据或模式分析,数据考古学,和数据挖掘。它预测未来趋势,行为和知识决定。发现有用的知识,应该是预处理的数据。数据预处理是数据挖掘中的一个重要技术纠正错误数据在数据集[1]。数据集包含高维度的数据,由于数据挖掘算法的性能会退化。高维度问题是解决使用一个重要的技术称为降维(博士)。

降维

在许多实际应用中,使用大量特性,试图确保准确的分类。如果所有这些特性用于建立分类器,然后他们在高维度、学习过程变得复杂,从而导致高分类错误。因此,有必要降低特征空间的维数之前的分类。博士的主要目的是将高维数据样本的低维空间中包含这样的内在信息数据保存。一旦维数减少,这有助于提高分类器的鲁棒性,它减少了计算复杂度[2]。根据策略采用降维技术分为特征选择和特征提取[3]。

特征提取

特征提取技术用于提取新功能从原来的特性集的一个子集的一些功能性映射通过保持尽可能多的信息的数据。下列方法通常用于特征提取[4]。

主成分分析

主成分分析(PCA)是最受欢迎的统计方法。该方法提取低维空间通过分析多元统计的协方差结构观测[3]。PCA变换矩阵的计算给药
图像(1)
在哪里
n是实例的数量
Y是第i个实例
m是均值向量的输入数据

线性判别分析

线性判别分析(LDA)技术主要项目高维数据到低维空间。LDA旨在最大化类间距离和减少在类距离dimensionalityreduced空间[3]。LDA计算
图像(2)
在哪里
年代b是类间的矩阵
年代w是在类矩阵
图像
在那里,
X我是指数组th
c是我的平均向量th类。

相关工作特征提取技术

在这一节中列出了一些基本的贡献提高分类精度通过提取最相关的一组新特性。
托马斯Kajdanowicz等。[5]开发了一种新的特征提取方法。在这个新特性计算方法结合网络结构信息和类标签。这种方法能够提取重要特征和显示小提高分类精度。
穆罕默德等。[6]研究了现有的特征提取方法和他们发现现有方法无法找到重要的特性。因此他们开发了一种多层次的方法用于提取最重要的特性。在这种方法中使用二进制语法方法在第一级和第二级统计方法应用于提取最相关的特征。
Pechenizkiy等。[7]考虑三种不同的基于特征的特征提取方法。其中他们建议提取最佳特性的一个重要方法。他们设计了一个决策支持系统也使用建议的特征提取方法分类精度的改善。
Veerabhadrappa和Lalitha Rangarajan周二[8]设计了一个混合的方法提取特征。在这个方法中他们使用多级过程提取重要特征。在第一级他们使用统计方法来提取最好的特性和二级他们分析了个体的质量特征提取的第一级。最后,基于质量特性测量的最佳特征提取。
Suganya等。[9]开发了一种新的算法来提取相关特性和提高分类精度。在这个算法采用称为基于聚类的特征提取的新方法。最相关的特征提取使用监督聚类算法。该算法使用概率密度函数作为衡量。
因此,该算法有效地提取最重要的特征,显示了一个轻微的改善分类精度。
花岩王et al。[10]设计的一种新方法提取有效的特征成分数据。在此方法中引入了一个家庭的博士预测,保留所有相关约束,然后发现最大化的最优投影估计狄利克雷对投影数据精度。这种方法提取有效特征通过减少维度,提高了分类精度。
黄平君Vu Nguyen et al。[11]分析了现有的特征提取技术,他们发现许多缺点提取最有效的特征。因此,他们开发了一个名为/降维特征提取的新方法用于异常检测(卓特)。在这种方法中他们主要集中的异常数据,提取最相关的特征。进一步加权调整散射矩阵是用来提取有效的特征。这种方法主要用于检测离群值和提取的最佳特性。
Nojun夸克[12]开发了一种新方法来提取的最佳特性,通过分析现有特征提取方法和主成分分析(PCA)一样,线性判别分析(LDA),和独立分量分析(ICA)等。这三种方法搜索一组线性组合的原始特性,与输出类的互信息最大化。之间的互信息特征提取和输出类计算通过使用概率密度估计方法基于Parzen窗口。一个贪婪算法采用梯度下降法被用来确定新特性。因此,这种方法有效地提取一组新的新特性,提高了分类精度。
许多数据挖掘应用程序生成的数据集的小样本大小和很难执行分析。因此,Sitanshu Sekhar Sahu等人设计了一种新的混合特征提取方法。在这种方法中他们使用f值提取最有效的特征与少量的数据[13]
穆罕默德法赫德Shinwari等。[14]研究了各种特征提取方法和发现方法无法提取最相关的特征,决定开发一个新的框架,它有助于提取重要特征。在这个框架中,他们使用两个重要统计措施即线性判别分析和互相关来提取特征。这个框架有效地提取的新功能。获得新的特性显示了提高了分类精度。
Gladis Pushpa Rathi和蒂[15]使用最常见的特征提取技术提取特征。在他们的研究中他们用PCA和LDA提取最相关的特性。这组新获得的特性应用于支持向量机(SVM)分类器和它显示提高分类精度。
Sandya等。[16]使用模糊逻辑开发了一种新的特征提取方法。在这种方法中模糊系统生成模糊评分。这个分数是用来提取最相关的特征。他们发现这种方法提取有效特征,显示了更好的分类精度。

结论

本文进行了一项调查来有效地提取的新功能。讨论了许多不同的研究人员提出的特征提取算法和现有算法中确定的问题。因此,未来的工作是克服问题,提出一种新的特征提取算法提取的新功能和提高分类精度。

引用

















全球技术峰会