所有提交的EM系统将被重定向到网上投稿系统.作者被要求将文章直接提交给网上投稿系统各自的日志。

特征选择的先进算法比较分析

库马拉斯Senapathi1,卡纳克斯瓦里D2Ravi Bhushan Yadlapalli3.
  1. 印度维萨卡帕特南拉古理工学院CSE系助理教授
  2. 印度维萨卡帕特南拉古工程学院CSE系助理教授
  3. 印度安得拉邦维杰亚瓦达普拉加蒂工程学院助理教授
有关文章载于Pubmed谷歌学者

更多相关文章请访问国际电气、电子和仪器工程高级研究杂志

摘要

特征选择是从大维数据中识别出子集数据的预处理过程。为了识别所需的数据,使用一些特征选择算法。像ReliefF, Parzen-ReliefF算法一样,它试图直接最大化分类精度,自然地反映目标中的贝叶斯误差。提出的算法框架通过最小化非参数估计器估计的贝叶斯错误率来选择特征子集。从这个框架可以很自然地推导出一组现有算法和一组新的算法。作为一个例子,我们展示了Relief算法贪婪地试图最小化由k-Nearest-Neighbor (kNN)方法估计的贝叶斯误差。这种新的解释深刻地揭示了基于边缘的特征选择算法家族背后的秘密,也提供了一种有原则的方法来建立新的性能改进替代方案。特别地,我们利用所提出的框架,建立了基于Parzen窗口估计器的Parzen- relief (PRelief)算法。RELIEF算法是一种常用的特征权重估计方法。对RELIEF算法进行了许多扩展。 Because of the randomicity and the uncertainty of the instances used for calculating the feature weight vector in the RELEIF algorithm, the results will fluctuate with the instances, which lead to poor evaluation accuracy. To solve this problem, a feature selection algorithm parzen+reliefF based algorithm is proposed. It takes both the mean and the variance of the discrimination among instances and weights into account as the criterion of feature weight estimation, which makes the result more stable and accurate. And the main idea is how to estimate the performance of the both algorithms, for this we are using two algorithms for calculating the quality of the generated out puts. They are Leader and sub-leader algorithm and Davies– Bouldin index (DBI) algorithm. Both are clustering algorithms. Which are used for knowing the cluster quality and cluster similarity.

关键字

特征选择;Knn, Parzen, ReliefF

介绍

Gauthier et.al[1]在“Risk Estimation and Feature Selection”中说,对于分类问题,风险往往是最终要最小化的标准。因此,在特征选择中,自然可以用它来评估特征子集的质量。然而,在实践中,错误的概率往往是未知的,必须估计。此外,互信息通常被用作评估特征子集质量的标准,因为它可以被视为风险的不完美代理,并且可以可靠地估计。本文提出了利用Kozachenko-Leonenko概率密度估计器估计风险的两种不同方法。所得到的估计量在特征选择问题上与基于相同密度估计量的互信息估计量进行了比较。沿着我们之前的工作路线,实验表明,使用风险或互信息的估计量可以得到类似的结果。
G. Holmes et.al[2]解释说,为了使用对真实世界数据集的监督学习来获得有用的结果,有必要执行特征子集选择,并使用从最相关的特征中计算出的聚合来执行许多实验。因此,重要的是寻找快速准确工作的选择算法,以便这些实验可以在合理的时间长度内执行,最好是交互式的。本文提出了一种方法,使用一种非常简单的算法来实现这一目标,该算法在不同的监督学习方案中具有良好的性能,并且与最常用的特征子集选择方法之一相比。特征子集选择通常是针对某种形式的目标函数来实现的。在我们的例子中,我们选择分类精度作为目标函数;我们的目标是在减少原始数据集中特征数量的同时提高(或不显著降低)分类精度。目标函数被搜索策略用来寻找“最佳”子集。如果有d个特征,那么所有可能特征的搜索空间大小为2d。穷尽地搜索这个空间是不实际的,因此使用某种形式的爬坡或优化技术来指导搜索。使用非穷举搜索策略找到的子集并不能保证找到最优解,这就是找到“最佳”子集的意义。 It is the search strategy that accounts for the cost of performing feature subset selection. This cost and the accuracy of the resulting subset of features are useful measures for comparing the performance of different algorithms.
peng - fezhu等人在[3]中提到,Feature selection被视为模式识别、机器学习和数据挖掘的重要预处理步骤。该方法用于寻找最优子集,以减少计算量,提高分类精度,提高结果的可理解性。本文介绍了一种加权远程学习方法,利用梯度下降算法来最小化遗漏分类误差。利用学习到的权重来评估特征的质量,权重较大的特征被认为是有用的分类特征。实验分析表明,该方法比现有方法具有更好的性能。提出了一种通过最小化误分类概率的遗漏神经网络误差估计来进行最近邻分类的特征选择技术,称为MLOONNE。分类错误率测量被称为“包装器方法”,它们被用于。分类误差与分类器的预测准确率有一定的关系,分类器的预测准确率与错误率之和为1,常被用作验证标准。Roberto和Enrique使用模糊sigmoid函数近似阶跃函数,使无遗漏(LOO)神经网络误差估计连续进行优化。在我们的工作中,我们使用LOONN误差估计作为评估函数,并使用梯度体面算法得到特征的权重向量。然后根据学习到的权重向量对特征进行排序,权重越大的特征对分类越有用。 In essence, we aim to find an optimal feature space in which we can obtain the least LOO NN error estimation, which means the improvement of the overall accuracy and dimension reduction. It is obvious that the proposed technique is one of the filter methods.
Yuxuan SUN等人在[4]中提出的RELIEF算法是一种流行的特征权重估计方法。对RELIEF算法进行了扩展。然而,原始RELIEF算法的一个本质缺陷多年来一直被忽视。在RELEIF算法中,由于计算特征权重向量的实例具有随机性和不确定性,计算结果会随着实例的变化而波动,导致评估精度较差。为了解决这一问题,提出了一种基于均值-方差模型的特征选择算法。该方法同时考虑了实例间判别的均值和方差作为特征权重估计的准则,使结果更加稳定和准确。基于地面目标真实地震信号的实验结果表明,该算法生成的特征子集具有较好的性能。作为任何特征选择方法的一部分,有几个因素需要考虑,其中最重要的是:估计度量和搜索策略。

特征选择

这种基于非参数的聚类验证的判别特征选择方法适用于数据集预处理技术,以减少属性数量或样例数量,从而降低计算时间成本。这些预处理技术从根本上面向以下两个目标:特征选择(消除不相关的属性)和编辑(通过消除一些示例或计算原型类型来减少示例的数量)。我们的算法属于第一组。从方法输出的角度来看,特征选择方法可以分为两类。一类是根据相同的评价标准对特征进行排序;另一个是选择满足评估标准的最小特征集。
在这项工作中,我们使用判别最优准则(DOC), DOC在实际应用中具有优势,因为它试图直接最大化分类精度,并自然地反映目标中的贝叶斯误差。为了使DoC在计算上易于处理实际任务,我们提出了一种算法框架,通过最小化非参数估计器估计的贝叶斯错误率来选择特征子集。从这个框架可以很自然地推导出一组现有算法和一组新的算法。作为一个例子,我们展示了Relief算法贪婪地试图最小化由k-最近邻(kNN)方法估计的贝叶斯误差。这种新的解释深刻地揭示了基于边缘的特征选择算法家族背后的秘密,也提供了一种有原则的方法来建立新的性能改进替代方案。特别地,通过利用所提出的框架,我们建立了基于Parzen窗口估计器的Parzen- relief (P-Relief)算法,以及将标签分布集成到max-margin目标中的MAP-Relief (M-Relief)算法,以有效地处理不平衡和多类数据。
特征选择是模式识别和机器学习中的一个重要问题,它可以帮助我们将分类算法的注意力集中在那些与预测类最相关的特征上。从理论上讲,如果知道完整的统计分布,使用更多的特征可以改善结果。然而,在实际应用中,大量的特征作为归纳算法的输入,会导致归纳算法作为内存和时间的消耗者效率低下。此外,不相关的特征可能会混淆算法,从而得出错误的结论,从而产生更糟糕的结果。因此,在预处理步骤中选择相关且必要的特征是至关重要的。显然,使用特征选择的优点可能是提高可理解性和降低数据采集和处理的成本。由于这些优点,特征选择在机器学习、人工智能和数据挖掘领域引起了广泛关注。作为任何特征选择方法的一部分,有几个因素需要考虑,其中最重要的是:估计度量和搜索策略。
典型的评估方法可以分为:过滤器和包装器。基于过滤器的特征选择方法通常比基于包装器的方法更快。RELIEF算法是一种基于滤波器的特征选择方法,是一种有效、简单、应用广泛的特征权重估计方法。测量向量的特征权重是根据特征相关性来定义的。中,对RELIEF进行了概率解释,其中指出,一个特征的学习权重是两个条件概率之间的差。这两种概率分别是一个特征的值因给定的最近未命中和最近命中而不同。因此,由于最近邻分类器的反馈,RELIEF通常比其他基于滤波器的方法表现更好;
此外,RELIEF通常比包装器方法更有效,因为RELIEF通过解决凸优化问题来确定特征权重。但是,RELIEF算法有一个比较明显的缺陷,即特征权重可能随着实例的变化而波动。在大多数情况下,获得的实例是随机的。此外,根据RELIEF算法,采样频率也具有不确定性。因此,RELIEF算法是不稳定的,降低了预期结果的准确性。本文提出了一种新的基于均值-方差模型的地形特征选择算法。将样本判别的均值和方差作为特征权值估计的准则。这样,结果更加稳定和准确。最后,对地面目标的真实地震信号进行了实验,实验结果表明,该算法生成的特征子集具有较好的性能。

RELEIF-F算法

提出的算法结构
原始浮雕可以处理标称属性和数值属性。然而,它不能处理不完整的数据,并且仅限于两类问题。它的扩展,解决这些和其他问题,被称为ReliefF。ReliefF (Relief-F)算法不局限于两类问题,具有更强的鲁棒性,可以处理不完整和有噪声的数据。类似于解脱,ReliefF随机选择一个实例Ri(第3行),然后搜索k最近的邻国从同一个类,叫做最近的热门Hj(4号线)、k最近的邻居也从每一个不同的类,叫做最近的失误乔丹(C)(5和6行)。它更新质量估计W(一)为所有属性取决于他们的Ri值,点击Hj和错过乔丹(C)(7、8和9行)。更新公式类似于救济(5和6在图1行),除了我们平均所有命中和未命中的贡献。每一类失误的贡献用该类P(C)的先验概率加权(从训练集估计)。因为我们希望在每一步中命中和未命中的贡献是[0;1],并且是对称的(我们将在下面解释原因),所以我们必须确保未命中的概率权重之和为1。由于命中类别在总和中缺失,我们必须将每个概率权重除以因子1 ×(类(Ri))(它表示未命中类别的概率之和)。该过程重复m次。 Selection of k hits and misses is the basic difference to Relief and ensures greater robustness of the algorithm concerning noise. User defined parameter k controls the locality of the estimates. For most purposes it can be safely set to 10. To deal with incomplete data we change the diff function. Missing values of attributes are treated probabilistically.
算法表示
输入:对于每个训练实例,一个属性值和类值的向量
输出:属性质量估计的向量w。
1.设置所有权重w[A]:=0.0;
2.从i:=1到m开始
3.随机选择一个实例;
4.找到k个最近的点
5.为每个类C类()做
6.从C类中找到k个最近的缺失点(C);
7.对于A:=1到A
图像
贝叶斯误差估计
贝叶斯估计是统计推理问题的一个框架。在从相关观测信号中预测或估计随机过程时,贝叶斯哲学是基于将信号中包含的证据与该过程的概率分布的先验知识相结合。贝叶斯方法包括经典估计量,如最大后验(MAP),最大似然(ML),最小均方误差(MMSE)和最小平均误差绝对值(MAVE)作为特殊情况。隐马尔可夫模型,广泛应用于统计信号处理,是贝叶斯模型的一个例子。贝叶斯推理是基于所谓的贝叶斯风险函数的最小化,它包括给定观测的未知参数的后验模型和误差成本函数。介绍估计理论的基本概念,并考虑用于量化估计器性能的统计度量。我们研究了贝叶斯估计方法,并考虑了使用先验模型对估计的均值和方差的影响。研究了从不完全观测中估计未知参数集的估计-最大化方法,并将其应用于连续随机变量空间的混合高斯建模。本章最后介绍了离散或有限状态信号的贝叶斯分类,以及K-means聚类方法。
贝叶斯理论是一种通用的推理框架。在估计或预测过程状态时,贝叶斯方法既利用了观测信号中包含的证据,也利用了过程的累积先验概率。考虑一个随机参数向量θ的值的估计,给定一个相关的观测向量y。根据贝叶斯规则,参数向量θ给定y的后视概率密度函数(pdf) fΘ | y (θ | y),可以表示为
图像
其中,对于给定的观测值,fY(y)是一个常数,只有归一化效应。因此,式(4.1)中有两个变量项:一项fY|Θ(y| Θ)是观测信号y由参数向量Θ产生的可能性,第二项是参数向量具有Θ值的先验概率。可能性pdf fY|Θ(y| Θ)和前面的pdf fΘ(Θ)对后面的pdf fΘ| y (Θ| y)的相对影响取决于这些函数的形状,即相对如何峰值每个pdf。一般来说,概率密度函数峰值越大,它对估计过程结果的影响就越大。相反,统一的pdf没有任何影响。其中指数函数中的项被重新排列,以强调图1中似然空间的说明。

结果和讨论

在这里,我们将项目打开到net beans IDE中,并运行我们的项目,然后我们会得到一个带有一些按钮和控制台空间的新窗口。该窗口包含浏览、构建数据集、规范化、选择度量、ReliefF+knn、Parzen+ReliefF、执行、做集群和报告等按钮。在这个浏览按钮用于为算法输入,接下来我们建立了我们的项目,接下来我们对我们的数据集进行规范化操作,以获得更好的输出,因为通常数据集有一些缺失值,不相关的值和多类问题,所以我们需要执行这种规范化。接下来,我们选择我们想要在数据集上执行的测量类型,以假设接近命中和接近失败。接下来,我们选择我们想要在数据集上执行的算法。之后执行按钮,并做集群按钮。接下来,我们得到项目的全部结果,我们有报告按钮。最后生成输出报告,如图2 - 4所示。该图显示了reliefF+knn和parzen+relief之间的区别。在这里,我们用两种算法根据相似阈值来显示所选择的特征的数目。

结论

在这项工作中,我们比较了两种特征加权算法。因此选取的相关特征采用聚类算法进行聚类显示,以便更好地进行验证。介绍了大型数据集的聚类技术的局限性和所提出的聚类方法的细节,leader - subleader。在数值数据集上的实验结果表明,leader - subleaders算法具有良好的性能。该方法可以生成所需层数的层次结构,以较低的计算成本找到每个簇内的子组/子簇。子簇的代表有助于提高分类精度。davis - bouldin指数表现出良好的性能,即使半径不同,结果也相当。

数字一览

图1
图1

参考文献








全球科技峰会