所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

先进的特征选择算法的比较分析

库马拉斯Senapathi1,Kanakeswari D2,拉维Bhushan Yadlapalli3
  1. 助理教授,CSE的部门,拉理工学院,维萨卡帕特南,India1
  2. 助理教授,CSE的部门,拉工程学院,维萨卡帕特南,India2
  3. Pragathi工程学院助理教授,维杰亚瓦达,印度安得拉邦3
相关文章Pubmed,谷歌学者

访问更多的相关文章国际先进研究期刊》的研究在电子、电子、仪表工程

文摘

特征选择是识别的预处理过程数据从大型维度数据的子集。识别所需的数据,使用一些特征选择算法。像ReliefF Parzen-ReliefF算法,它试图直接最大化分类准确性和自然反映了贝叶斯错误的目标。提出的算法框架选择特性的一个子集通过最小化非参数估计的贝叶斯估计错误率。一组现有的算法以及新的自然可以从这个框架。作为一个例子,我们表明,救援算法贪婪地试图最小化错误估计的贝叶斯k-Nearest-Neighbor(资讯)方法。这种新的解释深入揭示了家族的秘密margin-based特征选择算法和还提供了一种有原则的方式来建立新的替代品的性能提升。特别是,利用该框架,我们建立Parzen-Relief (PRelief)算法基于Parzen窗口估计量。救援重量估计算法是一种受欢迎的方法功能。救援的许多扩展算法开发。 Because of the randomicity and the uncertainty of the instances used for calculating the feature weight vector in the RELEIF algorithm, the results will fluctuate with the instances, which lead to poor evaluation accuracy. To solve this problem, a feature selection algorithm parzen+reliefF based algorithm is proposed. It takes both the mean and the variance of the discrimination among instances and weights into account as the criterion of feature weight estimation, which makes the result more stable and accurate. And the main idea is how to estimate the performance of the both algorithms, for this we are using two algorithms for calculating the quality of the generated out puts. They are Leader and sub-leader algorithm and Davies– Bouldin index (DBI) algorithm. Both are clustering algorithms. Which are used for knowing the cluster quality and cluster similarity.

关键字

特征选择;然而,Parzen ReliefF

介绍

Gauthier出版社[1]中说“风险评估和特征选择”为分类问题,风险往往是最终标准是最小化。它自然也可以用来评估的质量特征选择特征子集。然而,在实践中,错误的概率通常是未知的,必须估计。同时,互信息通常是作为标准来评估特征子集的质量,因为它可以被视为一个不完美的代理风险,可以可靠地估计。在这篇文章中,两种不同的方法来估计使用Kozachenko-Leonenko概率密度估计的风险。由此产生的估计比较特征选择问题与互信息估计基于相同的密度估计。沿着线我们之前的工作,实验表明,使用一个估计量的风险或互信息给类似的结果。
g .福尔摩斯出版社[2]解释说,为了获得有用的结果使用监督学习的真实数据集有必要执行特征子集选择和执行许多实验使用计算总量从最相关的特征。因此,重要的是找工作的选择算法快速、准确,以便这些实验可以在合理的时间长度,最好是交互。提出一个方法来实现这一目标使用一个非常简单的算法,使在不同的监督学习计划和良好的性能相比,最常见的一个特征子集选择方法。特征子集选择通常是实现对某种形式的目标函数。在我们的例子中,我们选择分类精度为目标函数;我们的目标是提高(或不显著减少)分类精度,同时减少原始数据集特征的数量。目标函数使用一个搜索策略,找到“最好”的子集。如果有d功能然后搜索空间的大小是2 d的所有可能的特性。这是不切实际的详尽的搜索空间和某种形式的爬山或优化技术是用于指导搜索。子集发现使用简单搜索策略不能保证找到最优解,这是“最好”的子集的感觉。 It is the search strategy that accounts for the cost of performing feature subset selection. This cost and the accuracy of the resulting subset of features are useful measures for comparing the performance of different algorithms.
Peng-Feizhu出版社[3]中提到,特征选择是视为一个重要的预处理步骤模式识别、机器学习和数据挖掘。找到一个最佳子集用于降低计算成本,提高分类精度,提高结果的可理解性。摘要加权远程学习方法介绍Leaving-One-Out最小化分类误差使用梯度下降算法。的质量特性与学习评估体重和特征的权重对于分类被认为是有用的。实验分析表明,该方法具有更好的性能比几个state-ofthe艺术方法。我们提出一种特征选择技术对于通过最小化leaveone -最近邻分类神经网络误差估计的错误分类概率,叫做MLOONNE。分类错误率措施被称为“包装器方法”工作。分类错误与分类器的预测精度的关系,常常被用来作为验证标准,预测准确性和错误率的总和是1。罗伯特和恩里克用模糊c形的函数来近似阶跃函数使leaveone——(厕所)神经网络误差估计持续优化。在我们的工作中,我们使用LOONN误差估计作为评价函数,得到权重向量的特性使用梯度像样的算法。然后排名功能是根据学习权向量和特征对于分类与更大的权重更有用。 In essence, we aim to find an optimal feature space in which we can obtain the least LOO NN error estimation, which means the improvement of the overall accuracy and dimension reduction. It is obvious that the proposed technique is one of the filter methods.
宇轩太阳出版社在[4]提出救援重量估计算法是一种受欢迎的方法功能。其中许多扩展算法开发。然而,一个重要的缺陷在最初的救援算法多年来一直被忽视。因为使用的随机性和不确定性的实例计算功能RELEIF算法的权向量,结果将波动的情况下,导致可怜的评估精度。为了解决这个问题,一种新的特征选择算法提出了基于均值-方差模型。均值和方差之间的歧视实例考虑重量估计的标准特性,使得结果更加稳定和准确的。根据实际地震信号的地面目标,实验结果表明,产生的特征子集算法有更好的性能。任何特征选择方法的一部分,有一些需要考虑的因素,最重要的是:估计测量和搜索策略。

特征选择

这个区别的特征选择集群通过非参数方法适用于数据集验证是明智的预处理技术来减少属性或例子的数量等方式来降低计算时间成本。这些预处理技术本质上是面向未来的目标:特征选择(消除无关的属性)和编辑(减少的数量通过消除其中一些例子或计算原型类型)。我们的算法属于第一组。特征选择方法可以分成两类观点方法的输出。一类是关于排名功能根据同样的评价标准;另一个是关于选择最低的一组特性,满足一个评价标准。
在这个工作我们正在使用区别的最优准则(DOC),医生直接务实有利,因为它试图最大化分类准确性和自然反映了贝叶斯错误的目标。让医生计算实际任务的驯良的,我们提出了一个算法框架,它选择一个子集的特征通过最小化贝叶斯错误率估计的非参数估计量。一组现有的算法以及新的自然可以从这个框架。作为一个例子,我们表明,救援算法贪婪地试图最小化贝叶斯估计的错误再(资讯)方法。这种新的解释深入揭示了家族的秘密margin-based特征选择算法和还提供了一种有原则的方式来建立新的替代品的性能提升。特别是,利用该框架,我们建立Parzen-Relief (P-Relief)算法基于Parzen窗口估计量,和地图上(M-Relief)集标签分布到max-margin客观有效地处理不平衡和多类数据。
特征选择是模式识别和机器学习的一个重要问题,帮助我们分类算法的注意力集中在那些最相关的特征来预测类。从理论上讲,如果完整的统计分布是已知的,使用更多的功能可以改善的结果。然而,在实际的大量特征作为输入的归纳算法的消费者可能将它们低效的内存和时间。此外,无关的特性可能混淆算法导致得出错误的结论,因此产生更糟的结果。这是基本的重要的预处理步骤中选择相关和必要的特性。显然,使用特征选择的优点可以提高数据采集和处理的可理解性和降低成本。因为所有这些优势,特征选择吸引了太多的关注在机器学习,人工智能和数据挖掘社区。任何特征选择方法的一部分,有一些需要考虑的因素,最重要的是:估计测量和搜索策略。
典型的评估措施可分为:过滤器和包装器。基于过滤特征选择方法一般比基于包装器方法。作为一个基于滤波器的特征选择方法,救援算法是一种有效的,简单,广泛应用特性重量估算方法。体重测量的一个特征向量定义的特性的相关性。,概率的解释救济,即学会了重量的特性是命题的区别两个条件概率。这两个概率是价值的一个特性是不同条件给定的最近的和最近的小姐,分别。因此,救济通常执行比其他基于过滤方法由于最近邻分类器的反馈;
此外,救援往往比包装更有效率的方法,因为救援决定了功能权重通过求解一个凸优化问题。然而,救援算法有一个相对明显的缺陷的特性重量可能会有实例。在大多数情况下,随机获得实例。此外,根据救援算法,采样的频率也不确定性。因此,救援算法不稳定,减少预期结果的准确性。摘要小说reliefF提出了基于均值-方差模型的特征选择算法。两个样本的均值和方差的歧视是体重估计的标准特性。通过这种方式,结果更加稳定和准确的。最后,地面目标的实际地震信号的实验操作的结果表明,产生的特征子集算法有更好的性能。

RELEIF-F算法

算法结构
最初的救援可以处理的名义和数值属性。然而,它不能处理不完整数据,仅限于两种问题。它的扩展,解决这些问题和其他问题,叫做ReliefF。ReliefF (Relief-F)算法并不局限于两类问题,更加健壮,可以处理不完整和嘈杂的数据。类似于解脱,ReliefF随机选择一个实例Ri(第3行),然后搜索k最近的邻国从同一个类,叫做最近的热门Hj(4号线)、k最近的邻居也从每一个不同的类,叫做最近的失误乔丹(C)(5和6行)。它更新质量估计W(一)为所有属性取决于他们的Ri值,点击Hj和错过乔丹(C)(7、8和9行)。更新公式类似于救济(5和6在图1行),除了我们的贡献平均所有的支安打,失误。每个类的贡献的想念与先验概率加权类P (C)从训练集(估计)。因为我们想在每一步的贡献,也有失误在[0,1]也对称(下面我们解释原因)我们必须确保失误的概率权重之和为1。的类是失踪的总和我们将每个概率权重因子1项P(类(Ri))(代表概率之和为错过的类)。对m乘以重复的过程。k的选择,也有失误的基本区别是救援,确保更大的算法对噪声的鲁棒性。 User defined parameter k controls the locality of the estimates. For most purposes it can be safely set to 10. To deal with incomplete data we change the diff function. Missing values of attributes are treated probabilistically.
算法表示
 The Input :for 每个 训练 实例 一 个 向量 的 属性 值 和 值 的 类
 Output : 向量 w attributes. 质量 的 估计
1。设置所有重量w [A]: = 0.0;
2。我:= 1 m开始
3所示。随机选择一个实例;
4所示。找到再打
5。为每个类C类()
从6. k C类找到最近的失误(C);
7所示。为:= 1
图像
贝叶斯误差估计
贝叶斯估计的框架制定的统计推断问题。在预测或估计的随机过程相关的观测信号中,贝叶斯哲学是基于信号中包含的证据与先验知识相结合的概率分布的过程。贝叶斯方法包括经典估计如最大后验(MAP),最大似然(ML),最小均方误差(MMSE)和最小平均绝对误差值(MAVE)作为特殊的情况。隐马尔科夫模型,广泛应用于统计信号处理,是贝叶斯模型的一个例子。贝叶斯推理是基于最小化所谓的贝叶斯风险函数,包括后模型的未知参数考虑到观察和cost-of-error函数。介绍估计理论的基本概念,认为统计措施用于量化估计的性能。我们学习贝叶斯估计方法和考虑使用先验模型的影响的均值和方差估计。estimate-maximize (EM)的一组未知参数的估计方法从一个不完整的观察研究,并应用于混合高斯建模的空间连续的随机变量。本章结尾介绍了离散贝叶斯分类或有限状态信号,和k - means聚类方法。
贝叶斯理论是一个通用的推理框架。的状态估计或预测的过程中,采用贝叶斯方法观测信号中包含的证据和累积过程的先验概率。考虑一个随机参数的值的估计向量θ,给定一个相关的观测向量y。从贝叶斯规则的后验概率密度函数(pdf)给出的参数向量θy, fΘ| y(θ| y),可以表示为
图像
对于一个给定的观察,财政年度(y)是一个常数,只有一个正常化的效果。因此有两个变量在方程(4.1):一项财政年度|Θ(y |θ)观测信号y的可能性是生成的参数向量θ和第二项参数的先验概率向量θ值。的相对影响可能性pdf财政年度|Θ(y |θ)和前pdf fΘ(θ)后pdf fΘ| y(θ| y)取决于这些函数的形状,即相对每个pdf达到顶峰。一般来说越峰值概率密度函数,它越会影响评估过程的结果。相反,一个统一的pdf将没有影响。指数函数的条件一直在可能性空间的重新安排强调说明如图1所示。

结果和讨论

我们打开我们的项目净bean IDE,并运行我们的项目,然后我们得到了一个新窗口和一些按钮和控制台的空间。这个窗口包含按钮和浏览一样,建立数据集,正常化,选择措施,ReliefF +资讯,Parzen + ReliefF,执行,做集群,并报告。在Browse按钮用于算法的输入,和明年我们建造项目,下一个我们在数据集执行标准化操作更好的输出,因为通常的数据集有一些缺失值,联合国相关值和多类问题我们需要执行这个正常化。和接下来我们选择类型的测量我们想要执行的数据集假设附近,附近小姐。接下来我们选择算法,我们想对数据集执行。在执行按钮之后,集群按钮。接下来我们得到项目总结果我们正在报告按钮。最后生成报告输出如图2到4所示。图所示,reliefF +资讯之间的歧视和parzen +解脱。这个我们没有的特性选择使用两种算法对相似度阈值。

结论

在这项工作中,我们比较这两个特征加权算法。所以选择的相关特性显示在集群中使用一些聚类算法更好的验证。众所周知的集群技术的局限性大数据集和拟议中的聚类方法的细节,Leaders-Subleaders,已经提出。我们的数值数据集上实验结果表明,Leaders-Subleaders算法表现良好。层次结构和所需数量的水平可以通过该方法生成的每个集群内找到子组/ subclusters在低计算成本。代表subclusters帮助改善CA(分类精度)。Davies-Bouldin指数显示结果是等价的良好性能,即使在不同的半径。

数据乍一看

图1
图1

引用








全球技术峰会