关键字 |
集成方法,分类,数据流,随机森林,旋转森林,决策树,主成分分析 |
介绍 |
组合分类器是一个非常流行的研究领域,在文献中以不同的名称为人所知,如学习者委员会、专家混合、分类器集成、多分类器系统和共识理论[1]。其基本思想是使用多个分类器,希望整体准确率会更好。集合性能主要取决于两个属性:个体精度和多样性。 |
主成分分析(PCA)是一种用于数据压缩和分类的技术。其目的是通过寻找比原始变量集更小的新变量集来降低数据集(样本)的维数,但仍然保留了样本的大部分信息。通过信息,我们指的是样本中存在的变化,由原始变量[2][15]之间的相关性给出。新的变量被称为主成分(PCs),它们是不相关的,并按每个主成分所保留的总信息的比例排序。 |
决策树是一种使用一组二进制规则来计算目标值的预测模型,它可以用于分类(分类变量)或回归(连续变量)应用。规则是使用许多统计包中提供的软件开发的。在决策树中,使用不同的算法来确定节点上的“最佳”分割。它很容易解释决策规则,并且是非参数的,因此很容易合并一系列数值或分类数据层,不需要选择单模型数据,一旦制定规则[3][13],分类就很快。 |
随机森林(Random Forest, RF)是一种基于大量决策树聚合的分类回归方法。具体来说,它是由训练数据集构建的树的集合,并在内部进行验证,以产生对未来观察[6]的预测因子的响应的预测。RF有几种变体,其特征如下:1)每个单独树的构造方式,2)用于生成每个单独树的构造所依据的修改数据集的过程,3)每个单独树的预测聚合以产生唯一一致预测[4]的方式。 |
旋转森林是一个集成分类器,使用许多决策树模型,它可以用于分类或回归。它最初是由罗德里格斯和阿隆索提出的。每个基础学习器都使用稍微旋转的原始训练数据集进行训练。通过从训练数据和类中自举,对每个基本学习器计算不同的旋转矩阵。这种方法只适用于数字特征。如果数据集具有其他类型的特征,则将它们转换为数字表示[12]。基础学习器的结果是结合使用多数投票的所有方法。结果中提供了准确性和可变重要性信息。通过替换选择训练数据的不同子集来训练每棵树,其余数据用于估计误差和变量重要性[11]。 |
在扩展空间森林中,用于训练集合的基本学习器的训练集是通过在原始特征的基础上添加新特征来生成的。对于每个基础学习器,生成不同的扩展训练集。扩展训练集通过添加从原始特征中获得的新特征来生成。所以每个基础学习者都用不同的训练集进行训练。扩展空间方法是一个通用的框架,可以用于任何集成算法[8][5]。例如,如果选择bagging作为集成算法(ENS),则每个基学习器(Li)的训练数据将从Ei数据集中随机抽样,并进行替换。如果选择随机子空间作为集成算法,则使用Ei数据集随机选择的特征来训练基础学习器。 |
文献综述 |
本节对决策树、主成分分析、旋转森林和随机子空间进行了实证分析。 |
J.J.罗德里格斯等人,(2004)提出了一种新的集成生成方法。它基于将属性分组在不同的子组中,并使用主成分分析为每个组应用一个轴旋转。如果用于归纳分类器的方法对数据集中的旋转不是不变的,则生成的分类器可能非常不同。因此,一旦实现了生成集合时的目标,不同的分类器就相当多样化。大多数集成方法消除了数据集的一些信息(例如,实例或属性)以获得这种多样性。所提出的集成方法以保留所有信息的方式对数据集进行转换。实验验证,使用决策树作为基本分类器,与Bagging,随机森林和最著名的Boosting版本相比,有利于基于旋转的集成。 |
C.-X。Zhang et al., (2009)结合自举聚合和主成分分析(PCA)的思想,提出了一种新的集成分类器生成方法。为了创建集成分类器的每个独立成员,对每个袋外样本应用主成分分析,并存储所有主成分的计算系数,然后将在相应的bootstrap样本上计算的主成分作为原始特征集的附加元素。分类器使用自举样本和从新特征集中随机选择的一些特征进行训练。最后的集成分类器是由经过训练的基分类器的多数投票来构造的。通过经验实验和统计测试获得的结果表明,在UCI存储库公开提供的一些基准数据集上,所提出的方法比其他几种集成方法表现得更好或同样好。此外,通过kappaerror图研究了集成分类器的多样性-精度模式。 |
T.K. Ho等人,(2008)解释了专注于拆分标准和树大小优化的决策树。过度拟合和达到最大精度之间的困境很少得到解决。提出了一种构造基于决策树的分类器的方法,该方法在训练数据上保持最高的精度,并随着复杂度的增长而提高泛化精度。分类器由多个树组成,这些树是由特征向量的伪随机选择的分量子集系统地构造的,即在随机选择的子空间中构造的树。 |
L.I. Kuncheva等人,(2007)介绍了旋转森林是最近提出的一种使用独立训练的决策树构建分类器集成的方法。在一组基准数据集上,人们发现它比bagging、Ada Boost和Random Forest集合更准确。本文对旋转森林进行了损伤研究,以找出哪些参数和随机启发式对旋转森林的良好性能负责。与通常的直觉相反,通过PCA提取的特征与通过非参数判别分析(NDA)或随机投影提取的特征相比,给出了最好的结果。唯一在统计精度上与旋转森林难以区分的集成方法是LogitBoost,尽管它在32个基准数据集中的20个上给出了略差的结果。看来,旋转森林成功的主要因素是用于计算(线性)提取特征的变换矩阵是稀疏的。 |
C.-X。Zhang et al., (2010)旋转森林是一种有效的集成分类器生成技术,其工作原理是使用主成分分析(PCA)旋转原始特征轴,从而形成学习基分类器的不同训练集。本文提出了轮作林的一种变种,它可以被看作是套袋和轮作林的结合。这里使用Bagging为旋转森林注入更多的随机性,以增加集合成员之间的多样性。通过对UCI知识库中33个基准分类数据集进行实验,其中采用分类树作为基础学习算法,结果表明,该方法总体上能生成比Bagging、Ada Boost和Rotation Forest误差更低的集成分类器。误差性能的偏差方差分析表明,该方法比其他集成方法减少了更多的方差项,从而提高了单个分类器的预测误差。此外,在含有人工分类噪声的数据集上的计算结果表明,新方法对噪声具有更强的鲁棒性,并使用kappa-error图来研究集成分类器的多样性-精度模式。 |
提出工作 |
A.分类器集合: |
分类器的集合模仿了人类在做决定前向几个人寻求建议的本性,其中潜在的假设是,结合意见将产生一个比每个人的意见更好的决定。构建几个分类器(集合成员),通常通过投票或平均加权方案组合它们的输出,以产生最终的分类。为了使这种方法有效,必须满足两个标准:准确性和多样性。准确性要求每个分类器尽可能准确,即单个地最小化泛化误差。多样性要求尽量减少分类器泛化误差之间的相关性。所提出的系统侧重于使用单一归纳算法的集成分类器,例如最近邻归纳器。这种集成构建方法通过操纵训练集来实现其多样性。通过对原始训练集应用自举抽样(每个样本可以抽取一次以上)来构造几个训练集。每个训练集用于构造不同的分类器,其中重复强化不同的训练实例。该方法简单有效,已成功应用于医学数据集、基因表达分析等多种问题。 |
快速旋转森林是目前最先进的集成分类器之一。该方法通过以下步骤构建不同版本的训练集:首先,将特征集划分为不相交的集,原始训练集投影在这些集上。接下来,随机抽取一个类样本,并从每个投影结果中选择一个自举样本。然后使用主成分分析旋转每个获得的子样本。最后,主组件被重新排列,以形成用于训练单个集成成员的数据集。前两个步骤提供所构造集成所需的多样性。 |
B.快速轮作森林: |
经典的轮换森林诱导程序使树木彼此独立生长。因此,每棵新树都被任意添加到森林中。因此,人们可能会怀疑是否所有这些树都有助于提高性能。通过使用经典的射频感应算法,一些树使集合性能下降,并且选择良好的树子集可以优于初始森林[15]。图1说明了这一说法,它展示了一个名为SFS(顺序前向搜索)的顺序树选择过程所获得的错误率的演变,该过程应用于一个用Breiman的RF构建的现有300棵树的森林。 |
图1指出,选择技术从一个空集开始,并根据给定的标准(例如,在验证数据集上获得的错误率)迭代地添加一个分类器。在SFS过程的每次迭代中,对候选分类器池中的每个分类器进行评估,并保留优化集成性能的分类器。结果表明,总有至少一个亚森林的表现明显优于最初的一个,有时树木少十倍。因此,RF的性能可以通过从集合中移除精心选择的树来提高。FRF的思想是通过强制算法只生长适合已经生长的集合的树木来避免可能使森林性能下降的树木的诱导。 |
在这个提议的系统中,频响感应可以从采用并行方法中受益,也就是说,通过使树感应依赖于正在构建的集成。为此,有必要通过从已经建立的子森林中引入一些“信息”来指导树木的诱导。为此,快速随机森林(FRF)算法背后的思想是在装袋和增强之间对训练数据进行重新采样:首先进行随机采样,替换N个实例,其中N代表训练实例的初始数量(装袋),然后重新加权数据(某种增强)。这样选择的原因是继续使用Breiman射频的两种有效的随机化过程(即bagging和Random Feature Selection),并使用boosting的自适应重采样原理来提高射频精度。 |
然后使用主成分分析旋转每个获得的子样本。最后,主组件被重新排列,以形成用于训练单个集成成员的数据集。前两个步骤提供所构造集成所需的多样性。 |
可以通过基于属性值测试将源集划分为子集来“学习”树。这个过程以一种称为递归分区的递归方式在每个派生子集上重复。当一个节点上的子集与目标变量的值完全相同时,或者当分裂不再增加值时,递归完成。对训练集进行降维有以下优点: |
•它减少了噪音和去关联数据。 |
•它降低了分类器构造的计算复杂性,从而降低了分类的复杂性。 |
•它可以通过构造变量组合来缓解过度拟合。这些点满足构建有效集成分类器所需的准确性和多样性标准,从而使降维技术成为为构建集成分类器量身定制的技术。 |
图1指出,选择技术从一个空集开始,并根据给定的标准(例如,在验证数据集上获得的错误率)迭代地添加一个分类器。在SFS过程的每次迭代中,对候选分类器池中的每个分类器进行评估,并保留优化集成性能的分类器。结果表明,总有至少一个亚森林的表现明显优于最初的一个,有时树木少十倍。因此,RF的性能可以通过从集合中移除精心选择的树来提高。FRF的思想是通过强制算法只生长适合已经生长的集合的树木来避免可能使森林性能下降的树木的诱导。 |
在这个提议的系统中,频响感应可以从采用并行方法中受益,也就是说,通过使树感应依赖于正在构建的集成。为此,有必要通过从已经建立的子森林中引入一些“信息”来指导树木的诱导。为此,快速随机森林(FRF)算法背后的思想是在装袋和增强之间对训练数据进行重新采样:首先进行随机采样,替换N个实例,其中N代表训练实例的初始数量(装袋),然后重新加权数据(某种增强)。这样选择的原因是继续使用Breiman射频的两种有效的随机化过程(即bagging和Random Feature Selection),并使用boosting的自适应重采样原理来提高射频精度。 |
然后使用主成分分析旋转每个获得的子样本。最后,主组件被重新排列,以形成用于训练单个集成成员的数据集。前两个步骤提供所构造集成所需的多样性。 |
可以通过基于属性值测试将源集划分为子集来“学习”树。这个过程以一种称为递归分区的递归方式在每个派生子集上重复。节点上的子集具有目标变量的所有相同值时,递归完成,或者拆分不再向 |
对训练集进行降维有以下优点: |
•它减少了噪音和去关联数据。 |
•它降低了分类器构造的计算复杂性,从而降低了分类的复杂性。 |
•它可以通过构造变量组合来缓解过度拟合。 |
这些点满足构建有效集成分类器所需的准确性和多样性标准,从而使降维技术成为为构建集成分类器量身定制的技术。 |
结果和讨论 |
A.实验结果: |
为了对所提出的方法进行评估,使用了WEKA框架。提出的方法在UCI存储库中的3个数据集上进行了测试,其中包含通常用于评估机器学习算法的基准数据集。 |
B.绩效指标: |
集合的性能与基础学习算法的个别精度有关。通过对这些概念进行集成算法的比较,我们可以更深入地了解所比较算法的动态。为此目的采取的措施如下: |
•Kappa值 |
•AUC(浓度-时间曲线下面积) |
•时间 |
Kappa值: |
基础学习器的平均Kappa值。玛吉尼安图和迪特里希提出了一种名为Kappa的成对多样性测量方法。选择成对多样性是因为“多样性”已为两个基分类器决策很好地定义。Kappa评估两个分类器输出之间的一致性水平,同时校正偶然性。 |
对于c类标签,Kappa (K)定义在c混淆矩阵M[11]上。Mks值表示其中一个分类器预测样本标签为k,而另一个分类器预测样本标签为s的样本数量。N值是样本的总数。两个分类器输出之间的一致性由。在所提出的工作中,发现每个基础学习器的多样性为 |
|
|
由于多样性的定义只定义了两个分类器,其中一个分类器被接受为一个基本学习器,而另一个分类器被接受为除所用的基本学习器以外的所有基本学习器的大多数投票决定。所以对于每个基础学习器来说,多样性是指它们在决策方式上与其他所有基础学习器的差异。集合中基本学习器的平均kappa值(KP)是集合的kappa值。较高的KP值表明较低的多样性,因为Kappa评估集合中分类器输出之间的一致性水平。 |
AUC(浓度-时间曲线下面积) |
基础学习器的平均个体准确率(AIA)。为了测量基础学习者的准确性,使用了袋外样本。装袋尺寸与训练尺寸相等。每个基础学习器都使用不同的数据集进行训练,然后使用包外样本进行测试。对于拥有T个基学习器的集合,这些T个精度值的平均值被用作基学习器的平均个体精度。集成精度(AE)。用52交叉验证计算了集合的精度。 |
|
|
AUC=浓度-时间曲线下面积。F =生物利用度,D =剂量,CL=清除率,C(0) =时间0时外推算血浆浓度,λ =消除速率常数= CL/Vd。 |
这些值的平均值被用作集合的精度。如果集成算法为其基本学习器生成非常相似的训练集,则基本学习器的平均精度可能很高。基本学习器的平均精度与集合的多样性间接成正比。一个合奏团的成功与这两个概念有关。他们中没有一个能单独保证一个组合的成功。这些关系的数值证据将在后面的章节中给出。 |
结论 |
本文提出了一种诱导随机森林分类器的新方法——快速随机森林(FRF)。它基于一个连续的过程,通过使每个随机树依赖于前一个随机树来构建一个随机树的集合。这种快速方面的频响算法的灵感来自自适应重采样过程的增强。频响算法利用了相同的思想,并将其与“经典”射频感应算法中使用的随机化过程相结合。提出了一种生成分类器集合的新方法。它包括将特征集分成K个子集,在每个子集上分别运行主成分分析(PCA),然后在保留所有成分的情况下重新组合一个新的提取的特征集。数据被线性转换成新的特征。用该数据集训练决策树分类器。特征集的不同分割将导致不同的旋转,最后计算精度。因此,采用快速旋转森林可以获得较高的精度。 |
|
表格一览 |
|
|
数字一览 |
|
图1 |
|
|
参考文献 |
- L.I. Kuncheva和C.J. Whitaker,“分类器集成的多样性测量及其与集成精度的关系”,机器学习,第51卷,第1期。2, pp. 181-207, 2003。
- Shlens,乔纳森。“主成分分析教程。”arXiv预印本arXiv:1404.1100 (2014)..
- 巴罗斯,罗德里戈·科埃略等。“决策树归纳的进化算法综述。”系统,人,控制论,C部分:应用和评论,IEEE汇刊42.3(2012):291-312。雷竞技苹果下载
- Yang, Jing,等。基于随机森林和支持向量机的特征选择预测疾病风险生物信息学研究与应用“,”施普林格国际出版,2014。1 - 11 . .
- T.K. Ho,“构造决策森林的随机子空间方法”,IEEE Trans。模式分析与机器智能,第20卷,no。8,页832-844,1998年8月。
- L. Breiman,“随机森林”,机器学习,第45卷,no。1, pp. 5- 32,2001。
- J.J.罗德里格斯和C.J.阿隆索,“基于轮换的合奏”,第十届会议,西班牙协会。人工智能,第498-506页,2004。
- 阿玛西亚利,M.法提赫,欧坎K.埃尔索伊。扩展空间森林的分类器集成。IEEE知识与数据工程学报26.3(2014):549-562。
- L. Rokach,“分类任务中描述集成方法的分类学:回顾和注释书目”,计算统计与数据分析,第53卷,no. 1。12,页4046- 4072,2009。
- J.J. Rodriguez, C.J. Alonso, O.J. Prieto,“基于旋转的集成的偏差和方差”,第8届国际会议,人工神经网络:计算智能和生物激励系统,pp. 779-786, 2005。
- J.J. Rodriguez, L.I. Kuncheva,和C.J. Alonso,“旋转森林:一种新的分类器集成方法”,IEEE Trans。模式分析与机器智能,第28卷,no。10,页1619-1630,2006年10月。
- l·i·昆切瓦和j·j·罗德尔?´guez,“旋转森林集成的实验研究”,第七届国际学术会议,第459-468页,2007。
- Tsang, Smith,等人。“不确定数据的决策树。”知识与数据工程,IEEE学报23.1(2011):64-78。
- C.-X。张和j.s。张,“构造集成分类器的一种新方法”,《统计与计算》第19卷,第1期。3, pp. 317-327, 2009。
- 阿布迪,Hervé,琳恩·j·威廉姆斯。主成分分析。威利跨学科评论:计算统计学2.4 (2010):雷竞技苹果下载433-459..
|