所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

乐团的一阶逻辑决策树不平衡分类问题

M.Manjula1,T.Seeniselvi2
  1. 研究学者,PG&Research,计算机科学系,Hindusthan艺术与科学学院,印度哥印拜陀
  2. 助理教授,PG&Research。计算机科学系,Hindusthan艺术与科学学院,印度哥印拜陀
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

经常会遇到不平衡类分布在实际分类问题。乐团分类基于决策树分类学习被广泛用于商业和医疗领域。这个问题可以解决高维系综分类基于一阶逻辑决策树方法通过增加竞争性能。拟议的工作是测试与龙骨与不同类别数据集。数据预处理方法(抽样过程)方法旨在平衡类分布通过随机消除多数类的例子,然后分割决策树算法生成树形结构的分类规则,这是写在连词和析取特征值的一种形式。装袋基础整体方法增加少数类实例的数量的复制和最终的决策树方法是一阶逻辑(褶皱)方法用于发现变异以及结合0到1。实验结果在许多class-imbalanced数据集,包括BRFSS和模拟数据集来自医学界和几套来自UCI和龙骨突出的有效性提供了广泛的数据分布和乐团的类不平衡。



关键字

数据挖掘、逻辑决策树、不平衡数据集,系综分类

介绍

经常会遇到不平衡类分布在实际分类问题,因欺诈检测,风险管理、文本分类、医疗诊断,和许多其他领域。这种不平衡类数据集不同于平衡类数据集不仅在类的偏态分布,而且在提高少数类的重要性。尽管他们频繁发生和巨大的影响在日常应用中,不平衡问题不妥善解决许多标准的机器学习算法,因为他们认为平衡类分布或相等的误分类成本[1]。
提出了各种方法来处理不平衡类来应对这些问题,包括在/ under-sampling[2],[3],合成少数过采样技术(杀),厂商[4],修改内核,并主动学习方法[5],[6]。尽管这些方法有些缓解这个问题,他们通常基于启发式而不是明确的指导。例如,在过采样技术,最佳的过采样率有很大程度上的不同的数据集,并通常是通过多个交叉验证或其他启发式。
最近的研究表明,类不平衡问题应该从多个角度以及使用不同的评估指标[7]。这些发现表明,不平衡的程度并不是唯一因素阻碍学习的过程。相反,存在的困难与各种其他因素如重叠类,缺乏代表性数据,和小分离的。更糟糕的是,这些因素的影响变得放大当类的分布高度不平衡[1]。
决策树学习方法是一个方法用于分类或诊断。至于其他机器学习方法,在决策树学习已经通过使用一个数据集的分类实例构建决策树,后来被用作分类器。实例的集合用于“训练”决策树称为训练集。

相关工作

在[1]的作者在许多大规模的数据可用性的不断扩大,复合体,和网络系统,如监控、安全、互联网、推进和金融,它成为至关重要的知识发现的基本理解和分析从原始数据来支持决策过程。尽管现有的知识发现和数据工程技术显示巨大的成功在许多实际应用,学习不平衡数据的问题(不平衡学习问题)是一个相对较新的挑战,吸引了来自学术界和工业界越来越多的关注。减少[2]的作者使用所有方法改进识别小类(20 - 30%),但差异是无关紧要的。然而,在精度显著差异,truepositive率和真阴性率与3-nearest邻居获得方法和C4.5从减少数据支持社区清洁规则(NCL)。结果表明NCL是一个有用的方法,提高建模困难的小类,这些类和构建分类器识别的实际数据。在[3]讨论了研究比较了分类器的性能产生不平衡数据集的分类器的性能产生平衡的版本的相同的数据集。这种比较使我们孤立和量化效果,训练集的类分布有学习和对比分类器的性能对少数和多数类。第二项研究评估分布是“最好”的培训,对两个性能的措施:分类准确性和ROC曲线下的面积(AUC)。在[4]作者讨论了支持向量机(SVM)都进行了广泛的研究和在很多应用中都取得了巨大的成功。然而成功的支持向量机应用于问题时非常有限的学习不平衡数据集-实例大大多于积极的实例(例如,基因分析和检测信用卡欺诈)。 This paper discusses the factors behind this failure and explains why the common strategy of under-sampling the training data may not be the best choice for SVM. In [5] authors discussed the problem occurs when there are significantly less number of observations of the target concept. Various real-world classification tasks, such as medical diagnosis, text categorization and fraud detection suffer from this phenomenon. The standard machine learning algorithms yield better prediction performance with balanced datasets. In this paper, we demonstrate that active learning is capable of solving the class imbalance problem by providing the learner more balanced classes. In [6] authors considered the large, real-world inductive learning problems, the number of training examples often must be limited due to the costs associated with procuring, preparing, and storing the training examples and/or the computational costs associated with learning from them. In such circumstances, one question of practical importance is: if only n training examples can be selected, in what proportion should the classes be represented? In this article we help to answer this question by analyzing, for a fixed training-set size, the relationship between the class distribution of the training data and the performance of classification trees induced from these data.

算法

答:将决策树
决策树学习是一种常见的方法用于数据挖掘。大多数的商业计划提供复杂的树分类算法,但它们非常昂贵。决策树算法生成树形结构的分类规则,都写在一种连词和析取特征值(或属性值)。这些构造分类规则
吗?选择最佳的分割特征根据一定的标准,
吗?分割输入数据根据最好的分割特征值,
吗?递归地重复这个过程,直到满足特定的停止标准。
选定的最佳分裂特性不仅影响当前分区的输入数据,而且随后的最佳分裂的特性,因为它改变了样本分布的分区。因此,最好的分割特征选择决策树构建可以说是最重要的一步,为决策树和不同的名称,使用不同的分割标准,例如,ID3和C4.5香农entropy-based分裂标准和信息增益率和购物车等基尼杂质测量。
b . Bagging-Based集合体
装袋在于训练不同的分类器引导副本的原始训练省际层面。,形成一个新的省际列车每个分类器通过随机图纸(替代)从原始先于实例(通常,保持原始先于大小)。
装袋算法不需要重新计算的权重;因此,必须适应重量更新公式和改变计算的算法。在这些方法中,关键因素是收集每个引导的方式复制算法(1),也就是说,类不平衡问题是解决如何获得有用的分类器在每个迭代中没有忘记多样性的重要性。
图像
一阶逻辑决策树
一阶逻辑决定发辫l是一个龙骨数据库;一个测试在一个节点对应检查是否一个查询←C成功l ^渠道(Lift-Boosting合奏的α-Trees(渠道)的背景知识)。请注意,它不是足够的用于C结合节点本身的连词。因为连词可能与更高的树中的节点共享变量,C由一些连词,发生在从根到当前节点的路径。因此,当一个例子就是左排序,C是更新通过添加连接词。当排序正确的一个例子,C不需要更新:一个失败的测试没有引入新变量。
一阶逻辑决策树(FOLDT)是一种二叉决策树的节点的树包含文字的结合,和不同节点可以共享变量,在下列限制:一个变量,介绍了一个节点(这意味着它不出现在较高的节点)不应发生在右分支的节点。逻辑决策树的一个例子是图1所示。它编码的目标假设的例子1。

伪代码

程序逻辑分类(s:样本)返回类:
步骤1:C: = true
步骤2:N: =根。
步骤3:当N≠叶(c)
第四步:让N = inode(连词,左,右)
第五步:如果C ^ ^连词成功树年代
C: = C ^连词
N: =左
其他的护士:=
第八步:返回c

仿真结果

仿真研究工作已经评估了20个数据集1)摘要从使用龙骨不平衡数据集。许多龙骨数据集来自UCI机器学习库通过选择不平衡数据集,或崩溃/移除一些类,使它们不平衡二进制数据集。03 subcl5 paw02a, 04三叶草是人造数据集,不是来自UCI存储库。他们是为了模拟噪声、边缘和不平衡的例子[43]。除了规定的修改,每一个数据集从龙骨存储库使用“。”
表1显示了逻辑决策树分类,α-diversified分类器使用吃框架:吃(α-多元化单树),打(α多样性袋装树),和UBEAT(α多元化under-bagged树),当K = 3。注意,吃框架可以插入任何bagging-based合奏over-bagging等算法。随着两个基线算法和C4.5,这六个算法应用于数据集,并从5×2 AUROCs交叉验证记录。
结果表明:α多样性乐团导致AUROC性能优于相应的基准方法

结论和未来的工作

仿真结果表明,该算法与现有semi-supervised聚类算法性能更好。提出的一个新的整体框架的一阶逻辑关系称为FOLR高等AUROC价值观一致的结果在不平衡数据集的类。拟议中的修改传统修剪规则决策树算法来直接反映了基于条件的评价指标。一阶逻辑关系树为未被注意的实例是一个很好的概括,只有在实例中描述的功能与目标相关的概念。这个决定是提供一个明确的迹象显示哪些字段是最重要的预测或分类。
作为未来工作系统需要与大量的测试数据集和需要进一步训练和分类解决问题比较句子的表达在不同的领域。

表乍一看

表的图标
表1

数据乍一看

图 图
图1 图2

引用