所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

绩效评估的学习技巧在不同数据集的例子

D.Ramya1,D.T.V.Dharmajee饶2
  1. 最后一年。理工大学的学生,计算机科学与工程系,Aditya技术学院管理(AITAM) Tekkali Srikakulam,印度安得拉邦
  2. 计算机科学与工程系,教授Aditya技术学院管理(AITAM) Tekkali Srikakulam,印度安得拉邦
相关文章Pubmed,谷歌学者

访问更多的相关文章国际创新研究期刊》的研究在科学、工程和技术

文摘

集群活动是一种无监督学习观察合并成段的数据。分组的数据是通过识别标记的共同特征之间的相似性数据根据他们的特点。诡计多端的选择性聚类算法的性能在不同的数据集选择评估。破裂的时间是一个性能参数选择在评估各种选择集群基于机器学习算法的性能。临床实验的结果表示在一个表。在我们的调查也表明一个执行更快的在一个聚类算法选择与参考数据集参数破裂时间

关键字

集群,Weka,聚类算法,简单的k - means, EM,最远的首先,CLOPE,蜘蛛网,过滤聚类、层次聚类,机器学习。

介绍

数据挖掘[1]是一种日常活动,用于确定隐藏的事实之间的关系。事实是一个真正的时间价值存在。事实可能是一个可衡量的价值也被作为一个活动的指标。在事实关系值代表了测量如年龄,性别,工资成本金额等,这是真实的时间值。在事实数据挖掘应用。数据挖掘应用程序大致分为两种类型——描述性和预测性。基于描述的应用程序包括分类、时间序列分析等。基于预测的应用程序涉及集群、预测等。本文处理各种基于聚类算法用于集群事实成各种集群。聚类是数据挖掘应用程序用于分类的元组到不同的组密集的集群。一个密集的集群是一组事实共同关系的事实出现在原始数据源。集群活动是一种无监督学习活动使基于动态措施不同的事实。 In the clustering activity the cluster are formed dynamically. The clusters are not predefined classes; the numbers of clusters formed are also depended upon the relations of the facts. The clustering algorithms are used in many business applications especially in production and marketing areas. In designing a catalog for a company if the company decides to develop different catalogs for different groups of people based on some measures such as age. Gender, occupation, favourite items, location etc., which does not have a set of finite values instead of classification clustering yields better results for these types of problems. This paper is organized as various sections; each section describes about the phenomenal activities of clustering. The sections are discussed below.

二世。文献调查

数据挖掘是一个持续的过程,从大量数据中提取信息。在当前的趋势信息技术收集的信息量是大量数据的快速增长。很少的工作都是在这一领域,因此需要新的工具和系统支持各种各样的人类活动。系统必须有准确的目标,鲁棒性和安全性。现有工作的简短的细节描述如下:这里的使用数据的可用性包括一系列不同类型的应用程序。我们现在主张等数据挖掘方法分类、聚类、关联规则等数据挖掘的应用程序应用是巨大的这些用于犯罪,法医调查以及其他许多马修火花在他的论文提出了一系列成功的数据挖掘应用程序。在所有这些应用程序,我们使用聚类分类和关联规则的技术提供解决方案。在英迪拉·priya和Dr.D.K集群有多种算法。Gosha提出了一系列各种聚类算法,表现出不同的性质。算法的性能测量的时间叫做执行时间复杂性和空间复杂性算法的简单性。 We cannot assure all the algorithms yield same results when applied to clustering. Tjen-Sien Lim, Wei-Yin Loh, Yu-Shan Shih have proposed a method in which they have selected a series of classification algorithms and applied them over selected datasets to determine the complexity of classification algorithms. A novel approach was proposed there in which they have used exploratory analysis for analysing the classification algorithms. Revathi and Dr. T .Nalini had also propsed a novel method for evaluating the clustering algorithms [2]. They have process some 2D graphs and a table for visualizing the results. Yaminee S. Patil, M.B.Vaidya both have proposed a technical survey on the clustering algorithms. Tiwari M, and Singh R had also contributed by comparing the k-means and k-medoid algorithms over the iris dataset. Athman Bouguettaya[3]research article for clustering the data online had been a note making research article in identifying the dependencies of various clustering algorithms. R. Davé and R. Krishnapuram, have proposed clustering methods that are tough and used in various real world applications they also specified the requirement of having the robustness of various clustering algorithms [4].

聚类

聚类是一种无监督学习活动数据分成不同的组。它也可以被认为是一种特殊类型的分类(5、6)。它主要用于识别给定的数据项之间的相似之处。执行集群活动在各种类型的数据提出了不同类型的聚类算法。聚类算法执行集群中给定的数据。集群是一组类似的项目定义的数据元素属于同一集群之间的相似度。在聚类有不同的措施或方法度量聚类数据。一些聚类算法用于快速简单的k - means, EM, Clope,最远的第一,使集群密度,过滤聚类、层次聚类[5]等。这些都是用来执行聚类的聚类算法在数据。在集群每个算法都有自己的措施相似集群形成的不同的聚类算法不需要相同。一个算法可以使5集群其他集群只能定义3组。 The number of clusters formed by the data depends upon the uniqueness and dissimilarity present in the data and the variables considered as metrics for clustering. Clustering is a tricky activity for a beginner because it has much to interpret. In this paper we use various selective clustering algorithms being selected and applied over different dataset which is discussed in future section.

第四,WEKA

Weka是一个开源工具由新西兰怀卡托大学。这是一个收集的各种类型的机器学习算法用于数据挖掘任务。Weka是一个GUI工具,用于开发不同的新的机器学习算法和方案。Weka也有预定义的数据集和算法的库来执行不同的基于数据挖掘操作。Weka也可以用于预处理的数据执行任何操作之前,数据的分类、聚类、关联和可视化(2、5、6)。在本文中,我们使用这个工具的可视化结果和应用选择性像简单的k - means聚类算法,EM,最远的第一clope蜘蛛网等。我们也选择不同的数据集,如定性破产[7],虹膜2 d[8],等等,进行聚类。

诉聚类算法

在本文中,我们选择了以下聚类算法:简单的k - means, EM,最远的首先,CLOPE,蜘蛛网,使集群密度,过滤聚类、层次聚类
答:简单的k - means
k - means是一个迭代的聚类算法(2、5),这里的物品之间传输集群,直到各自组相关的集合分配给数据集的数据元素。它是一个基于划分的聚类算法。Kmeans也可以承担各种平方误差算法[2]。集群的ki = {ti1 ti2,……、时间}
图像
在许多情况下,简单的k聚类算法意味着需要更多的时间来形成集群。我们建议不考虑大型数据集。

b .最远的第一

最远的首先是兄弟姐妹的k聚类算法。FF的地方点远离当前集群中心集群[5]。这一点必须在数据区域。点远第一次聚集在一起。最远的第一个聚类算法执行速度因为这个修改从k - means聚类过程。在各种情况下需要更少的重新分配和调整该算法。

c . Clope

CLOPE是应用在大型数据集的聚类算法。这种算法非常快,也可伸缩、收益率低响应时间或导致较小的破裂时间相比,简单的k - means在大型数据集。为集群CLOPE更大的数据集是很有效的。clope算法如下所示[2]。
图像
图像
这里,r是一个非负实数称为排斥,这是用来控制星团内的水平相似[6]。如果r是更大的价值,交易代表同一集群共享的公共项目相比其他集群。
d .蜘蛛网
蜘蛛网使用启发式评估测量称为类别树的实用指导施工。它逐步包含对象到一个分类树为了得到最高的类别效用。,可以创建一个新类,这是一个大的蜘蛛网和k - means方法之间的区别。蜘蛛网提供基于类实用程序类的合并和分裂,这使得蜘蛛网能够做双向搜索。例如,一个合并可以撤销之前的分裂。而对于k - means,集群通常是单向的,即点的集群是由集群中心的距离。它可能是非常敏感的离群值的数据[9]。

e .期望最大化

EM算法也是一个重要的数据挖掘算法。我们使用这个算法k - means方法的结果感到满意。采用(EM)算法是一种迭代法寻找最大似然或最大后验(MAP)的估计参数统计模型,在该模型依赖于未被注意的潜在变量。EM迭代之间的交替执行期望(E)步骤,计算期望的日志可能性评估使用的当前估计参数,最大化(M)的步骤,计算参数最大化预期对数似发现E步骤。然后将这些参数用于确定潜在变量的分布在接下来的步骤。聚类分析的结果写入一个乐队命名类指数。这个乐队的值指示类指标,在一个值“0”是指第一个集群;值“1”是指第二个集群等[9]。

f .使密度聚类

集群在一个密集的地区是一个点集,由低密度区域形成密集区域的紧。集群使密度聚类算法当集群不定期是非常有用的。这使基于密度的聚类算法也可以使用如果数据噪声和当有异常值数据。相同的点密度和现在将连接而形成各自的相同区域内集群[2]。
密度聚类算法
一个¯‚·计算ε-neighborhood数据空间中的所有对象。
¯‚·选择一个核心对象有限公司
一个¯‚·所有对象公司ε有限公司,加上这些对象y公司的密度与有限公司继续,直到没有进一步y。
一个¯‚·重复步骤2和3,直到所有核心对象处理。
g .过滤聚类
过滤后的聚类算法用于过滤信息,在给定的数据集数据或模式。用户提供的关键字或者一组样品,包含相关的信息[6]。对于每一个新信息,他们现在相比对可用的过滤和匹配关键字的信息呈现给用户。过滤配置文件可以由用户通过提供相关纠正反馈检索信息。过滤算法如下:
算法:过滤聚类
一个¯‚·找到预滤器阈值θ。
一个¯‚·集群预滤器集。
一个¯‚·选择聚类阈值σ,关键字的基础上和初始相关文档集。
一个¯‚·为每个新信息或模式αθ的距离内过滤概要(2,6)。

h .层次聚类

层次聚类也称为基于连接的聚类,主要是基于对象的概念是相对于附近的对象比遥远的对象。分层的方法通常分为烧结的和分裂的方法依赖的层次结构是如何形成的。分层算法连接“objectsA¢€–和形成“集群”通过测量距离。集群也可以被视为与所需的最大距离大型集群连接的部分。在不同的距离,许多集群形成。这些算法不能提供一个分区的数据集,但他们提供了一个广泛的层次结构的集群相互合并在特定距离[2]。

VI。实现

在本文中,我们使用weka API[10]和选择性数据集和聚类算法进行比较分析。这里的措施被认为是破裂时间即采取集群数据集的算法。然后各自的时间和最快的算法相比。应用同样的方法应用在不同的数据集,我们获得各种数据集的快速聚类算法。实验结果和实现结果下一节所示。

七世。结果

通过使用weka API和实时数据集,我们正在评估各种聚类算法的性能。这些算法应用于五个数据集和个人各自算法的时间复杂性是如下表所示:
imagfe
上面的表代表了各自的破裂乘以八聚类算法在5的数据集。从上述破灭时候我们可以分析,快速计算聚类算法在每组是最远的第一名。和EM算法执行与高破裂时间的聚类。所以我们下面显示一个图表与各自的破裂乘以七聚类算法排除EM /五个数据集。
图像

八世。结论

在本文中,我们观察到所有的考虑聚类算法表现他们对不同的数据集产生变量聚类结果。例如,蜘蛛网进行了聚类算法与最小破裂时间在Iris数据集;而分层聚类算法与最小破裂时间进行了聚类供应商的数据集。唯一的算法显示一致的结果是最远的第一次在各种各样的数据集。

第九。未来的工作

在当今世界商业智能将新的形状,许多通过集群提供新的解决方案。在未来时代会提出许多新的聚类算法,这些算法可以观察到的行为通过执行这种类型的评估。

引用

  1. 这:概念和技术byjiawei汉、米歇琳·室,爱思唯尔出版。
  2. 夷陵阳,Xud ong关,晋元你,CLOPE:一个快速和有效的事务数据聚类算法。2002 ACM 1 - 58113 - 567 - x / 02/0007。
  3. AthmanBouguettaya“集群”,IEEE事务知识和数据工程卷8,1996年4月2号。
  4. r·戴夫和r . Krishnapuram¢€•健壮的聚类方法:一个统一的观点,一个¢€–IEEE反式。模糊系统。,vol. 5, no. 2, pp. 270–293, May 1997.
  5. Bhoj Raj Sharmaa阿曼宝拉,聚类算法:研究和绩效评估使用Weka工具,国际目前的工程和技术杂志》,2013年,ISSN 2277 - 4106。
  6. 夷陵阳,Xud ong关,晋元你,CLOPE:一个快速和有效的事务数据聚类算法。2002 ACM 1 - 58113 - 567 - x / 02/0007。
  7. http://archive.ics.uci.edu/ml/datasets/Qualitative_Bankruptcy
  8. http://www.cs.waikato.ac.nz/ml/weka/datasets.html
  9. 纳兰德拉·沙玛,阿曼亚太区先生Ratnesh Litoriya, weka工具的各种聚类算法相比,国际期刊的新兴技术和先进的工程(ISSN 2250 - 2459,卷2,问题5,2012年5月)
  10. http://www.cs.waikato.ac.nz/ml/weka
  11. 爱德华多·劳尔Hruschka里卡多·j·g·b·Campello亚历克斯·A·Freitas Andr´e c·庞塞利昂·f·德·卡瓦略,进化算法聚类的调查,ieee系统,人,和cybernetics-part c:应用程序和评论,39卷,。雷竞技苹果下载2、2009年3月,pg: 133 - 151。
  12. 女子M和辛格R (2012), k - means K-Medoid算法的比较调查的虹膜数据,工程研发、国际期刊4:69 - 72。