关键字 |
数据挖掘、大数据、集群。频繁模式、关联规则、Hadoop MapReduce框架。 |
介绍 |
数据挖掘(DM)的过程称为从大量数据中提取有用的模式或信息。大部分研究人们思考数据挖掘作为一种知识发现数据库。数据挖掘任务的自动或半自动分析大量数据提取未知有趣的模式,比如组数据记录(聚类分析),不同寻常的记录和依赖关系(关联规则挖掘)。数据挖掘是一种新的技术从数据中提取知识。它是用来探索和分析。要挖掘的数据变化从一个小数据集到一个大数据集即大数据。数据挖掘环境产生大量的数据。信息检索的数据挖掘步骤转化为结构容易被用户理解。数据挖掘涉及各种方法如频繁模式树算法、关联规则和聚类分析,揭示隐藏的模式在大型数据集。 |
大数据处理的数据量大的数据挖掘的环境。换句话说,它是集数据集规模庞大、复杂的很难处理手头使用关系数据库管理工具或传统的数据处理应用程序,因此数据挖掘工具。大数据是将非结构化的,无价的,不完美的、复杂的数据转换成有用的信息。数据有隐藏信息和提取这一新的信息;相互关系的数据必须实现。信息可以从一个隐藏的检索或一个复杂的数据集。标准如探索性数据分析方法,聚类,阶乘,分析需要扩展到获取信息和提取新的知识财富。大数据可以测量使用以下分类的四维空间V的:,体积,速度,多样性和准确性; |
1。体积——在超大规模的数据量。被收集的信息量非常巨大,现代数据库管理工具无法处理它,因此变得过时。 |
2。速度我们生产数据以指数速度增长,是不断在tb和peta-bytes。 |
3所示。各种我们正在创造各种形式的数据结构化、半结构化和结构化数据。该数据异构是自然。我们大部分的现有工具在同质数据,现在我们需要新的工具和技术,可以处理这样一个大规模异构数据。 |
4所示。真实性——数据生成在本质上是不确定的。很难知道哪些信息是准确的和过时的。 |
本文回顾大数据的不同雷竞技苹果下载方面。纸被描述如下,部分我:介绍大数据。第二部分。第三大数据.Section相关工作:处理大数据的体系结构。第四部分:描述了各种算法用于处理大数据。第五部分:描述不同的大数据技术和工具。 |
相关工作 |
R。阿加瓦尔提出数据挖掘关联规则对大数据集.Various快速算法提出了分散系统Cheun.D。W提出了一种快速的分布式数据挖掘关联规则算法通过减少信息传递的数量。Thabet Slimani提出了关联规则挖掘的当前趋势和比较不同算法的性能。揭示了挑战和机遇的数据库大数据的存在。作为一个最近的努力介绍贡献在Hadoop MapReduce和优化大数据处理效率。山姆·马登了传统数据库和数据库大数据得出结论,认为需要数据库不能解决大数据的各个方面问题和关联规则挖掘算法需要更健壮和不成熟的用户更容易申请。讨论架构考虑大数据得出结论,尽管不同的体系结构和设计决策,分析系统的目标水平扩展,弹性和高可用性。 |
大数据架构 |
大数据的发展就是把不完美的,复杂的,往往非结构化数据转化为可操作的信息。这意味着利用先进的计算工具,开发了在其他领域。大数据意味着大量的数据,这样大,很难收集、存储、管理、分析、预测,可视化和数据模型。大数据分析是指工具和方法,旨在将大量的原始数据转换为“关于数据的数据”进行分析。大数据的收集大量的非结构化数据。大数据意味着大量的数据,这样大,很难收集、存储、管理、分析、预测,可视化和数据模型。大数据架构通常由三个部分组成:存储系统、处理和分析 |
算法 |
许多算法被定义在大数据集的分析。将经历不同的工作来处理大数据。第一个是称为关联规则挖掘,二是聚类,最后是称为频繁项目集。 |
1。关联规则挖掘:协会将识别不同属性之间的相互关系以及属性值。关联挖掘是最有用的采矿方法使用作为一个个体过程以及一些数据挖掘模型阶段提高结果的准确性。它主要对数据值之间的关系。它与不同的挖掘操作,比如数据清洗、分类、过滤的方法等。协会挖掘可以水平或垂直。协会挖掘的水平也被认为是通过定义相关属性的数量 |
2。集群:这是从来没有有效处理大型数据集。获得快速运行大型数据集的结果,完整的数据集分为更小的数据集。有许多现有的聚类方法来收集类似的数据集在一个集群中。基本上是基于距离进行聚类分析法等分析欧式距离。有许多现有的聚类方法如Kmeans方法,模糊CMeans方法,分层聚类等。 |
3所示。频繁项集:项目集满足的标准大于或等于最小频繁项目集的支持。它用L i, i = itemset。如果项目集不满足标准的非频繁项目集。 |
大数据技术和工具 |
有品种的应用程序和工具开发的各种组织过程和分析大数据。大数据分析应用程序支持的帮助下并行计算集群。这些计算集群的硬件连接的以太网电缆。以下是主要应用领域的大数据分析。 |
即MapReduce:MapReduce是一种编程模型计算大量的数据和执行框架,用于大规模数据处理服务器集群上。它最初由谷歌开发的介绍和建立在原则并行和分布式处理。MapReduce程序包括两个函数的映射功能,减少功能。MapReduce计算执行如下; |
1。每个键值映射函数转换为基于输入数据。map函数的输入是元组或文档。键值对的方式产生的输入数据是由用户编写的代码的映射函数。 |
2。每个映射的键-值对任务收集由一个主控制器和排序键。减少任务分给所有的按键,所以所有键值相同的关键在减少任务。 |
3所示。减少任务工作的一个关键,并将所有与该密钥关联的值。值的组合方式是由减少的用户编写的代码的功能。 |
MapReduce的主要优势: |
1。MapReduce模型隐藏细节有关数据存储、分发、复制、负载平衡等。 |
2。此外,它非常简单,程序员只指定两个函数,映射功能,减少功能,用于执行的处理大数据。 |
3所示。MapReduce已经收到了很多关注在许多领域,包括数据挖掘、信息检索、图像检索、机器学习和模式识别。 |
二世。Hadoop:Hadoop是一个免费的基于Java的编程框架,支持大型数据集的处理在分布式计算环境中。它是Apache项目的一部分由Apache软件基金会赞助。Hadoop的灵感来源于谷歌的MapReduce编程范式。Hadoop是一个高度可伸缩的计算和存储平台。但另一方面,Hadoop还耗费时间和storage-consuming。Hadoop的存储要求是非常高的,因为它可以生成大量的中间数据。减少存储容量的要求,Hadoop在存储之前经常压缩数据。Hadoop主方法到一个大的工作量,映射成较小的工作负载。这些较小的工作负载合并获得最终的结果。Hadoop处理这个工作负载分配大型集群的廉价的节点由商品硬件。Hadoop还具有分布式、集群文件系统存储大量的数据,这通常需要在这些工作负载。 Hadoop has a variety of node types within each Hadoop cluster; these include DataNodes, NameNodes, and EdgeNodes. The explanations are as follows: |
A.NameNodes:namenode中央位置的信息文件系统部署在一个Hadoop环境。一个环境可以有一个或两个namenode, namenode之间提供最小冗余配置。的客户联系的namenode雷竞技网页版 Hadoop分布式文件系统(HDFS)来定位信息在文件系统,并提供更新的数据添加,移动,操纵,或删除。 |
B . . datanode:datanode占据了绝大多数的Hadoop中包含的服务器环境。常见的Hadoop环境将有超过一个datanode通常会以数百计基于容量和性能的需求。datanode有两个职能:它包含一个HDFS中的部分数据和它作为一个计算平台运行工作,其中一些将在HDFS利用本地数据。 |
C.EdgeNodes:EdgeNodes接入点的外部应用程序、工具和用户需要使用Hadoop环境。EdgeNodes坐落在Hadoop集群和企业网络提供访问控制、策略执行、日志记录和网关服务Hadoop环境。典型的Hadoop环境将有至少一个EdgeNodes,更多基于性能的需求。 |
三世。IBM InfoSphere:它是一个基于Apache Hadoop的解决方案来管理和分析大量的结构化和非结构化数据。它是建立在一个开源的Apache Hadoop与IBM大表和具有各种性能、可靠性、安全性和管理的功能。 |
IV.Spreadsheet-Style分析(SSA):基于网络的分析和可视化.Define和管理长期运行数据收集工作和分析内容检索的页面上的文本。 |
V.RHadoop:统计工具来管理大数据。 |
VI.Mahout:在大数据的数据挖掘和机器学习工具。 |
结论 |
本文研究大数据分析的不同应用程序和工具。大数据是一个非常具有挑战性的研究领域和最近的趋势在IT行业。数据太大了,过程使用传统数据处理应用程序的工具。学术界和产业界必须共同努力,设计和开发新的工具和技术,有效地处理大数据的处理。大数据是一个新兴的趋势,即时需要的新的机器学习和数据挖掘技术分析大规模和复杂的数据量在不久的将来。Hadoop和地图减少对大数据工具详细描述关注领域需要改进,以便在未来大数据技术和技能。 |
表乍一看 |
|
表1 |
|
数据乍一看 |
|
|
图1 |
图2 |
|
引用 |
- 大数据的发展:挑战和机遇”,全球脉搏,2012年5月
- 约瑟夫•麦肯德里克”大数据,大挑战,大机遇:2012 IOUG大数据战略调查”,IOUG, 2012年9月。
- KapilBakshi,“考虑大数据:架构和方法”,IEEE 2012
- 与大数据挑战和机遇”,2012年。
- 大数据宝藏的数据,2012年调查结果”
- MVijayalakshmi, M。Renuka井斜”,调查不同的问题不同的聚类算法用于大型数据集”,InternationalJournal先进的研究在计算机科学和软件工程,2012年3月。
- 通过吴、星泉朱Gong-Qing吴魏叮,与大数据“数据挖掘。
- Girola11] Girola米歇尔,et al。“IBM数据中心网络:虚拟化和云计算的计划。”GOOGLE/IP. COM/IBMRedbooks (2011).
- > Jens和Jorge-ArnulfoQuiane-Ruiz。“高效的大数据处理HadoopMapReduce。”Proceedings of the VLDB Endowment5.12 (2012): 2014-2015.
- 山姆·马登“大数据从数据库”,IEEE,网络计算,2012年5月- 6月。
- 大数据的发展:挑战和机遇”,全球脉搏,2012年5月
- 约瑟夫•麦肯德里克”大数据,大挑战,大机遇:2012 IOUG大数据战略调查”,IOUG, 2012年9月
|