关键字 |
数据挖掘,大数据,聚类。常用模式,关联规则,Hadoop和MapReduce框架。 |
介绍 |
数据挖掘(DM)是从海量数据中提取有用模式或信息的过程。大多数研究人员认为数据挖掘是一种知识发现数据库。数据挖掘任务是对大量数据进行自动或半自动分析,以提取未知的有趣模式,如数据记录组(聚类分析)、异常记录和依赖关系(关联规则挖掘)。数据挖掘是一种从数据中提取知识的新技术。它是用来探索和分析相同的。要挖掘的数据从小数据集到大数据集,即大数据。数据挖掘环境会产生大量的数据。在数据挖掘步骤中检索到的信息被转换为用户易于理解的结构。数据挖掘涉及频繁模式树算法、关联规则、聚类分析等多种方法,揭示大数据集中隐藏的模式。 |
大数据是指数据挖掘环境所处理的大量数据。换句话说,使用现有的关系数据库管理工具或传统的数据处理应用程序很难处理大量复杂的数据集,因此使用了数据挖掘工具。大数据是关于将非结构化的、无价的、不完善的、复杂的数据转化为可用的信息。数据中有隐藏的信息,要提取这些新信息;必须实现数据之间的相互关系。信息可以从隐藏的或复杂的数据集中检索。传统的数据分析方法如探索性分析、聚类分析、析因分析等需要进一步扩展,以获取信息,提取新的知识宝藏。大数据可以用以下方法进行测量,并按V的四个维度进行分类:体积、速度、多样性和准确性; |
1.体积-数据量非常大。正在收集的信息量是如此之大,以至于现代数据库管理工具无法处理它,因此变得过时。 |
2.速度-我们正在以指数级的速度产生数据,以tb和peta-bytes为单位不断增长。 |
3.各种-我们正在创造各种形式的数据——非结构化、半结构化和结构化数据。这些数据本质上是异构的。我们现有的大多数工具都是在同质数据上工作的,现在我们需要新的工具和技术来处理如此大规模的异构数据。 |
4.真实性-我们生成的数据本质上是不确定的。很难知道哪些信息是准确的,哪些是过时的。 |
本文综述了大数据的不雷竞技苹果下载同方面。本文主要内容如下:第一节:大数据概述。第二部分。大数据的相关工作。第三部分:处理大数据的架构。第四部分:描述用于处理大数据的各种算法。第五节:介绍不同的大数据技术和工具。 |
相关工作 |
chun . d.w提出了一种通过减少消息传递数量的数据挖掘关联规则的快速分布式算法。Thabet Slimani提出了当前关联规则挖掘的趋势,并比较了不同算法的巨大性能。揭示了大数据环境下数据库面临的挑战和机遇。作为最近的努力,介绍了Hadoop和MapReduce在优化大数据处理效率方面的贡献。Sam Madden讨论了传统数据库和大数据所需的数据库,得出的结论是,数据库不能解决大数据问题的所有方面,关联规则挖掘算法需要更健壮,更容易让不熟悉的用户应用。讨论了大数据的架构考虑因素,得出结论,尽管架构和设计决策不同,但分析系统的目标是向外扩展、弹性和高可用性。 |
大数据架构 |
大数据促进发展是将不完善、复杂、通常是非结构化的数据转化为可操作的信息。这意味着利用在其他领域开发的先进计算工具。大数据是指庞大的数据量,大到难以收集、存储、管理、分析、预测、可视化和建模。大数据分析指的是旨在将大量原始数据转换为“关于数据的数据”以用于分析目的的工具和方法。大数据是大量非结构化数据的集合。大数据是指庞大的数据量,大到难以收集、存储、管理、分析、预测、可视化和建模。大数据架构通常包括三个部分:存储系统、处理和分析 |
算法 |
在大数据集的分析中,已经定义了许多算法。将介绍处理大数据所做的不同工作。首先是关联规则挖掘,其次是聚类,最后是频繁项集。 |
1.关联规则挖掘:关联就是要识别不同属性之间的相互关系以及属性值。关联挖掘是一种最有用的挖掘方法,可以作为一个单独的过程,也可以作为某些数据挖掘模型的一个阶段来提高结果的准确性。它主要阐述了数据值之间的关系。它与不同的挖掘操作相关联,如数据清洗、分类、过滤方法等。关联挖掘可以水平或垂直进行。关联挖掘的级别也通过定义关联属性的数量来考虑 |
2.集群:一次处理大型数据集是不可能有效的。为了从大数据集中获得快速运行结果,将完整数据集划分为小数据集。有许多现有的聚类方法可以在一个集群中收集相似的数据集。聚类基本上是基于距离的分析,如欧几里得距离分析。现有的聚类方法有k均值法、模糊c均值法、层次聚类法等。 |
3.频繁项集:满足大于等于支持度最小化条件的项集是频繁项集。用i表示,i= itemset。如果项集不满足条件,则为非频繁项集。 |
大数据技术和工具 |
各种组织开发了各种各样的应用程序和工具来处理和分析大数据。大数据分析应用借助计算集群支持并行化。这些计算集群是通过以太网电缆连接的硬件集合。以下是大数据分析领域的主要应用。 |
即MapReduce:MapReduce是一种用于大量数据计算的编程模型,也是一种用于商品服务器集群上大规模数据处理的执行框架。它最初是由谷歌开发的,建立在并行和分布式处理的著名原则之上。MapReduce程序由两个函数组成,分别为Map函数和Reduce函数。MapReduce计算执行如下; |
1.每个Map函数都根据输入数据转换为键值对。映射函数的输入是元组或文档。从输入数据生成键-值对的方式由用户为Map函数编写的代码决定。 |
2.每个Map任务的键-值对由主控制器收集并按键排序。这些键被分配到所有的Reduce任务中,因此具有相同键的所有键-值对都在同一个Reduce任务中结束。 |
3.Reduce任务一次处理一个键,并以某种方式组合与该键相关的所有值。值的组合方式由用户为Reduce函数编写的代码决定。 |
MapReduce的主要优点: |
1.MapReduce模型隐藏了与数据存储、分布、复制、负载均衡等相关的细节。 |
2.此外,它非常简单,程序员只指定两个函数,map函数和reduce函数,就可以对大数据进行处理。 |
3.MapReduce在数据挖掘、信息检索、图像检索、机器学习、模式识别等领域得到了广泛的关注。 |
2Hadoop:Hadoop是一个免费的、基于Java的编程框架,支持在分布式计算环境中处理大型数据集。它是Apache软件基金会赞助的Apache项目的一部分。Hadoop的灵感来自谷歌的MapReduce编程范例。Hadoop是一个高度可伸缩的计算和存储平台。但另一方面,Hadoop也很耗时和消耗存储。Hadoop的存储要求非常高,因为它可以生成大量的中间数据。为了降低对存储容量的要求,Hadoop通常在存储数据之前对数据进行压缩。Hadoop采用一种主要方法来处理单个大工作负载,将其映射为较小的工作负载。然后合并这些较小的工作负载以获得最终结果。Hadoop通过分配由商用硬件构建的廉价节点组成的大型集群来处理这种工作负载。Hadoop还有一个分布式的集群文件系统,可扩展以存储大量数据,这通常是这些工作负载所需要的。 Hadoop has a variety of node types within each Hadoop cluster; these include DataNodes, NameNodes, and EdgeNodes. The explanations are as follows: |
A.NameNodes:namenode是关于部署在Hadoop环境中的文件系统信息的中心位置。一个环境可以有一个或两个namenode,配置为在namenode之间提供最小的冗余。由HDFS客户端联系的nam雷竞技网页版enode定位文件系统中的信息,并为它们添加、移动、操作或删除的数据提供更新。 |
B . . datanode:datanode构成了Hadoop环境中包含的大部分服务器。常见的Hadoop环境会有多个datanode,根据容量和性能需求,通常会有数百个。datanode有两个功能:它包含HDFS中的一部分数据,它作为运行作业的计算平台,其中一些作业将利用HDFS中的本地数据。 |
C.EdgeNodes:edgenode为需要利用Hadoop环境的外部应用程序、工具和用户提供访问点。EdgeNodes位于Hadoop集群和企业网络之间,为Hadoop环境提供访问控制、策略实施、日志记录和网关服务。典型的Hadoop环境至少有一个edgenode,根据性能需求还会有更多。 |
3IBM InfoSphere:基于Apache Hadoop的海量结构化和非结构化数据管理和分析解决方案。它构建在开源Apache Hadoop和IBM big Sheet上,具有各种性能、可靠性、安全性和管理特性。 |
IV.Spreadsheet-Style分析(SSA):基于web的分析和可视化。定义和管理长时间运行的数据收集作业,并分析已检索的页面上的文本内容。 |
V.RHadoop:管理大数据的统计工具。 |
VI.Mahout:大数据上的数据挖掘和机器学习工具。 |
结论 |
本文对大数据分析的不同应用和工具进行了研究。大数据是IT行业中一个非常具有挑战性和最新趋势的研究领域。数据太大,无法使用传统的数据处理应用程序工具来处理。学术界和工业界必须共同努力,设计和开发新的工具和技术,以有效地处理大数据。大数据是一个新兴的趋势,在不久的将来,人们迫切需要新的机器学习和数据挖掘技术来分析大量复杂的数据。详细描述了大数据的Hadoop和Map Reduce工具,重点介绍了它需要改进的地方,以便在未来大数据可以拥有技术和技能。 |
表格一览 |
|
表1 |
|
数字一览 |
|
|
图1 |
图2 |
|
参考文献 |
- 《大数据促进发展:挑战与机遇》,《全球脉搏》,2012年5月
- Joseph McKendrick,“大数据,大挑战,大机遇:2012 IOUG大数据策略调查”,IOUG, 2012年9月。
- KapilBakshi,“大数据的考虑:架构和方法”,IEEE, 2012
- 《大数据的挑战与机遇》,2012年。
- 《大数据调查结果》,《财富数据》,2012年
- MVijayalakshmi, M.Renuka Devi,“大数据集中使用的不同聚类算法的不同问题的调查”,国际计算机科学与软件工程高级研究杂志,2012年3月。
- 吴新东,朱兴权,吴公庆,丁伟,“基于大数据的数据挖掘。
- 吉罗拉,米歇尔,等。IBM数据中心网络:虚拟化和云计算的规划谷歌/ IP。COM/IBMRedbooks(2011)。
- 迪特里希、延斯和Jorge-ArnulfoQuiané-Ruiz。HadoopMapReduce中高效的大数据处理VLDB捐赠5.12(2012):2014-2015。
- Sam Madden,“从数据库到大数据”,IEEE,互联网计算,2012年5月- 6月。
- 《大数据促进发展:挑战与机遇》,《全球脉搏》,2012年5月
- Joseph McKendrick,“大数据,大挑战,大机遇:2012 IOUG大数据策略调查”,IOUG, 2012年9月
|