所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

使用地图减少数据立方体实体化

Kawhale Rohitkumar1,Sarita帕蒂尔2
  1. 学生,计算机工程部门,G。H Raisoni工程学院管理浦那India1 SavitribaiPhule浦那大学
  2. 助理教授,计算机工程部门,G。H Raisoni工程学院管理浦那India2 SavitribaiPhule浦那大学
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

数据立方体的查询行为的一个重要类在线分析处理(OLAP)在决策支持系统中查询。为了满足这种needof改善性能和处理数据大小的增加,并行解决方案有效地生成数据立方体。我们目前的负载平衡和沟通有效的分区策略生成子立方体计算为每个处理器。子立方体计算然后使用现有的顺序进行的,外部内存数据立方体算法。systemsbalancing负载分配给不同的处理器和并行通信开销最小的核心问题是实现高性能。在本文中,我们提出一个三相MR-Cube立方体计算算法,采用这些技术成功立方体billion-tuple大小的数据集,和可选的表面有趣的多维数据集。在本文中,我们详细真实的挑战在立方体实体化和挖掘任务在某些类型的数据集。异乎寻常的是,我们确定了整体的一个重要子集措施即non-algebraic措施,使MR-Cube,即。MapReduce-based框架有效的多维数据集计算和识别有趣的立方体组织整体的措施。

关键字

大数据,数据立方体;MapReduce;值分区

介绍

数据立方体的重要概念和研究方向OLAP(联机分析处理)。在前几年,数据立方体上的研究主要在两个方面:首先,如何把立方体压缩和存储多维数据集。成为大规模数据,存储多维数据集的所有数据需要大量的空间和资源。其次,如何选择立方体并实现它们。为了帮助客户获得有效数据,许多学习者注意寻找最好的方法如何选择和实现数据立方体。
研究人员建议各种算法在多维数据集的压缩和存储,如商立方体,明星立方体,立方体冰山等等。在冰山立方计算,数据集不满足的要求预定义的约束将被删除,而不是存储。这表明,初始数据集压缩。商立方体依靠等价划分。它使语言学的初始数据集,所以这个问题将得到的结果在任何简单立方体。在恒定的时间,一些学习者预计冰山的建造商立方体。这个立方体可以商立方体和冰山立方体。
在这个数据爆炸的时代,并行处理是至关重要的,及时处理大量的数据。数据立方体分析是一种研究多维数据的有力工具。用户通常认为数据是多维数据立方体。数据立方体建设数据仓库是一个常用的操作。每个单元格的数据立方体是一个视图组成的一个利益聚合。这些细胞的值依赖于其他细胞的值在数据立方体。熟悉并占领了查询优化方法是包含各种或各方的这些细胞很比计算每次从原始数据。商业系统的主要区别在于其物化数据立方体[4]的方法。立方体分析为用户提供了一个最好的方法从数据通过计算发现见解不同的综合措施。数据分析应用程序通常聚合数据在许多方面寻找奇怪的模式。它是一个过程,从大型数据库中提取有用的模式。Therefore it employs methods at the cross point of statistics,machine learning and database systems.Data mining is the core process or the heart of knowledge discovery in database. Data mining is the application of efficient algorithms to detect the desired patterns contained within the given data.

相关工作

引入数据立方体,有许多技术[5],[6],[8],[9],[10]提出了计算有效的多维数据集。数据立方体计算以及具体化的一个最基本但昂贵的程序数据仓库[1][3]。先前的研究已经开发出两个主要方法,自顶向下和自底向上。前者,由多路数组立方体算法,同时聚集在多个维度;然而,它不能利用先验修剪时计算冰山立方体[5]。
我们的工作是第一个全面研究立方体实体化整体措施使用MapReduce范式[3]。除了描述真实世界的挑战与整体多维数据集关联的计算使用MapReduce网络级数据集,他们有一些贡献的两阶段立方体实体化算法MR-Cube雇佣了这些技术成功立方体billion-tuple大小数据集[3]。立方体计算任务可以在企业经营者到这些语言可能是猪或蜂巢为用户提供一个友好的方式去探索他们的数据没有发行很多特别的聚合查询[10]。

大数据挖掘的挑战

一个时髦的或智能学习数据库系统来处理大数据,所需的关键是扩大规模特别大的海量数据,并提供治疗,大数据处理框架,其中包括数据访问层从内而外的考虑和计算(层),数据隐私和领域知识(2)层。在我关注数据访问层的挑战和算术计算程序。这样大数据通常存储在许多不同的位置和hugedata卷可能不断增长,一个有效的计算平台需要考虑分布式大规模数据存储计算的一些情况。例如,独特的数据挖掘算法要求所有数据加载到内存,这是成为一个理顺对大数据技术障碍,因为移动数据在不同的位置是昂贵的,即使我们有一个超级准主内存来保存所有的数据计算。

层我:大数据挖掘平台

在典型的系统中,采矿过程需要计算密集型计算单位数据分析和比较。这个系统的计算平台,需要有效的方法,至少两种类型的资源:数据和计算处理器。对于小规模开采任务,一个台式电脑,它包含CPU处理器和硬盘,就足够了。图层1关注底层数据访问和计算。
大数据挖掘,因为数据规模巨大,管理如此巨大的数据也由硬件和这个单一的能力,个人电脑(PC)可以处理,一个典型的大数据处理框架将依赖于集群计算机的高性能计算平台,与挖掘任务部署通过运行一些并行编程工具,如MapReduce(即在大量的计算节点。集群)[4]。软件组件的作用是确保一个挖掘任务,如找到合适的匹配查询从数据库的数十亿美元或数以万亿计的记录,被分成许多小的任务都是运行在一个或多个计算节点。

层2:大数据的语义和应用知识

这一层是指很多方面相关法规、政策、知识域信息和用户。在这一层包含的两个最重要的问题

数据共享和隐私

信息共享是一个分享的动机,一个现实的问题是,大数据应用相关的敏感信息,如医疗记录报收于交易。为了保护隐私,两个常见的方法是1)限制访问数据,添加认证或数据访问控制条目,所以机密信息是由一个有限的访问的用户组,和2)未知的数据字段,不能精确到个人敏感信息记录。对于第一种方法,共同挑战设计安全认证和访问控制机制,这样,没有有意识的信息能被未经授权的个人表现。主要目标是注入随机性数据以确保隐私的目标。

域和应用知识

域和应用程序知识提供合适的信息大数据挖掘算法和系统设计。在基本情况下,领域知识可以帮助识别适合造型底层数据的特性。域和应用知识也可以帮助设计和实现业务目标通过使用大数据分析技术。没有正确的领域知识,这是一个巨大的挑战找到准确描述市场运动的措施,和这样的知识往往是外部的数据矿工,尽管一些当前的研究表明,使用社交网络。

提出了系统

组织有大量的立方晶格的元组,维持这样的中间数据的内存需求可以成为压倒性的。我们提出这一挑战通过识别的一个重要子集整体措施即non-algebraic措施,部分代数措施,引入价值分区机制的数据加载在每台机器上可以控制。我们设计和实现采样算法有效地检测组需要分区数据集,这样价值[1][6]。第二个问题是如何有效地分配计算,这样影响我们之间很好的平衡产生的中间数据量和修剪不必要的数据。我们设计和实现算法划分立方晶格到批处理领域和有效分配可用的物质化和采矿机[2]。conspiratorto描述真实世界的挑战与整体立方体计算使用MapReduce网络规模的数据集,我们做出以下主要贡献:
•我们正式介绍部分代数措施,整体措施的重要子集MapReduce友好的[1]。
•我们将两种技术、价值分区和批处理区域识别,有效地利用了MapReduce框架分配数据和计算工作负载[1][2]。
•我们提出一个三相MR-Cube立方体计算算法,采用这些技术成功立方体billion-tuple大小的数据集,并可以选择有趣的立方体表面组织[4]。
•我们正在调查使用压缩计算数据结构如CM-Sketch解决极端数据倾斜,发生如果几立方组异常大的[5]。
下面的图是拟议的系统架构纸组成的管理水平,客户端,MapReduce阶段聚合函数,输出分析大型数据倾斜的折线图,饼图。管理水平管理,分区的数据立方体的方法与价值。API经理管理的可视化用户界面客户端而DB数据库管理器管理输出地图减少阶段多维数据集形成于从客户端提交的数据集。我们经理对每个级别定义他们的角色。所需的数据集cubing由客户端,以便它可以提供任何类型的大数据集的数据立方体的形成。应用程序的外部接口提供的GUI客户机的映射和减少数据可以计算。等的分析大数据集将由图形、表格、图表。这样,客户端将收到报告。

聚合函数:

一个函数,对一组值执行计算而不是单个值。总措施总结子集的数据是有价值的探索性分析和决策支持,特别是当依赖聚合可以很容易地指定和计算。
代数总量比分配总量更难计算。一个代数总节省的计算处理和生成一个最终结果。super-aggregate需要这些中间结果而不是原始sub-aggregate。一个代数骨料必须维护一个立方体的每个元素处理元组。例如,我们可以用一个博客分析问题说明聚合查询与相关的概念。在这个任务中,我们的目标是了解用户的行为在搜索结果和广告通过分析大规模网络搜索会话日志。

地图减少阶段:

数据分区、容错、执行调度由MapReduce框架本身提供。MapReduce是为了处理大量数据和巨大的集群(成千上万的服务器)。MapReduce是一种编程框架,该框架允许执行用户代码在一个大集群。所有用户必须写两个函数:Map和Reduce。
在映射阶段,输入数据分布在映射器的机器,每台机器然后并行处理数据的一个子集,并产生一个或多个<关键;为每个数据记录值>对。接下来,在洗牌阶段,这些<键,值>对重新分区,每个分区内排序),这样值对应于相同的关键组成值{v1;v2;:::}。最后,在降低阶段,每个减速器机过程的一个子集<键,{v1;v2;:::}>双并将最终结果写入分布式并行文件系统。由用户定义的map和reduce任务洗牌时由系统完成。
即使前伪代码编写的字符串输入和输出,用户提供的概念上的map和reduce函数有相关联的类型。
地图(k1, v1)→列表(k2 v2)
减少(k2,列表(v2)→列表(v2)
两个程序员指定的功能:
•地图
输入:键/值对。(k1, v1)
输出:中间键/值对!列表(k2, v2)
•减少
输入:中间键/值对。(k2,列表(v2))
输出:列表值! (v2)
即输入键和值都来自一个不同的领域比输出键和值。k1, k2是两个不同的密钥用于MapReduce阶段和一样v1, v2是不同的值。中间键和值都来自同一个域作为输出键和值。

先生立方体的方法

我们建议MR-Cube方法解决大规模数据集计算的挑战与整体措施即非代数的措施。我们的目标是把计算成碎片,没有减速机来处理非常庞大的数据组,和总中间数据大小的控制。

代数部分措施

我们首先确定整体的一个子集,即非代数措施容易并行计算比任意整体或non-algebraic措施。我们称之为部分代数的措施。例如,计算测量达到(即。,unique number of users) of billions of search tuples, a known practical approach is to first group the tuples by the user id (uid) and then count the number of such groups produced. It is as if the holistic measure (nonalgebraic measures) has become algebraic for the attribute user id.

值分区

我们想要执行的价值只对某些群体分区可能reducer-unfriendly和动态调整分区的因素。这种方法是检测减速器动态不友好组织和执行分区一旦检测到。这是扫描立方体数据和编译的潜在reducer-unfriendly组列表,映射器将执行分区先生的多维数据集的方法。最后,极端数据倾斜可以发生在一些数据集,这将导致价值划分适用于大多数的立方体区域[1]。
值分区用于分发数据,我们是天真的运行算法。我们只想执行值分区组可能减速机不友好和动态调整分区的因素。我们假设一个抽样方法,求出每个立方体的减速器不友好地区基于群体的数量计算,并执行分区内所有组多维数据集的列表区域(一个小列表),估计是减速器不友好。

批处理区域

分区技术用于有效地分配计算。也称为批处理区域。在每一批区域代表一组区域共享一个共同的优势地区。我们建议结合地区到批处理领域。映射器可以nowlet一个键-值对每批为每个数据元组,从而大大减少了中间数据[2]。还原剂,另一方面,而不是简单地应用测量功能,执行传统的立方体计算算法在元组的集合使用批处理区域作为当地的立方晶格。
直觉上,三个约束状态:(i)地区至少有一个家长,也是减速器友好必须属于一批区域包含至少一个的父母;(2)任何两个地区的父母reducer-unfriendly可以属于同一批次区域;(iii)的不同地区的两个批处理领域的数量不能超过两个,一个启发式用来平衡工作负载的每一批区域[8]。因为每一批区域有效地需要一个独立的数据集的投影,他们直接影响中间数据的大小,因此整体性能。因此,重要的是要构建批区域最小化生成中间数据的数量。的结合过程识别和value-partitioning不友好地区紧随其后的是友好的区域的分区称为注释[2]。生成一个带注释的格子,然后用于执行先生立方体MapReduce。值分区组是合并组的最终结果。

结论

有效的多维数据集计算是数据立方体技术的重要问题。有很多技术用于计算cubessuch多路数组聚合、自底向上计算,炮弹的碎片星体积测量,计算和并行算法。建议的方法有效地分配数据和计算工作负载型的重要子集整体措施我们正在做立方体实体化和确定有趣的多维数据集。MR-Cube算法有效地计算工作负载分配到各机器和能够完成cubing任务之前在规模算法失败。极端数据倾斜是最重要的挑战,如果发生几立方组异常庞大,即使他们属于一个立方体区域顶部的晶格(即。,那些细粒度)。这导致价值划分适用于整个立方体,因此降低了算法的效率。我们正在调查使用压缩计算数据结构如CM-Sketch和对数频率草图作为解决方案。在极端数据倾斜检测和尽量避免相同,我们使用MR-Cube立方体实体化和识别算法有趣的多维数据集。

数据乍一看

图1
图1

引用











全球技术峰会