在线刊号(2320-9801)印刷刊号(2320-9798)
使用映射缩减的数据立方体物化
数据立方体查询是决策支持系统中联机分析处理(OLAP)查询的重要一类。为了满足提高性能的需求和处理数据量的增加,我们有效地使用并行解决方案生成数据立方体。我们提出了负载平衡和通信高效的分区策略,为每个处理器生成一个子立方体计算。子立方体计算然后进行使用现有的顺序,外部存储器数据立方体算法。在并行系统中,平衡分配给不同处理器的负载和最小化通信开销是实现高性能的核心问题。在本文中,我们提出了一种三相立方体计算算法MR-Cube,该算法利用这些技术成功地对数十亿元组大小的数据集进行立方体运算,并可选地显示感兴趣的立方体组。在本文中,我们详细介绍了在某些类型的数据集上的多维数据集物化和挖掘任务中的现实挑战。不同寻常的是,我们确定了整体度量的一个重要子集,即非代数度量,并提出了MR-Cube,即基于mapreduce的框架,用于高效的多维数据集计算和整体度量上感兴趣的多维数据集组的识别。
Kawhale Rohitkumar, Sarita Patil