在线刊号(2320-9801)印刷刊号(2320-9798)
基于映射约简范式和大数据分析的非结构化数据抽取、转换和加载策略
通过大数据,现在可以对大量数据进行分析。来自社交媒体、移动设备、传感器等众多数据源的数据每时每刻都在积累。为了从来自多个(通常不相关的)来源的不同信息源中提取见解,需要将数据关联或协调到一个共同的粒度级别。将非结构化数据加载到数据仓库中变得越来越复杂。讨论了一种获取非结构化数据到Hadoop分布式文件系统的策略。对提取的数据进行数据清理和分析对于克服数据质量问题非常重要。变换阶段用映射减少框架进行。计算率,网络带宽和数据局部性参数监测全转储和增量负载操作。Pig Latin用于处理来自Hadoop分布式文件系统的数据,最后将处理数据加载到HDFS文件或数据仓库中。来自Pig的聚合数据是最小的,数据子集被加载到数据仓库,用于业务分析和企业报告。 Based on the Performance related parameters appropriate strategy is suggested for Different type of application.
P.Saravana kumar, M.Athigopal, S.Vetrivel
阅读全文下载全文