在线刊号(2320-9801)印刷刊号(2320-9798)
基于Apache Hive的Hadoop框架下Web服务器日志统计分析
Web日志文件是由Web服务器自动创建和维护的日志文件。分析web服务器访问日志文件将为网站使用情况提供有价值的见解。由于web的大量使用,web日志文件的增长速度越来越快,大小也越来越大。使用关系数据库技术处理这种爆炸性增长的日志文件一直面临瓶颈。对如此庞大的数据集进行分析,需要并行处理系统和可靠的数据存储机制。Hadoop利用的是大数据,在大数据中,大量的信息是使用商用硬件集群来处理的。本文基于Hadoop分布式文件系统架构和Hadoop mapreduce框架以及HiveQL查询语言,提出了一种用于海量web日志文件预处理、网站静态数据查找和用户行为学习的方法。
哈里斯·S,卡维莎·G