所有提交的EM系统将被重定向到网上投稿系统.作者被要求将文章直接提交给网上投稿系统各自的日志。

研究文章雷竞技app下载苹果版

基于Apache Hive的Hadoop框架下Web服务器日志统计分析

摘要

Web日志文件是由Web服务器自动创建和维护的日志文件。分析web服务器访问日志文件将为网站使用情况提供有价值的见解。由于web的大量使用,web日志文件的增长速度越来越快,大小也越来越大。使用关系数据库技术处理这种爆炸性增长的日志文件一直面临瓶颈。对如此庞大的数据集进行分析,需要并行处理系统和可靠的数据存储机制。Hadoop利用的是大数据,在大数据中,大量的信息是使用商用硬件集群来处理的。本文基于Hadoop分布式文件系统架构和Hadoop mapreduce框架以及HiveQL查询语言,提出了一种用于海量web日志文件预处理、网站静态数据查找和用户行为学习的方法。

哈里斯·S,卡维莎·G

阅读全文下载全文|访问全文

全球科技峰会