关键字 |
预处理;数据清洗;集群。 |
介绍 |
今天,为了在这个匆忙的生活中尽早收集信息,互联网是非常重要的。每当我们连接到互联网时,如果我们不知道正确的URL,就会感到困惑,因为你想要的信息有很多页面,而且每天都在添加更多的页面。Web挖掘是对数据的挖掘,即无论我们想要什么,无论是图表技术,人工智能等等,我们都必须包含它,并根据用户的需要提供给他们。该数据以精确的模式存储,便于检索数据。今天,像网页设计,创建有吸引力的网站等活动都是网络使用挖掘技术的一部分。 |
每当用户请求任何数据时,web服务器就开始在日志文件中收集数据。其中包含客户端IP地址,请求的URL等,但所有的信息都有不同的格式,主要是由apache和IIS发布的。Web使用挖掘是一个预处理过程,在挖掘过程中丢弃不需要的命中记录,包括用户身份、IP地址、会话识别等。不需要的记录在挖掘过程中被清洗,称为数据清洗。可以通过以下示例感知会话标识。考虑到登录社交网站的用户使用该页面30分钟,这意味着会话时间将被记录为30分钟,如果用户点击另一个页面,会话时间将被改变。用户点击的页面总数创建用户会话。基于模式分析和聚类的技术在信度函数的帮助下得到应用。 |
文献综述 |
Web使用挖掘是为用户在访问互联网时所做的发明。它是关于用户要求从web服务器获取特定信息。Web使用挖掘是应用程序中涉及到的各种使用模式和技术,使其易于使用并满足基于Web的应用程序的需求。这个应用程序也有助于了解用户在网站的浏览行为。 |
识别系统日志文件的健康状态的源被使用,它也被用于捕获在计算机系统和网络中执行的操作。日志是日志条目的集合,每个日志文件由与网络中执行的特定操作相关的信息组成。许多日志还包含与计算机安全相关的记录,这些记录由许多来源产生,包括服务器上的操作系统、工作站计算机、网络设备和其他安全软件,如防病毒、防火墙、入侵检测和防御系统以及许多其他应用程序。定期的日志分析有助于识别安全欺诈活动、策略违反和其他操作问题。它还有助于执行法医分析、内部调查识别、业务趋势和长期问题。在长期使用日志是用来克服问题,但现在它被用于许多组织和协会的许多操作,如优化系统和网络性能,记录用户操作,并为调查恶意活动[7]提供数据。 |
灵藏[10]采用了一种改进的数据预处理技术,以解决传统数据预处理技术在web日志挖掘中存在的一些问题。 |
Doru Tanasa[8],他对网络用户挖掘的贡献是可观的,一个令人印象深刻的处理网络日志的理论过程,他发明了一般的方法,他们的方法,他们与具体方法的关系和他们的模式。 |
web日志记录是由发现频繁访问模式集的惠萍彭[9]通过FP-growth算法处理的。浏览活动与网站拓扑结构和他们的关联规则的web挖掘,他创建的数据,这有助于新网站的建设过程。 |
预处理的第一步是数据清洗,用于去除异常值。分析服务器日志中的数百万甚至数万亿条记录是一项繁琐的活动。如果用户从由gif、JPEG等组成的服务器条目请求特定页面,则是不相关的记录并从日志中删除。这些记录表明,由于语法错误或日志中忽略了丢失的文件,客户端请求无法实现。自动程序被请求到服务器按照固定的时间限制,如果所花费的时间少于2秒,这种类型的条目将被根除用户查看特定页面所花费的时间称为参考长度[2]。如果用户在网站上播放视频或浏览特定图像,用户所花费的时间将不被考虑。从网页中删除的时间称为停留时间。了解用户的实际浏览时间是一件很重要的事情。 |
还考虑了页面的数据传输速率和大小,计算参考长度为RL time = RLT ' - bytes_sent / c,其中RLT '[6]表示会话时间与除特定命中次数之外的命中次数之间的差值,bytes_sent来自记录的日志项,c是数据传输速率。 |
下一个重要步骤是唯一用户标识。用户识别[3]是通过识别哪些页面被访问以及谁访问了网站来完成的。用于查找唯一用户IP地址的字段、推荐人字段、用户代理字段。IP地址代表唯一标识。如果两条记录的IP地址相同,则检查浏览器信息。如果两条记录的用户代理值相同,则它们被标识为同一用户,因为用户代理字段提供了有关客户端浏览器、浏览器版本和客户端操作系统的信息。 |
一个用户在一段时间内发出的一系列请求称为用户会话。会话识别的主要目的是将访问每个用户的页面分离为单独的会话。这些会话用于各种预测、分类、分组和其他任务。推荐URL字段的当前记录与过去的引用记录相匹配,如果之前没有使用过,并且推荐URL字段为空,那么它被认为是一个新的用户会话。指定用户访问的页面数称为页面查看时间,默认时间为30分钟[4]。基于两个时间戳之间的差异计算的页面停留时间,这两个时间戳取决于在特定页面上花费的时间。如果时间超过10分钟,第二个条目将被理解为一个新的会话。 |
web个性化包括数据收集和预处理、模式发现和评估等不同阶段,这些阶段为数据挖掘创造了有用的信息,有助于感知用户对web的行为。为了实现多数据源的目的,在web个性化下建立了灵活性,并在自动化系统中有效地发现了这种灵活性。数据挖掘算法[5]也可以辅助web个性化,包括聚类技术、关联规则挖掘、顺序模式挖掘。最后,为了实现有效的个性化,数据挖掘框架使用了多种渠道。 |
提出工作 |
在数据挖掘中,使用了不同数据集的不同类型的日志数据,其中包含了在准备过程中出现的各种问题。主要问题是无法获得可靠的数据集进行挖掘。准备好的数据集将在事务下构造,用户访问行为将是可靠的 |
数据预处理技术提高了模式的整体质量。对原始数据进行提前处理,得到可靠的会话,进行高效挖掘。它包含不同领域相关的任务,如数据清理、用户识别、聚类、会话识别和事务构造。一个特定网站的访问者数量,他们获得的信息是由网络服务器监视的。web服务器日志文件在web使用挖掘中扮演着重要的角色,因为服务器日志收集了所有的信息,他们的会话上网行为和兴趣朝向特定的信息。 |
结论 |
数据处理系统的分析和实现可以通过对日志数据的web使用挖掘来实现,其中限制了数据清洗、用户识别和聚类。像机器人入口这样不受欢迎的点击会定期清理。用户在特定页面上花费的时间是根据参考长度计算的。引用长度的总数创建会话时间。所有预处理步骤都足够有效,为数据挖掘提供可靠的输入。还有其他一些理论提供了有用的聚类技术。但是琐碎的输入是每一秒都读取记录的输入。 |
参考文献 |
- Istvan K. Nagy和Csaba gaspara - papanek“基于网页花费时间的用户行为分析”,网络挖掘在电子商务和电子服务中的应用,计算智能研究,施普林格,2009
- 李燕,冯伯勤,“面向Web使用挖掘的交易构建”,计算智能与自然计算国际会议,IEEE, 2009。
- 罗伯特。Cooley, Bamshed Mobasher和Jaideep Srinivastava,“挖掘万维网浏览模式的数据准备”,国际知识与信息系统杂志,1999。
- N. M. Abo El-Yazeed,“基于部分祖先图技术的会话构建的Weblog预处理”。
- Bamshad Mobasher“Web个性化的数据挖掘”,LCNS, Springer-Verleg Berlin Heidelberg, 2007。
- B.Uma Maheswari和P.Sumathi博士,“一种新的网络日志挖掘的聚类和预处理”,IEEE, 2014。
- Muhammad Kamran Ahmed, Mukhtar Hussain和Asad Raza“一种自动用户透明的方法来记录用于法医分析的Web url”2009第五届IT安全事件管理和IT取证国际会议。
- Doru Tanasa和Brigitte Trousse,“跨站点Web使用挖掘的高级数据预处理”,由IEEE计算机学会出版,第59-65页,2004年3月/ 4月。
- 彭慧萍,“基于Web使用挖掘的有趣关联规则发现”,计算机科学与技术会议,pp.272-275, 2010。
- 郑玲,李峰,“基于优化数据预处理的Web日志挖掘技术”,计算机科学与技术会议,pp. 6 - 11, 2010。
|