关键字 |
Web挖掘,Web使用挖掘,Web日志,用户识别,时态Web挖掘 |
介绍 |
数据挖掘是从不同角度分析数据,并将其总结为有用信息的过程。Web挖掘是应用数据挖掘技术从Web数据中提取知识。根据要挖掘的数据类型,Web挖掘可以大致分为三个不同的类别。它们是web内容挖掘、web使用挖掘和web结构挖掘。 |
数据挖掘:从大量的数据中提取模式被称为数据挖掘。数据挖掘[11]是KDD过程中最重要的一步。有不同类型的挖掘被使用,即Web挖掘,序列挖掘,时间挖掘,挖掘,多媒体和空间挖掘。挖掘有三种基本方法,即关联规则挖掘、分类和聚类。 |
Web挖掘:在Web上可用的数据女巫上的挖掘应用称为Web挖掘。Web挖掘技术使Web更有用,更有利可图(对某些人来说),并提高我们与Web交互的效率。根据要挖掘的数据类型,Web挖掘大致分为三个不同的类别。图1所示。 |
a. Web内容挖掘:Web内容挖掘是从Web文档的内容中提取有用信息的过程。Web内容挖掘处理从Web内容或数据、文档或服务中发现有用信息。 |
b. Web结构挖掘:典型的Web图结构由网页作为节点,超链接作为连接相关页面的边组成。Web结构挖掘是从Web中发现结构信息的过程。 |
c. Web Usage Mining: Web Usage Mining是应用数据挖掘技术,从Web使用数据中发现有趣的使用模式,以理解并更好地服务于基于Web的应用程序的需求。使用数据捕捉网络用户的身份或来源,以及他们在网站上的浏览行为。web使用挖掘分为四个阶段。 |
Web数据:在数据库中进行知识发现的一个重要步骤是为数据挖掘任务构造合适的目标数据集。在Web数据挖掘中,数据可以从Web服务器、客户端站点和代理服务器收集,也可以从组织的数据库获得。不同类型的数据是从不同的位置收集的。在Web Mining[1]中可以使用许多类型的数据。 |
a.网页内容 |
显示在向用户提供信息的Web页面上的数据。Web内容数据的一些例子是文本、HTML、音频、视频、图像等。 |
b.网页结构 |
网页通过超链接相互连接,即各种HTML标记,用于将一个页面链接到另一个页面,一个网站链接到另一个网站。 |
c.网页使用 |
这些数据反映了Web的使用情况,在Web服务器、代理服务器和客户端浏览器上收集,包括IP地址、日期、时间等。这种类型的数据是由web服务器自动生成的,被称为web-log,包含这些数据的文件被称为web-log文件,它是半结构化文本文件。参考表1和表2。 |
d. Web用户配置 |
提供关于Web站点用户的人口统计信息的数据,即用户注册数据和客户简介信息。雷竞技官网 |
数据收集:用户的日志数据是从服务器端、客户端、代理服务器等各种来源收集的。它包括收集相关的网络数据。数据源可以在服务器端、客户端、代理服务器上收集,也可以从包含业务数据或合并Web数据的组织数据库中获取。 |
服务器级收集收集客户端请求,并以web日志的形式存储在服务器中。Web服务器日志是纯文本,独立于服务器平台。大多数web服务器遵循常见的日志格式,如“IP地址,用户名/密码日期/时间戳,URL,版本,状态码,发送字节”,一些服务器遵循 |
客户端级别收集比服务器端更有优势,因为它克服了缓存和会话识别问题。修改浏览器记录用户的浏览行为。 |
代理级收集是从浏览器和web服务器之间的中间服务器收集的数据。代理跟踪可以显示从多个客户机到多个Web服务器的实际HTTP请求。这可以作为数据源,用于描述共享一个公共代理服务器的一组匿名用户的浏览行为。 |
|
|
|
Cookies是由web服务器为各个客户端浏览器生成的唯一ID,它会自动跟踪网站访问者。当用户下次访问时,请求连同ID一起发送回web服务器。但是,如果用户希望隐私和安全,他们可以禁用浏览器接受cookie的选项。 |
显式用户输入数据通过注册表格收集,并提供重要的个人和人口统计信息和偏好。然而,这些数据是不可靠的,因为有不正确的数据或用户忽略这些网站的机会。 |
网络上可用的信息是异构的、非结构化的。因此,预处理阶段是发现模式的先决条件。预处理的目标是将原始点击流数据转换为一组用户配置文件。 |
2相关工作 |
在WUM,研究工作在预处理和用户识别方面不断取得进展。众所周知,预处理是网络挖掘中非常重要的任务。挖掘结果依赖于预处理,也直接指向挖掘过程。介绍了各种预处理方法和算法。同样,用户识别也是一项非常困难的任务,研究者们以不同的方式来解决这个问题,也提供了不同的解决方案,但确切的解决方案的研究仍在进行中。 |
Jaideep Shrivastava et. al.[1]发表了一篇非常受欢迎和重要的论文,该论文包括在大多数论文中作为参考,是大多数论文的一部分,也讨论了用户识别问题。 |
Reddy et. al.[2]提出了数据预处理模型,文中该模型适用于数据清洗、唯一用户和会话记录,但在数据质量、用户识别和会话识别的精度度量以及将预处理结果应用于模式发现等方面存在问题。 |
—Chintan R. Varnagar等人[4]写道,大多数系统、架构的实现或提议都考虑客户端或服务器端日志数据。在未来,可以建立一个系统,考虑和利用客户端和服务器端日志数据的有用性,以产生更有效的结果,更好地与经验观察相匹配。 |
■Brijesh Bakaria et. al.[3],发表了一篇2013年的调查论文,讨论到目前为止,还没有具体的解决方案可用于用户识别。 |
刘克文[5],提出了数据清洗算法,但讨论了用户识别问题。但是很难接受超过结核病水平数据的挑战。 |
* Sheetal A. Raiyani et. al.[6],根据作者的观点提出了一种名为DUI (Distinct User Identification)的算法,它分析了更多的因素,如用户的IP地址、网站的拓扑结构、浏览器的版本、操作系统和引荐页面。该算法具有较好的精度和可扩展性。它不仅可以识别用户,还可以识别会话。会话识别将在下一节讨论。本文提出的方法不仅可以通过User_IP进行比较,同样的用户IP可以产生不同的用户,还可以通过用户选择的路径和访问网页的时间来得出不同的用户 |
·V. Sujatha et. al.[7],提出了基于Pattern using Clustering & Classification (PUCC)的算法,PUCC的这一步着重于将潜在用户与其他用户分离。Suneetha和Krishnamoorthy(2010)使用C4.5算法的决策树分类来识别感兴趣的用户。他们为此目的使用一组决策规则。该算法能有效识别潜在用户,但存在完全忽略网络机器人输入的缺陷。搜索引擎通常使用网络机器人来抓取网页以收集信息。这些机器人在日志文件中创建的记录数量非常多,在发现导航模式时产生了负面影响。本文首先识别机器人条目,然后将用户组划分为潜在用户和非潜在用户,从而解决了这一问题。 |
—沙洪洲等[8]提出方法EPLogCleaner:提高企业代理日志数据质量,高效挖掘Web使用情况,实验结果表明EPLogCleaner可以过滤掉30%以上的URL请求,而这些URL请求是传统的代理日志数据清洗方法无法过滤的。但并非所有过滤后的数据都是有价值和相关的。一些保持活动链接在它们的url中添加时间戳,因此它们的前缀不能简单地通过阈值直接添加到我们的前缀库中。它使一些无关和无用的数据留在最终的结果中。此外,阈值的设计和正确率的估计方法都比较简单。接下来,我们将首先分析URL中的时间戳信息,捕获其特征,以获得更高的过滤速率。此外,我们还将改进阈值的设计和正确率的估计方法,使实验结果更加准确可靠。 |
——Mofreh Hogo et. el。[9]引入了基于粗糙集属性的Kohonen SOM算法,对教育网站用户的时态web使用情况进行挖掘 |
苏拉布·贾因等。为了快速高效地获取所需的数据,本文对时态数据挖掘和模糊关联规则进行了综述。 |
3预处理 |
数据预处理是数据挖掘过程中的第一步。上述数据源是可用的,但web日志文件是web数据挖掘的主要数据源。Web数据挖掘包括数据清洗、用户识别、会话识别、路径补全[2]。参见图2。 |
A.数据清理 |
数据清理是一个过程,删除噪音,不使用的和不相关的项目,如jpeg, gif文件或声音文件和参考,由于蜘蛛导航。改进的数据质量可以改进对数据的分析。HTTP协议要求每个来自web服务器的请求都有一个单独的连接。如果用户请求查看特定页面以及服务器日志条目,则除下载HTML文件外,还下载图形和脚本。一个例外的情况是艺术画廊网站,图像更重要。当用户下载一个特定的页面时,也会下载不同的元素,如图形和脚本。在服务器日志条目中存储所有这些元素的详细信息。在大多数情况下,只有HTML文件请求的日志条目是相关的,并且应该为用户会话文件保留,那么这个问题的解决方案是消除一些被认为不相关的项目,可以通过检查URL名称的后缀合理地完成。所有带有文件名后缀的日志项,如gif, jpeg等,以便根据正在分析的站点[4]更改列表 |
B.用户识别 |
识别访问网站的个人用户是web使用挖掘的重要步骤。将采用各种方法来识别用户。最简单的方法是将不同的用户id分配给不同的IP地址。但在代理服务器中,许多用户共享相同的地址,同一用户使用多个浏览器。扩展日志格式通过引用信息和用户代理克服了这个问题。如果用户的IP地址与前一表项相同,而user agent与前一表项不同,则假设该用户为新用户。 |
C.会话识别 |
用户会话可以定义为同一用户在一次特定的网站访问期间访问的一组页面。一个用户在一段时间内可以有一个或多个会话。一旦识别出用户,每个用户的点击流就会被划分到逻辑集群中。划分会话的方法称为会话化或会话重建。事务被定义为具有同质页面的用户会话的子集。会话重构有三种方法。两种方法依赖于时间,一种依赖于web拓扑中的导航。 |
D.路径补全 |
由于代理服务器和缓存问题,在构建事务后可能会丢失页面。因此,缺失的页面被添加如下:检查页面请求是否直接链接到最后一页。如果与最后一页没有链接,请检查最近的历史记录。如果日志记录在最近的历史记录中可用,那么很明显,“返回”按钮用于缓存,直到到达页面为止。如果引用日志不清楚,可以使用站点拓扑结构来达到同样的效果。如果许多页面链接到所请求的页面,那么最近的页面就是新请求的源,因此该页被添加到会话中。在这方面有三种方法。 |
四、用户识别 |
识别过程的目的是从网络上找出不同的用户。用户识别是网络管理的一项重要工作,用户在网络中扮演着消费者的角色。因为任何网站的最终目标都是利润或用户满意度,因此在消费者识别之前,我们不能制定政策或策略来改善我们的网站。这种改进要么是在结构上,要么是在内容上。会话识别和路径完成对于分析目的也非常有用,但是如果这个分析过程包括用户识别及其会话和路径完成,那么我们可以得到更具体和准确的结果。 |
用户识别方法[3]. |
A.使用IP地址 |
这是用于用户识别的非常常见的启发式技术。IP地址是我们计算机在互联网上的唯一地址。使用IP地址我们可以识别用户,但实际上我们不能识别,我们假设拥有相同IP地址的用户是相同的。 |
B.使用用户注册数据 |
用户注册数据,如用户名、地址、联系电话等,是相对可靠的用户识别来源。雷竞技网页版如果我们认为用户填写的所有信息都是正确的。 |
C.使用cookies |
cookie是在特定时间内存储客户端计算机的信息。cookie基本上是为了快速访问网站而制作的。这意味着cookie可以存储用户信息;因此,利用cookie可以提取用户的信息。 |
V.与用户识别相关的问题 |
首先我们需要修改用户的定义;这个词可以指以下意思- |
1.特定的人。 |
2.具体类别: |
a.工作状态:学生、客户、商务人士、家庭主妇等。 |
b.年龄组别:儿童、青少年、青少年等 |
c.性质:宗教、冒险等 |
d.爱好:音乐、运动、智力竞赛等。 |
e.时间:早上用户、下午用户、晚上用户、深夜用户等。 |
在WUM中,用户的含义大多是在场景的基础上属于特定的用户类别,而不是指特定的用户。不同类别用户之间的关系见图3。具体的用户身份识别在网络上是不可能的,即使在网上银行,任何人和他们的配偶都可以共享银行账号。、密码及手机号码。也适用于OTP和共享同一个银行账户,甚至有时在单个会话中,但没有机制可以发现第二个用户的存在。在银行的web日志中,只记录了一个用户条目。 |
这就是为什么在任何在线考试中,用户身份也是通过物理验证来完成的。第二个重要的问题是从web日志中选择字段。大多数方法在某些特定的领域有工作,但有些领域被忽略了。其中一个被忽略的字段是大多数使用识别过程是DateTime戳。该字段还可以用于用户标识。因为在清晨使用某个特定网站的用户群和在深夜或中午之后使用该网站的用户群是完全不同的。 |
DateTime不仅与特定的日期或时间有关,它有不同的维度,如 |
1.一天中的具体时间:下午6:45:35 |
2.时间:上午10:00至下午5:00,考试时间为3小时。 |
3.之前/之后:上午/下午。 |
4.一天中的时间段:清晨、傍晚等。 |
5.具体日期:23/10/14(任何场合的日期) |
6.时间:夏季促销从6月10日至6月20日 |
7.季节:冬、夏、春等 |
8.节日:排灯节、圣诞节、新年等 |
9.以上各种组合;即冬季晚上,夏季晚上11点。因此我们可以参考图3。 |
因此,主要使用挖掘后的DateTime字段,我们将获得基于日期和时间的用户。这些结果对我们网站的动态结构设计有一定的参考价值。专为商业网站。我们观察到,上面的一些有清晰的边界,但有些没有。 |
六、结论及未来工作 |
因此,本文反映了网络交通中的用户识别问题,并给出了一些解决方法或算法。文献表明,一些方法是特定的,而另一些有局限性。对于WUM,服务器web日志文件作为一个数据集。有些字段是主要使用的,如IP地址,有些字段被忽略。 |
Web-Sessions在用户识别中起着重要作用。这个概念背后的基本假设是,每个会话都是专门为单个用户提供的。一些研究人员介绍了用户识别的算法,但他们没有声称保证。其他一些研究人员给出了用户识别的时间方面,但他们研究的是特定领域,并且使用了模糊的时间定义,因此大多数时间维度在WUM中缺失。 |
最后,我们可以说,各种用户类别和时间维度将为各个研究领域提供一个途径。在时间维度的用户之间也可以进行多种组合,这对商业网站非常有用。 |
表格一览 |
|
表1 |
|
|
数字一览 |
|