关键字 |
Web挖掘、Web使用挖掘Web日志、用户识别、颞Web挖掘 |
介绍 |
数据挖掘就是从不同的角度分析数据的过程总结成有用的信息。Web挖掘是数据挖掘技术的应用从Web数据中提取知识。Web挖掘可以大致分为三个不同的类别,根据类型的数据挖掘。web内容挖掘,挖掘web使用挖掘和网络结构。 |
数据挖掘:从大量的数据中提取的模式被称为数据挖掘。数据挖掘[11]KDD过程是最重要的一步。有不同类型的矿产,例如Web挖掘序列采矿、颞采矿、采矿、多媒体和空间挖掘。有三个基本方法可供开采即关联规则挖掘,分类和聚类。 |
Web挖掘:对数据挖掘应用Web上可用女巫被称为Web挖掘。Web挖掘技术使网络更有用和更有利可图的(一些)和增加我们与网络交互的效率。Web挖掘大致分为三个不同的类别根据类型的数据挖掘。图1所示。 |
Web内容挖掘:Web内容挖掘的过程从Web文档的内容中提取有用的信息。Web内容挖掘处理的发现有用的信息从Web内容或数据或文件或服务。 |
b。网络结构挖掘:一个典型的Web图的结构由Web页面作为节点,和超链接边缘连接相关的页面。网络结构挖掘的过程从网上发现结构信息。 |
c。Web使用挖掘:Web使用挖掘的应用数据挖掘技术发现有趣的使用模式从Web使用数据,以了解和更好地为基于Web的应用程序的需求。使用数据捕获网络用户的身份或起源及其网站的浏览行为。在web使用挖掘有四个阶段。 |
Web数据:最重要的步骤之一,在数据库知识发现是构造一个适当的目标数据集的数据挖掘任务。在Web数据挖掘,数据可以来自Web服务器、客户端网站,和代理服务器或从组织的数据库。不同类型的数据收集从不同的位置。有许多类型的数据,可用于Web挖掘[1]。 |
一个Web内容。 |
现在网页上的数据提供给用户的信息。Web内容的一些示例数据文本、HTML、音频、视频、图像等。 |
b。网络结构 |
Web页面是通过超链接连接彼此即各种HTML标记用于链接从一个页面跳转到另一个和一个网站到另一个网站。 |
网络使用c。 |
收集这些数据反映的使用Web和Web服务器、代理服务器和客户端浏览器与IP地址、日期、时间等。这种类型的数据是自动生成的Web服务器和众所周知的网志和文件包含文件数据叫做网志和半结构化的文本文件。请参考表1和2。 |
d。Web用户配置文件 |
的数据提供了Web站点的用户的人口统计信息,即用户注册数据和客户个人信息。雷竞技官网 |
数据收集:用户日志数据从各种来源收集服务器端、客户端和代理服务器等[1]数据收集是web使用挖掘过程的第一步。它包括收集相关的网络数据。数据源可以收集在服务器端,客户端,代理服务器,或获得从一个组织的数据库,其中包含业务数据或巩固网络数据。 |
服务器级别组收集客户端请求并存储在服务器作为web日志。Web服务器日志是纯文本,它是独立于服务器平台。大多数web服务器遵循通用的日志格式为“IP地址,用户名/密码日期/时间戳、URL、版本、状态码,字节发送“一些服务器 |
客户端级别比服务器端收集是有利的,因为它既克服了缓存和会话识别问题。浏览器修改记录的浏览行为。 |
代理级别收集收集的数据从中间服务器浏览器和web服务器之间。代理痕迹可能揭示实际的HTTP请求从多个客户多个Web服务器。这可以作为一个数据源描述一群匿名用户的浏览行为共享一个共同的代理服务器。 |
![图像](//www.cheescube.com/articles-images/IJIRCCE-391-b001.gif) |
![图像](//www.cheescube.com/articles-images/IJIRCCE-391-t001.gif) |
![图像](//www.cheescube.com/articles-images/IJIRCCE-391-b002.gif) |
饼干是惟一的ID为个人客户端浏览器和web服务器生成的自动跟踪网站访客。当用户下次访问请求被发送回web服务器ID。但是如果用户希望对于隐私和安全,他们可以禁用浏览器选择接受饼干。 |
显式的用户输入数据被收集通过登记表格和提供重要的个人和人口统计信息和偏好。然而,这个数据是不可靠的,因为有错误数据或用户忽视这些网站的机会。 |
网络是异构的和非结构化的信息。因此,在预处理阶段发现模式的先决条件。预处理的目的是将原始的点击流数据转换成一组用户配置文件。 |
二世。相关工作 |
在预处理WUM研究工作不断进步和用户识别。正如我们所知深采煤的预处理是非常重要的任务。挖掘的结果取决于预处理以及针对采矿过程。研究人员介绍了预处理的各种方法和算法。同样,用户标识也是一个非常困难的任务,研究人员正在以不同方式这个问题,也提供了不同的解决方案以上但精确解的研究仍在继续。 |
Jaideep Shrivastava 等 人 [1] 发布 一 个 非常 受 欢迎 的 和 重要 的 论文 , 包括 在 大多数 报纸 的 reference, 是 大部分 的 论文 的 一部分 用户 identification. 还 讨论 这个 问题 |
Reddy 等 人 [2] 提出 了 模型 数据 preprocessing, 按 论文 该 模型 适用 于 用户 和 会话 record, cleaning, 独特 的 数据 , 但 仍 有 一 个 问题 在 data, 质量 精度 度量 用户 的 识别 和 会话 识别 和 应用 预处理 的 结果 发现 patterns. |
Chintan R. Varnagar 等 人 [4] wrote, 大部分 systems, 架构 , 实施 或 提出 考虑 客户 端 或 服务器 端 日志 有悖于未来系统可以构建考虑和利用的有用性这两个客户端和服务器端日志数据,产生的结果更有效和面糊与经验观察。 |
Brijesh Bakaria 等 人 [3], 发布 调查 报告 , 2013 年 , 讨论 至今 没有 具体 解决 方案 可供 用户 identification. |
Liu Kewen[5], 提出 算法 进行 数据 清洗 , 但 用户 identification. 的 讨论 这个 问题但很难在结核病水平数据的一个挑战。 |
Sheetal A. Raiyani 等 人 [6] , 提出 的 算法 称为 DUI (Distinct User Identification) 按 作者 It 分析 更 factors, 如 user’s IP address, Web site’s topology, browser’s edition, 操作 系统 和 引用 页面该算法具有更好的精度和可扩展性。它不仅可以识别用户还识别会话。会话标识将在下一节中讨论。提出的方法不仅显示了比较基于User_IP地方相同的用户IP可能生成不同的网络用户,基于路径选择的任何用户和访问时间上线页面我们发现不同的网络用户 |
V. Sujatha 等 人 基于 Pattern al.[7], 提出 了 算法 使用 Clustering & Classification ( PUCC), This 一步 PUCC 关注 分离 。 强烈 的 潜在 用户针对和Krishnamoorthy(2010)使用使用C4.5决策树分类算法来识别感兴趣的用户。他们使用一组决策规则。该算法在识别潜在用户有效地工作,但是有缺点,它完全忽略了条目由网络机器人。搜索引擎通常使用网络机器人爬行通过网页来收集信息。记录的数量由这些机器人在一个日志文件非常高和有负面影响,发现导航模式。这个问题是解决本文通过识别机器人条目之前,首先将用户组分段为潜在的并不是潜在用户。 |
Hongzhou Sha 等 人 [8] 方法 EPLogCleaner: Improving Data Quality 的 Enterprise Proxy Logs 为 Efficient Web Usage Mining, Experiment 结果 表明 EPLogCleaner 可以 过滤 掉 30% 以上 URL 请求 不能 被 传统 数据 过滤 代理 logs. 清洗 方法但并不是所有过滤数据是有价值的和相关的。一些维持联系的时间戳添加到他们的网址,所以他们的前缀不能直接添加前缀图书馆通过阈值。这让一些无关紧要的和无用的数据在最终结果。此外,阈值的设计和精确率的估算方法是相对简单的。接下来,我们将首先分析中的时间戳信息的URL,抓住其特点,以获得更高的过滤率。此外,我们将提高阈值的设计和精确率的估算方法,使实验结果更加准确、可靠。 |
Mofreh Hogo 等 el.[9]介绍了网络用户的时间web使用挖掘教育网站,使用适应Kohonen SOM基于粗糙集属性 |
Sourabh Jain 等 人 哦[10]提交论文审查时间的模糊关联规则数据挖掘和为了获得所需的数据快速有效。 |
三世。预处理 |
数据预处理是数据挖掘过程中最初的一步。上面提到的数据源是可用的,但web日志文件是web数据挖掘的主要数据来源。Web数据挖掘包括数据清洗、用户识别、会话识别、路径完成[2]。参考图2。 |
答:数据清洗 |
数据清洗是去除噪声的过程,无用和不相关的物品如jpeg、gif文件或由于蜘蛛导航声音文件和引用。改进数据质量改进分析。HTTP协议需要单独为每个请求从web服务器的连接。如果用户请求查看一个特定页面和服务器日志条目图形和脚本下载除了HTML文件。一个例外情况是美术馆网站,图片更重要。当用户下载一个特定页面然后有不同的元素也下载页面图形和脚本。在这些所有元素细节存储服务器日志条目。在大多数情况下,只有HTML文件的日志条目请求相关,应该让用户会话文件的解决方案的问题是消除一些物品被视为无关紧要的可以合理地通过检查网址的后缀名。所有日志条目文件名后缀如gif、jpeg等,这样可以改变列表根据被分析的网站[4] |
b .用户标识 |
识别个人用户访问一个网站的web使用挖掘是一个重要的一步。各种方法都遵循用户的识别。最简单的方法是将不同的用户id分配给不同的IP地址。但在许多用户共享同一代理服务器地址和同一用户使用许多浏览器。一个扩展日志格式通过引用信息,克服了这一问题,用户代理。如果一个用户的IP地址是以前的条目和用户代理一样是不同的用户认为作为一个新用户。 |
c .会话识别 |
用户会话可以被定义为一组页面访问相同的用户在一个特定的时间访问一个网站。一个用户可能有一个或多个会话期间。一旦用户确认,每个用户的点击流切块为逻辑集群。分配到会话的方法称为Sessionization或会话重建。一个事务被定义为用户会话有同质页面的一个子集。有三种方法在会话重建。两种方法取决于时间和一个导航在网络拓扑。 |
d .路径完成 |
有机会失踪后页面构建交易由于代理服务器和缓存问题。所以失踪的页面添加如下:页面请求检查是否直接联系最后一页。如果没有与最后一页检查最近的历史。如果日志记录是可用在近代历史上然后很明显,“后退”按钮用于缓存,直到页面。如果上线日志不清楚,本网站拓扑结构可以用于同样的效果。如果许多页面链接到所请求的页面,页面最接近源的新请求,所以页面添加到会话中。在这方面有三种方法。 |
四、用户标识 |
识别过程的目的是找出不同用户的网络。WUM用户识别是一个非常重要的任务,用户作为消费者在网络。因为任何网站的最终目标是利润或用户满意度,因此消费者识别之前我们不能制定政策或策略来改善我们的网站。这个改善是在内容结构明智的或明智的。会话识别和路径完成也非常有用的分析目的,但如果这个分析过程包括会话的用户识别和路径完成然后我们可以得到更多的指定和准确的结果。 |
用户标识的方法[3] |
答:使用IP地址 |
这是很常见的用户识别的启发式技术。我们的计算机的IP地址是独一无二的地址在互联网上。使用IP地址我们可以识别用户但实际上我们不确定我们假定用户拥有相同的IP地址是一样的。 |
b .使用用户注册数据 |
用户注册数据、用户名称、地址、联系人,用户标识等,相对更可靠的来源。雷竞技网页版如果我们认为是由用户的所有信息是正确的。 |
c使用cookie |
饼干是商店的信息客户端计算机的具体时间。饼干是快速访问网站。这意味着饼干可以存储用户的信息;所以我们可以使用cookie提取信息的用户。 |
诉问题与用户标识相关联 |
首先我们需要修改用户的定义;这个词可以参考以下意义—— |
1。特定的人。 |
2。具体的类别: |
工作状态:学生、客户、业务人员、家庭主妇等。 |
b。年龄:儿童、青少年、青少年等 |
c。自然:宗教、冒险等 |
d。爱好:音乐、体育、测验等。 |
e。时间:下午早晨用户,用户,用户,晚上深夜用户等。 |
在WUM用户的意义主要是属于特定类别的用户场景的基础上不是指特定的用户。不同类别的用户关系图3中提到的。特定的用户识别web即使在net-banking是不可能的,任何个人和配偶都可以共享银行帐户号码。、密码和手机没有。也为OTP和共享相同的银行账户,甚至有时在单一会话,但任何机制可以找到第二个用户的存在。在银行网志只有一个单用户条目记录。 |
在任何在线考试的原因用户标识是通过物理验证。第二个重要的问题是选择从网志。大多数方法都工作在一些特定领域钻的一些字段被忽略。被忽略的领域之一是大部分使用识别过程是DateTime邮票。这个领域还可以用于用户识别。因为集团用户使用任何特定的网站在清晨和绝对不同于用户使用该网站在深夜或者中午之后。 |
DateTime不仅是有关特定日期或时间,它有各种维度的样子 |
1。具体的时间在一天:6:45:35点 |
2。时间:办公时间,上午10点到下午5点,考试时间是3小时。 |
3所示。前/后:上午/下午。 |
4所示。一天时间:早上、晚上,等等。 |
5。任何场合的特定的一天:23/10/14(日期) |
6。持续时间:暑期销售10 jun 20-Jun |
7所示。季节:冬天,夏天,春天,等等。 |
8。场合:排灯节、圣诞节、新年等。 |
9。以上的各种组合;例如冬季晚,夏天晚上11点。因此我们可以参考图3。 |
因此主要使用DateTime字段开采后,我们会得到用户的基础上的日期和时间。这些结果可以用于我们的网站的动态结构。专门为商业网站。我们观察到一些上面有清晰界限但有些还没有。 |
六。结论和未来的工作 |
因此,本文反映了WUM用户标识的问题和一些论文给出一些方法或算法。文献表明,一些方法是具体的,也有局限性。WUM服务器web日志文件作为数据集。主要是使用的一些字段,如IP地址和一些字段被忽略。 |
在用户识别web会话中扮演着重要的角色。这个概念背后的基本假设是,每一个会话是单用户专用的。一些研究员介绍了算法对用户标识,但他们不要求担保。其他一些研究者给出了用户身份的时间方面,但他们在特定区域和使用时间的模糊定义,所以大部分的时间维度在WUM失踪。 |
最后,我们可以说,不同类别的用户和时间维度将提供各种研究领域的一个途径。用户之间的多个组合也可能的时间维度,可以非常有用的商业网站。 |
表乍一看 |
![Click Here 表的图标](//www.cheescube.com/articles-images/table-icon.gif) |
表1 |
|
|
数据乍一看 |
|