石头:2229 - 371 x
k . Devipriyaa太太1 *博士B.Kalpana(太太)2 |
通讯作者:k . Devipriyaa太太,电子邮件:krdevipriyaa@gmail.com, kalpanabsekar@gmail.com |
相关文章Pubmed,谷歌学者 |
访问更多的相关文章全球研究计算机科学杂志》上
Web使用挖掘(WUM)是获取知识的过程从网络用户的访问数据,利用数据挖掘技术。矿山二次数据(web日志)来自用户的特定时期与网页交互的web会话。在目前的研究工作,提出了一种混合方法,它使用基于ant集群和LCS分类方法来发现和预测用户的导航行为。该系统在两个阶段工作,(i)离线阶段,(2)在线阶段。离线阶段负责预处理和集群、分类和预测是在在线阶段执行。基于ant聚类方法用于发现或从web日志文件中提取用户的导航模式。LCS分类算法使用知识从离线阶段,预测用户的下一个请求。
关键字 |
web使用挖掘;预处理;模式发现;模式分析;基于ant的集群;LCS分类 |
介绍 |
Web挖掘是数据挖掘技术的应用为目的的学习或基于Web的数据中提取知识。基于几个领域的研究做web挖掘,我们可以大致划分为三大类:web内容挖掘,网络结构挖掘和web使用挖掘。Web使用信息挖掘可以帮助吸引新客户,维护现有客户,跟踪客户离开网站,等[1]。一个通用的web使用挖掘系统(图1)包括三个步骤,即预处理、模式发现和模式分析 |
图1:知识发现 |
数据预处理负责转换使用,内容和结构信息包含在web日志文件的格式适用于模式的发现。模式发现利用方法和算法开发等几个字段统计、数据挖掘、机器学习和模式识别。模式分析是整个Web使用挖掘过程的最后一步。背后的动机模式分析是过滤掉无趣的规则或模式从集合中发现的模式探索阶段。 |
聚类算法发现组织文档等文档的集合在一个集团或类似的多文档跨组。蚂蚁聚类方法中使用的聚类方法[12],人工蚂蚁作为中介,通过配置对象的沟通和影响自己在地板上。因此,代理构建组织相似的对象或构建集群。分类算法基于最长公共子序列算法[9]。该算法的主要目的是使用的知识聚类阶段,预测用户的下一个请求。它使用一个权重矩阵来计算LCS和权值最小的路径是选择预测下一个请求。 |
在下一节中,我们概述了相关工作。第三节详细解释的方法。第四节进入细节如何实现该方法即实验显示该方法的过程和结果。我们在第五节总结我们的工作。 |
相关工作 |
识别网页浏览网站设计和评估策略是一个关键的一步,并要求提供信息的方法在一定程度上的任何特定类型的用户行为和动机这样的行为[9]。从web数据模式发现是网络挖掘的重要组成部分,它收敛算法和技术从几个研究领域。Baraglia和Palmerini(2002)[12]提出了建议WUM系统提供有用的信息,使简单的web用户导航和优化web服务器的性能。刘和Keselj(2007)[13]提出了web用户导航的自动分类模式,并提出了一种新颖的方法来分类用户导航模式和预测未来用户的请求。Mobasher et al。(2000)[15]和中川Mobasher(2003)[16]提出了一种WebPersonalizer系统提供动态的建议,作为一个超文本链接的列表,给用户。Jespersen et al。(2002)[10]提出了一种混合方法分析访问者点击序列。Jalali et al .(2008[7]和2008 b[8])提出了一个系统,发现用户导航模式使用图分区模型。一个无向图的基础上每一对网页之间的连接被认为是和权重分配的边缘图。迪克西特和Gadge(2010)[5]提出了另一个用户导航模式挖掘系统基于图划分的。基于无向图的引用和URI之间的连接页面上加上了预处理方法处理未处理的web日志文件和一个公式权重分配给无向图的边缘。 Ant-based clustering due to its flexibility and self-organization has been applied in a variety of areas from problems arising in e-commerce to circuit design, and text-mining to web-mining, etc (Jianbin et al., 2007) [11]. The various works proposed in this area with particular emphasize on web usage mining, clustering and classification was provided in this section. In this present work, research work is one another attempt made to propose a hybrid system that uses clustering and classification methods to discover the user’s navigation pattern and analyze them from the server’s web log file. |
方法 |
导航模式的在线用户通常反映了用户的心理模型,由于这个原因,网站所有者和开发商更加注重导航模式。为了有效地研究这些模式,浏览模式从一个网站是非常重要的。提出了一些解决办法和聚类和分类的使用更频繁地使用这种解决方案。这项研究工作是另一个尝试提出一个混合系统,使用聚类和分类的方法来发现用户的导航模式,分析它们从web服务器的日志文件。 |
预处理 |
web日志文件的预处理简单地重新格式化日志文件的条目成一种可以直接使用log analyzer的后续步骤。执行预处理在下面四个步骤。(我)清洗(ii)用户标识(iii)会话识别和(iv)格式。 |
在清洁步骤,(即)清洗的数据,不需要的数据将被删除。不必要的数据的例子包括要求图像、javascript, flash动画,视频,等等。这些数据不需要用户导航,因此删除日志文件形式。识别用户的IP地址是最常用的方法是简单、容易捕捉和永远是空的。执行会话识别使用会话超时的值。原始日志文件因此修剪多余的数据和格式化在最后一步完成。这种格式化的数据作为输入在未来网络日志分析的过程。几个方法和技术已经开发了这个步骤。一些常用的解决方案是统计分析,集群、分类、关联规则、连续的模式和依赖关系建模。Etminani et al。(2009)[12]蚂蚁聚类方法发现导航模式用于发现导航模式。这种方法有一些问题当结合日志文件知识发现。 The issues are |
(我)基于ant集群的关键问题之一是high-execution倍。 |
(2)第二个问题是无法完成基于ant的算法来检测聚类过程。 |
(3)另一个重要的问题是,一只蚂蚁可以产生相同的结果就像许多蚂蚁在模型函数随机抽样算法和结果是重复和被认为是在集群中 |
所有上述问题的动机目前研究使用分类算法,在antbased集群。分类算法是最长公共子序列(LCS),提出Jalali et al . [9]。这项研究将模式发现和分析阶段划分为两个阶段,在线和离线阶段。离线阶段包括分析日志文件和生产集群。在线阶段,接受一个新的用户请求,用户所属的URL和会话识别和被归类到正确的集群。基于ant的聚类算法和LCS算法都是在下一节中解释。 |
模式分析 |
最后阶段的分析模式发现前面的步骤。这是在两个阶段完成: |
(我)验证:识别相关规则或模式,可以发现有趣的模式 |
(2)解释:数学解释可被科学家发现的知识 |
基于ant集群(离线阶段) |
蚂蚁算法主要是基于Handl描述的版本和迈耶(2002)[6]。Deneubourg在[4]等人提出了基于ant聚类和排序。在antbased聚类和排序的情况下,两个相关类型的自然蚂蚁行为建模。当集群、蚂蚁收集物品堆。排序的时候,蚂蚁区分不同种类的物品和空间安排他们根据他们的属性。亮度和Faieta[14]提出了基于ant的数据聚类算法(如图2),类似于蚂蚁行为[4]中描述。如图2所示,代理(蚂蚁)和数据是随机初始化在一个环形网格。通过移动代理、数据排序根据它的邻居。挑选和下降的概率,给出了网格位置和一个特定的数据项,计算使用密度函数: |
图2:基于蚂蚁算法 |
在在线阶段,当一个新的请求到达服务器,请求的URL和用户所属的会话识别,底层知识库更新,建议是附加到请求页面的列表。在线阶段是如图3所示。 |
图3:在线阶段 |
从聚类结果,我们有一组集群np ' = < np1、np2…npn型> npi = < P1, P2,…, Pk > k是一组网页标识为用户导航模式和1££n。序列W ' = < P1, P2,下午…>当前活动会话和m是一个活跃的会话窗口的大小。之前积极会话构造预测分类列表,活动会话窗口中的页面排序基于值存储在同现矩阵m .这一步后,为构建预测列表,系统必须找到集群基于LCS算法。应用该算法后,系统发现最高程度的LCS的集群对W序列”。 |
当预测引擎发现多个集群基于LCS算法,然后预测引擎选择一个集群的方式,如果最后一个元素的位置之间的区别的最长公共子序列建立集群和这个序列的第一个元素的位置是最小化,系统选择这个集群。在这个模块中,如果第一页与预测下一个用户活动是不同的列表,它需要再次与新用户活动进行分类。 |
结果与讨论 |
为了测试该系统的有效性,服务器web日志数据文件。系统测试与几个90天收集的数据,便于讨论,实验预计从一天,下面是收集的数据,在29-12-2009。 |
第三节中提到的,在四个步骤进行预处理,即(i)清洗(2)用户标识(iii)会话识别和(iv)格式。 |
图4:清洗步骤对原始web日志文件 |
基于蚂蚁聚类是聚类的应用程序类似的感兴趣的用户到单个类。这样的分组后结果如图5所示。 |
图5:集群组 |
知识获得的聚类结果包括数量的访问一个网页,网站流量,最常见的集群信息查看页面,用户导航行为等。用户访问的用户配置文件和路径如图6所示。 |
图6中提取导航模式 |
预测用户的下一个请求,LCS算法分类使用。LCS发现最长的导航序列集群匹配用户的推荐URL为例,表我显示了四个用户的导航模式属于同一个集群,构造/ 3。 |
表我:样本模式 |
为了使模式的分析和预测,LCS算法计算权重矩阵每个模式发现。边缘的重量W E可以计算为: |
系统在测试的准确性与阈值从0.1到1.0不等。从结果,很明显,提出基于ant集群当结合LCS产生更好的结果相比,贾拉里的系统[9],它使用图划分聚类算法和LCS算法。结果表明这一趋势时,阈值增加,准确性也增加和最大精度提出了系统实现的是74%。 |
结论 |
结果从而证明聚类和分类的应用用户导航模式探索过程中有积极的影响,给最好的结果发现导航模式和预测未来的请求。未来的研究也可以尝试结合聚类和关联规则发现更多的知识集群数据。不同的聚类算法也可以调查改善趋势分析和知识发现。 |
引用 |
|