一个有效的Web挖掘算法挖掘网络日志信息

R.Shanthi¹*,Dr.S.P.Rajagopalan²

研究学者、计算机应用部门Sathyabama大学印度钦奈
教授,计算机应用部门,Dr.M.G.R。大学,钦奈,印度

文摘

本文侧重于网络的高效的应用程序Web日志挖掘算法分析,应用于识别上下文与网页设计的相关要求安全的电子商务门户网站。是优先考虑效率,比较研究与其他类似的算法,如E-web矿工算法和先验的,事实证明,这个提议的Web页面收集网络挖掘算法(或说最适合)表现最好的管理,那么该算法时间和空间复杂性,更好地称为高效Web矿业公司拥有有效计算比较性能分析。数据库扫描的数量大大减少网页收集算法。这可能指出E网矿工可以成功应用在任何博客分析包括信息中心网络设计。

关键字

E-Web矿工改进Apriori-ALL算法E网,博客。

介绍

Web挖掘是数据挖掘的最新变化有关Web数据大多是结构化的各种网络活动的结果。Web挖掘大致归类为Web内容挖掘,网络结构挖掘和Web使用挖掘和所有这些类别功能使用不同的Web内容的数据如Web页面内容页面的HTML / XML代码(网络结构)。这可以是线性的或分层或任何实际的链接结构存取信息的网页(web使用)。点击数量/订阅/访问(邓纳姆2003)用户概要,饼干等等,总之这个研究论文试图证明E web矿业公司有较低的时间和空间的复杂性和比改善先天——所有算法。

答:网络日志分析

Web日志挖掘Web使用挖掘的结果包含Web访问不同的用户的信息。在这里任何类型的访问(Hans和Kamber 2001)信息的记录由web服务器为相应的数据日志文件。分析日志文件提供完整的用户的访问模式的细节,示例配置文件的用户的行为,操作系统使用,特定时期使用的成功/失败的事务等,从而总结前决定所有这些信息的格式。例如Microsoft Internet Information Server 5.0的日志文件格式的W3 C扩展规范(贝尔,2003年)完成的任务分析这些日志文件暴露了两个方法的结果取决于所选择的角度,即从客户机视图或服务器的一部分的观点。如果是,例如,从服务器的角度来看,网络日志分析揭示了这些服务器的可用性,细节漏洞的服务器、安全漏洞的服务器,用户等。通过这一分析,网页设计师可以填补缺口通过改善所需的服务和网站设计。同样,客户也受益通过web日志分析提供的信息有关使用特定的web页面的频率等。

b .传统搜索引擎

任何种类的信息搜索的选择很大程度上取决于恰当的和适当的关键词通过引擎与使用网站。但个人的查询只获取组小型的信息称为“丰富”,指的是有限数量的网页,通过搜索引擎在短时间间隔。(例如12秒,17秒)等,问题有限覆盖是指访问指标,创建并被搜索引擎和定期更新。这些指标是直接访问查询(本检索的要求。Deond湘2003)。

如果用户的背景和知识发现不足,那么有限的定制语义的问题,或者本体作物。因此限制查询的另一个问题是仅基于语义关联的单独的键盘没有任何上下文或:流行/使用的访问web页面的强烈检索的基础上,它的受欢迎程度。

c .顺序模式

它被定义为一个有序组满足给定的web页面支持定义的保密。是客户端创建这种支持和序列模式。因此用户可以调用很多会话;序贯模式在客户总数可能会出现在许多会议不包括/排除连续访问页面。所以顺序模式是有n之间的web页面主页(快速点击)和目的地主页。

WEB日志分析d序列模式算法

遍历系统,web挖掘技术应用于点击流数据(2005年艰难的Pilion)显示一组web页面访问的用户在一个会话中可以提高web页面的设计从这个信息。连续的web页面提供的数据帮助创建/形成新的链接反过来帮助支持方便向前遍历实时系统中获益。性能分析,结合这样的联系变化序列由用户与访问一组有限的有意义的模式,减少预抓取的路线长度和缓存。在web日志生成的数据在本质上是异步的,用户的访问模式无法监控时间同步方式。Web日志挖掘被用在许多应用程序预抓取功能,服务器端转换和定制。这是类型的操作,网站信息转换为更适合网络用户的信息,访问和发现他们的想法。在不同方面的问题的研究已经取得了从web日志创建web接口基于用户行为。

背景

提出了几种方法的有效应用的Web Web日志挖掘算法分析。动态技术避免许多问题所面临的静态技术和最近的研究的主题。元启发式技术的应用提出了矿业领域的。

2.1先验的算法

先天是一个典型的频繁项目集挖掘算法和关联规则学习事务数据库。它通过识别数据库中的频繁的个别项目收益并延伸到越来越大的项集只要这些项集足够经常出现在数据库中。频繁项集由先天决定的可用于确定数据库中的关联规则,强调总体趋势。这个应用程序在购物篮分析等领域。

2.2 APRIORI-ALL算法

先验的算法的算法是一个修改(邓纳姆,2003)。修改允许以正确的顺序把数据通过使用用户id和时间戳排序。先天的主要区别和Apriori-All Apriori-All利用全部加入候选集。先天的,只有加入。因此,Apriori-All更适合web使用挖掘而不是先验的。先天找到适合web日志挖掘。候选集的排序确定完整的参考序列的序列模式用户跨各种事务。它是迭代的感觉第一次扫描发现大型1-itemset。最初,经常1-itemset频繁1-sequence是一样的。随后扫描泄露更多候选集从这个大项目集之前的扫描和统计供参考。 The counting indicates support.

三世提出策略

在几十年的各种web挖掘算法被开发出来以满足不同的客户端和服务器端需求。下面的小礼物一只鸟的一些观点:

答:APRIORIALL算法

算法是一种先验的修改算法(邓纳姆2003)将数据通过我和时间戳排序。先验和先天的主要区别是,Apriori-All使用最优利用候选人的集。在先验的,这是第四了。这种差异很明显认为Apriori-All作为web使用挖掘更多的拨款而先验的标识/视为更适合web日志挖掘。(候选集的排序确定完整的序列与参考序列/用户模式跨各种事务。大型1-intemset像frequent-I-sequence。这进一步揭示/暴露更多的候选集)。这是在先天以下列方式执行算法

输入:U = {U1, U2,…, Ui} / /用户的集合

D = {t1, t2,…, tk} / /数据库的会话标识

/ /支持

输出:序列模式Ck

D ' = D '排序第一页引用的UserID和时间

每个会话;

L1与用户id ={大型1-itemsets};

(k = 2;Lk-1 !=零;k + +)

开始

Ck = Apriori-gen (Lk-1 U); / /新的候选集

对所有事务ti _ D '

开始

Ci =子集(Ck、ti);

对所有候选人c _ Ci

c.count + +;

结束

路= {c _ Ck, c.count > S}, / / S:支持

结束

从L找到最大的参考序列;

过程Apriori-gen (Lk-1 S U)

Ck =零;

为每个项目集李_ Lk-1

为每个项目集Lj _ Lk-1

开始

如果李Lj也相同

开始

C =李加入Lj;

如果有infrequent-subset (c, Lk-1)删除c;其他添加c Ck;

结束

返回Ck;

过程有infrequent-subset (c, Lk-1)

对于每个子集s (c (k - 1)

如果s Lk-1然后返回False;其他的真的。

作者通和Pi-lian介绍/率先提出AprioriAll算法通过减少候选集的大小,数量,减少了扫描数据库生成大量证明效率。(检查技术)用户属性和候选人设置紧迫不认为虽然先天所有算法(2005年托尼和PiLion)表示为:

输入:U = {U1, U2…Ui} / /用户的集合

/ /支持

输出:序列模式Ck

D ' =类D的UserID和时间每个会话的第一页的参考;

L1与用户id ={大型1-itemsets};

(k = 2;Lk-1 !=零;k + +)

开始

Ck = Apriori-gen (Lk-1 U); / /新的候选集

对所有事务ti _ D '

开始

Ci =子集(Ck、ti);

对所有候选人c _ Ci

c.count + +;

结束

路= {c _ Ck, c.count > S}, / / S:支持

结束

从L找到最大的参考序列;

过程Apriori-gen (Lk-1 S U)

Ck =零;

为每个项目集李_ Lk-1

为每个项目集Lj _ Lk-1

开始

如果李Lj也相同

开始

C =李加入Lj;

如果有infrequent-subset (c, Lk-1)删除c;其他添加c Ck;

结束

返回Ck;

过程有infrequent-subset (c, Lk-1)

对于每个子集s (c (k - 1)

如果s Lk-1然后返回False;

其他的真

b . WEB挖掘工作

收集器引擎系统,介绍了协同网络挖掘系统/建议在E商务郭郭(2006)。这是一个多代理系统提供职位检索分析和用户协作在网络搜索和网络挖掘。这里的用户受益,谁能激活搜索会话也与其他用户共享相同的。收集器引擎系统包括四种类型的软件代理即用户代理,合作代理,调度器代理和网络代理。这些熊的各种责任和因此,顾名思义。

用户代理:从网上检索页面,合作者agent-facilitates不同用户代理之间的信息共享,调度器代理维护的监控和基于用户执行任务时间表,Web代理维护准确的过滤垃圾信息(Pitkow 1997)。

CES的图1也解释了功能与信息交互与这些代理/相应的履行他们的任务已经解释道。即组成的实际网络与本地数据收集的信息结构。CES的主要缺点是该系统将一个非自动化的用户配置文件的集合。但这是可以避免的,包括更多的基于内容或协作信息推荐功能。

c . COOKIE选择器

饼干主要用于追踪/利用到最大的网站来跟踪用户概要,侵犯了用户的隐私和安全的沟通者。这对饼干的引入铺平了道路选择器、Cookie管理方案(检查技术)通过饼干从一个网站的实用性进行了验证。这集饼干代表用户的使用权限。

了对D web这类日志挖掘

高(GAO2010)使用重组系统研究客户行为模式从web数据向提供优质服务。客户行为模式识别系统如图2所示,反映了识别系统的五个层次结构:

应用程序层:包括机器交互界面图,用于客户端和系统之间的信息交换。

系统控制层:包括一个问题形成和结果使用函数和功能的协调和控制模型。

数据分析层:它由数据挖掘和联机分析过程,用于系统日志的日志数据分析挖掘在线分析技术。纸(高2010)在框架层面上产生兴趣和框架的各种应用程序参数提示下面的算法将应用架构。下面的系统(图3)基于web日志挖掘体系结构提出的基本交互元素E-Web矿工。

web矿工的规则库包括以下因素

在数据/知识库则机制

规则基本配置的基线。

基于规则的代安全web日志矿业公司矿山数据安全的方式通过定义一个属性集和基于规则的配置机制。

e . WEB日志挖掘

当然web日志挖掘是比较少关注电子商务的应用(日元男性2010)web挖掘技术建立个性化服务系统能够产生兴趣。web数据挖掘与电子商务的关系是建立在数据安全是主要的问题在网络数据(2007年1月)确保安全等质量问题的沟通。因此这些Web数据对设计一个安全协议进行了分析。实现这种技术ANSIX 959标准已经形成(利未和koe 2001)开发对准备方便和保护电子支付协议。

f . E-WEB挖掘算法

E-Web矿业的即兴创作是Web挖掘算法删除Apriori-All算法的漏洞。

E - Web挖掘算法

1。使web页面的设置在升序排序为各种用户

2。现在分配的页面设置为用户的字符串数组

3:初始化f = 0, max = 0, f是频率和最大最大的地方

4所示。考虑我从1到n;也从0到J变化(n - 1)

5。如果子串([我],[J])

f = f + 1;

如果

b[我]= f;

如果马克思< = f

Max = f;

如果

6。发现在数组b,价值几乎等于最大值和选择子字符串值。

7所示。重复步骤6的子串的位置。

IV提出网页集合的算法

考虑给定的web访问日志,主要任务是确定的页面集合往往跟“在特定的访问。通常是集群技术用于web日志访问有效地分析web日志。在集群形成的文档在n维空间表示词的因素。集群定义为集合的文件相互接近,相对有别于其他集群。在拟议的方法介绍了网页收集算法,使用集群矿业为了找到一群连接页面在一个网站。该算法需要web服务器访问日志作为输入,并将它映射到集群形式。后来集群矿业应用于输出数据。最后输出是通过挖掘web用户的日志。

WEBPAGECOLLECTION算法

输入:网络访问日志

输出:挖掘网络用户日志

1。取用户的web日志访问特定的领域

2。选择一个随机的用户到独特的概要集

3所示。在web页面中找到同现频率

3所示。下一个集群相似的结果

4所示。然后发现的集群

5。创建web页面包含特定领域的相关链接

V比较与现有工作

的比较研究,提出了网页收集挖掘算法和E-Web挖掘算法是由运行在一个从项目集的事务数。结果列在表1

图4说明了执行时间中提议的web挖掘时间和先验的所有时间。这个实验的主要目的是减少在每个候选集的元素数量没有任何重复,但更大的变化。观察可以研究如下:

•首先候选集修剪会减少步骤。

•其次运用修剪,候选集的元素数量减少。重复扫描的数据基础是完全消除。证明E web矿工一样有效。

VI的结论

本文提出的策略自动web日志挖掘的信息网页收集算法和被证明是更有效的。它高于其他web挖掘算法。挖掘结果,web应用程序开发并提供自适应用户界面

进一步探索其他类型的web应用程序将在未来的工作。它还包括内容知识的信息集成和知识提取从各个网站。

表乍一看

表1

数据乍一看


图1	图2	图3	图4

引用

通,小王和Pi-lian、Web日志挖掘的改进AprioriAll算法世界科学院、工程与技术》,第4卷2005页97 - 100。

邓纳姆。,Margaret H., Data Mining Introductory and Advanced Topics. Beijing: Tsinghua University Press, 2003, p195-220.

汉加威和KamberMicheline数据挖掘的概念和技术[M]。北京:中国机械出版社,2001年,p290 - 297。

贝恩托尼SQL Server 2000数据仓库和分析服务。北京:中国电力出版社,2003年,p443 - 470。

本,林洁,德,刘明香,陈数据挖掘和OLAP理论与实践[M]。北京:清华大学出版社,2003年,p194 - 244。

通,小王和Pi-lian、Web日志挖掘的改进AprioriAll算法世界科学院、工程与技术》,第4卷2005页97 - 100。

Wen-HaiGao研究客户行为模式识别系统基于Web日志挖掘、学报第九InternationalConference机器学习和控制论,青岛,2010年7月11 - 14号,DO1, 978 - 1 - 4244 - 6527 - 9/10 /©2010年IEEE 26.00美元,466 - 470页

李维艾伯特,KocCetin岩石CONSEPP:方便、安全电子支付协议基于X9.59诉讼,17 AnnualComputer安全应用发布会上,页286 - 295,新奥尔良,路易斯安那州,IEEE计算机协会出版社,洛杉矶类似加州,2001年12月10 - 14日

郭,Di,收集器引擎系统:电子商务Web挖掘工具,第一届国际会议论文集InnovativeComputing,信息和控制(ICICIC ' 06) DOI计算机协会0 - 7695 - 2616 - 2006年0/06 IEEE Yuewen, LI E-CommerceSecure技术研究DOI 2010 IEEE 978-1-4244-3709 - 2/10

李美和程,概述WEB挖掘技术及其在电子商务中的应用,2010年第二次国际会议onComputer工程和技术,体积7。DOI 978-1-4244 - 6349 7/10 .2010 IEEE v7 - 277 - v7 - 280页

Mengjun悦,栓,谢,王,海宁,自动使用设置与甜饼选择器,第37届IEEE /联合会InternationalConference可靠的系统和网络(DSN ' 07) DOI 0 - 7695 - 2855 - 4/07 IEEE 2007