从搜索引擎日志挖掘用户配置文件使用集群

DR.A。MUTHU KUMARAVEL¹
MCA, Bharath科技研究所Bharath大学,钦奈- 73¹

文摘

任何个性化应用程序用户分析的基本组成部分。现有的用户配置策略是基于用户兴趣(即积极偏好)。主要的重点是搜索引擎个性化和开发几种concept-based用户分析方法。Concept-based用户分析方法处理正面和负面的偏好。这个用户概要文件可以集成到一个搜索引擎的排名算法,搜索结果排名可以根据个人用户的兴趣。RSCF使搜索在搜索结果中包含的数据项,所需的数据是由用户点击和点击数据作为输入,并生成薄层土作为输出. .消极的偏好增加了分离之间的相似和不同的查询。这种分离提供了明确的阈值会凝聚的聚类算法,提高了整体素质。

关键字

消极的偏好,搜索引擎,用户分析。

介绍

搜索引擎的一个批评是,当发出查询,大多数用户返回相同的结果。查询提交给搜索引擎短期和模棱两可的和不同的信息需求和目标相同的查询。例如,生物学家可以使用查询“鼠标”啮齿动物的信息,而程序员可能使用相同的查询来找到计算机外围设备的信息。

个性化搜索是一个重要的研究领域,旨在解决查询条件的模糊性。个性化搜索引擎创建用户配置文件来捕获用户的个人喜好。给定查询,个性化的网络搜索可以为不同的用户提供不同的搜索结果根据他们的兴趣、偏好和信息需求。用户分析策略是一个重要和基本组件在搜索引擎个性化。

用户分析任何个性化的应用程序的一个基本组成部分。生成用户配置文件根据访问模式。开发用户配置文件的隐式方法(例如)可以自动从用户的历史活动。用户浏览历史最常用的信息来源对用户的利益。雷竞技官网用户分析策略可以是基于文档或概念。基于文档分析方法试图估计用户的文档的偏好。基于概念的分析方法旨在获得主题或概念,用户非常感兴趣。

基于概念的用户分析策略,都能够获得用户的积极的和消极的偏好。负偏好提高相似的分离和不同的查询。用户queryoriented分析策略。为每个用户创建查询。

相关工作

为了开展这个项目一些引用和白皮书称,许多有价值的信息确定。以下部分提供这些信息。

查询推荐使用搜索引擎中查询日志

给定一个查询提交给搜索引擎,表明相关查询的列表。相关的查询是基于之前发布查询[6]。基于查询的方法聚类过程组语义相似查询确认。聚类过程使用注册用户的历史偏好的内容搜索引擎的查询日志。

个性化Concept-Based聚类搜索引擎的查询

基于概念的分析方法,捕获用户的概念偏好以提供个性化的查询建议。[4]两个新策略用于实现这一目标。首先从web-snippets开发在线技术,提取概念从查询返回的搜索结果。第二个新的两阶段个性化凝结的聚类算法能够生成个性化查询集群。

个性化搜索基于用户的搜索历史

用户配置文件,描述用户兴趣,可以通过搜索引擎来提供个性化的搜索结果。许多方法来创建用户配置文件收集用户信息通过代理服务器或桌面机器人[5]。个性化是一个过程,提供正确的信息以正确的用户在正确的时刻。系统可以了解用户的兴趣收集个人信息,雷竞技官网分析信息,并将结果存储在一个用户配置文件。信息可以从用户在两个方面。例如要求显式反馈如偏好或评级;和隐式,例如观察用户行为如读书的时间在线文档。

个性化的上网

一项新技术在个性化的网络搜索可以为不同的用户提供不同的搜索结果,根据他们的兴趣、偏好和信息需要[2]。可以由用户或指定用户信息可以自动从用户的历史活动。个性化的网络搜索可以通过检查内容相似性web页面和用户配置文件。个性化的网络搜索可以提高网络搜索的性能。个性化的网络搜索可以实现服务器端或客户端上。服务器端个性化、用户配置文件建立、更新,并存储在搜索引擎方面。用户信息是直接纳入排名的过程,或者是用来帮助过程初始搜索结果。客户端个性化、用户信息被收集并存储在客户端,通常通过安装在用户的客户端软件或插件。

使用用户登录查询聚类

查询聚类是一个用来发现过程常见问题或最受欢迎的主题搜索引擎。这个过程对搜索引擎基于问题至关重要。由于短长度的查询,关键字不适合查询聚类。[1]介绍了一个新的查询聚类方法,利用用户日志允许我们识别文档的用户选择的查询。两个查询之间的相似性可能推导出从常见的文档的用户选择。

从搜索引擎日志推导Concept-Based用户配置文件

任何个性化应用程序用户分析的基本组成部分。现有的用户配置策略是基于用户感兴趣(即积极偏好)。主要的重点是搜索引擎个性化和开发几种conceptbased用户分析方法。Concept-based用户分析方法处理正面和负面的偏好。concept-based用户配置文件可以被整合到一个搜索引擎的排名算法,搜索结果排名可以根据个人用户的利益。终止和改善结果的总体质量查询集群凝结的集群算法被使用。用户分析策略可以是基于文档或概念。基于概念的方法提供了个性化的查询建议基于个性化的基于概念的聚类技术。当用户提交一个查询,从web-snippets概念及其关系挖掘网络构建一个概念关系图。

算法

HAC分层烧结的聚类算法

自顶向下或自底向上的层次聚类算法。自底向上算法将每个文档作为一个单例集群在一开始,然后先后合并(或集块岩)对集群,直到所有集群已经合并成单个集群包含所有文档。自底向上的层次聚类因此称为分层烧结的集群或工厂。自上而下的集群需要分裂一个集群的方法。它收益分割集群递归直到个人文档。HAC比自上而下的集群和经常用于红外是主要的主题。

个性化的烧结的集群

个性化的烧结的集群分为两个步骤:初始聚类和社区融合。初始聚类:

1。获取所有可能对查询节点的相似性得分。

2。合并两个最相似的查询节点不包含相同的查询从不同的用户。概念节点c是连接两个查询节点。

3所示。获取所有可能对概念节点的相似性得分。

4所示。合并两个概念节点。

社区合并:

1。获取所有可能对查询节点的相似性得分。

2。合并两个最相似的查询节点包含来自不同用户的相同的查询。概念节点c是连接两个查询节点。

设计

在现有的系统中,用户配置策略是基于用户感兴趣的对象。用户分析策略可以是基于文档或概念。在这个搜索,查询是由用户和整个显示相关的搜索结果。这里的用户需要搜索整个数据并选择所需的数据。这增加了搜索时间。这是这种类型的搜索查询的用户,查询和结果是基于搜索历史。基于搜索历史用户的偏好查询检查和给出的结果是根据搜索历史。时间来搜索数据减少。

在拟议的系统中,主要关注的是搜索引擎个性化和开发几种concept-based用户分析方法。Concept-based用户分析方法处理正面和负面的偏好。concept-based用户配置文件可以被整合到一个搜索引擎的排名算法,搜索结果排名可以根据个人用户的利益。终止和改善结果的总体质量查询集群凝结的集群算法被使用。

基于概念的方法提供了个性化的查询建议基于个性化的基于概念的聚类技术。现有的方法,提供相同的所有用户的建议,我们的方法使用点击数据估计用户的概念上的偏好,然后为个人用户提供了个性化的查询建议根据用户的概念上的需求。基于这一概念方法的主要目的是,查询提交给搜索引擎可能有多个含义。如根据用户,查询“苹果”可能指的是一种水果,苹果电脑公司或一个人的名字,等等。

提出技术的主要思想是基于概念及其关系提取从用户提交的查询,web-snippets,点击数据。“Web-snippet”表示标题、摘要,和一个web页面的url返回的搜索引擎。一个新的两阶段个性化凝结的聚类算法能够生成个性化查询集群。

提出系统包括以下主要步骤。首先,当用户提交一个查询、概念及其关系挖掘在线从web-snippets建立概念关系图。第二,点击收集来预测用户的概念上的偏好。第三,概念关系图和用户的概念偏好用作输入concept-based聚类算法发现概念上关闭查询。最后,最相似的查询是用户搜索改进建议。

概念提取

概念提取方法寻找频繁项集用于数据挖掘。用户提交的查询搜索引擎,一组web-snippets返回给用户识别相关的物品。支持公式是用于测量特定关键字/词词对web-snippets起源于返回查询问。

支持公式:

支持(ci) =科幻(ci)。ci | | n

其中n个¯总没有返回的web-snippets

科幻小说(ci)一个¯片段关键字/词词的频率

ci | |一个¯没有关键字/词ci的条款

查询聚类

查询聚类技术用于发现类似的搜索引擎上查询。查询基于烧结的聚类算法的聚类方法。烧结的聚类算法可以有效集群类似查询.Agglomerative集群将每个数据点视为一个单例集群,集群,然后先后合并,直到所有剩余点已经合并成一个单一的集群。

用户分析

用户分析策略可以是基于文档或概念。SPYNB-C方法是一个方法来实现基于概念的方法。这是基于强大的假设一个页面扫描而不是由用户点击用户被认为是无趣的。生成基于用户配置文件的访问模式。

方法

RSCF(排名SVM Co-Training框架)算法需要包含项目的点击数据已经由用户点击搜索结果作为输入,并生成自适应薄层土作为输出。点击数据,RSCF第一类别数据标签数据集,它包含的东西已经被扫描,和未标记的数据集,其中包含的项目还没有扫描。然后与未标记的数据增强带安全标签的数据时获得更大的数据集训练薄层土。

结论

用户配置文件可以提高搜索引擎的性能通过识别个人用户的信息需求。用户的积极偏好推断使用挖掘规则和使用偏好,得到用户的配置文件。用户分析策略进行评估并与个性化查询聚类方法。烧结的聚类算法用于寻找查询概念上彼此接近。用户配置文件获取用户的积极的和消极的偏好进行用户分析中最好的策略。RSCF使搜索在搜索结果中包含的数据项,所需的数据是由用户点击和点击数据作为输入,并生成薄层土作为输出。

数据乍一看

图2

引用

J.-R。温,J.-Y。聂,周宏儒。张“查询集群使用用户日志”,ACM反式。信息系统第2期,没有。1,pp.59 - 81, 2002。

Kenneth Wai-Ting梁和DikLunLee”推导Concept-Based从搜索引擎日志、用户配置文件“IEEE反式。Eng知识和数据。,22卷,不。2010年7月7日。

K.W.-T。梁、w·Ng和D.L.李,“个性化Concept-Based聚类搜索引擎的查询,IEEE反式。Eng知识和数据。,20卷,不。11日,pp.1505 - 1518, 2008年11月。

M。speretta和S .Gauch”,个性化搜索基于用户搜索历史,“proc。了对IEEE / WIC / ACM国际Conf web这类情报,2005。

R。Baeze-yates C。Hurtado和M。门多萨,”查询推荐使用查询登录搜索引擎,“proc.Int国际研讨会上当前的数据库技术的趋势,pp.588 - 596, 2004。

t . joachim“优化搜索引擎使用Clickthroygh数据,”Proc。ACM SIGKDD, 2002年。

Y.Xu, K。王,B。张,Z。陈”,注重隐私个性化的网络搜索,“Proc。世界WideWeb (WWW)相依,2007。