所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

基于协同过滤的搜索引擎日志

K.SIVARAMAN
助理教授,计算机科学部门,阿拉伯学者,-600073年Bharath大学,钦奈
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

搜索引擎返回相同的查询的结果大致相同,无论用户的实际利率。个性化搜索是一个重要的研究领域,旨在解决查询条件的模糊性。提高搜索结果的相关性,个性化搜索引擎创建用户配置文件来捕获用户的个人喜好,因此识别输入查询的实际目标。因为用户通常不愿意显式地提供他们的偏好由于所涉及的额外的手工工作,最近的研究集中在用户首选项的自动学习用户的搜索历史或浏览文档和个性化系统的开发基于用户首选项。在这个项目中,我们专注于搜索引擎个性化和开发几个concept-based用户分析的方法是基于正面和负面的偏好。用户配置文件获取用户的积极和消极的偏好。负偏好提高相似的分离和不同的查询,它促进一个凝结的聚类算法决定是否最优簇。

关键字

消极的偏好、个性化、烧结的聚类算法,搜索引擎,用户分析

我的介绍。

数据挖掘通常被定义为寻找隐藏的信息在数据库中。数据挖掘是分为两种类型预测和描述。对值预测模型进行预测的数据使用已知的结果发现从不同的数据。一个描述性的模型识别模式或关系数据聚类是描述性的分类下。集群分为等级,partitional直言,大型数据库。一套分层算法创建一个集群。分层算法分为两种类型,凝结的算法和分裂算法。在这个凝结的聚类算法用于集群概念相似的查询和相似的概念获得集群的最优结果。
大多数商业搜索引擎返回相同的查询的结果大致相同,无论用户的实际利率。因为查询提交给搜索引擎往往是短期和模棱两可,他们不太可能能够表达用户的精确的需求。例如,一个农民可以使用查询“苹果”找到的信息越来越美味的苹果,虽然平面设计师可能使用相同的查询来找到关于苹果电脑的信息。个性化搜索是一个重要的研究领域,旨在解决查询条件的模糊性。提高搜索结果的相关性,个性化搜索引擎创建用户配置文件来捕获用户的个人喜好,因此识别输入查询的实际目标。因为用户通常不愿意显式地提供他们的偏好由于所涉及的额外的手工工作,最近的研究集中在用户首选项的自动学习用户的搜索历史或浏览文档和个性化系统的开发基于用户首选项。一个好的用户配置策略是一个重要的搜索引擎个性化和基本组成部分。我们研究了不同用户个性化搜索引擎的分析策略,并观察以下策略中存在的问题。在这个研究中,我们解决以上问题提出和研究七concept-based用户分析策略,能够产生这两个用户的积极的和消极的偏好。整个用户配置策略是面向查询的,这意味着创建一个概要文件为每个用户的查询。 The user profiling strategies are evaluated and compared with our previously proposed personalized query clustering method.
捕获用户的用户配置文件的正面和负面的偏好表现最好的在所有分析策略研究。此外,我们发现负面偏好提高相似的分离和不同的查询,它促进一个凝结的聚类算法确定最优簇。
本文组织如下:第二节介绍了本文的背景,第三节解释个性化凝结的算法,第四节所描述的问题和选择的方法和引用5和6给出结论。

二世。背景

当前的网络搜索的一个主要问题是搜索查询通常是短期和模棱两可,因此不足用于指定准确的用户需求。为了缓解这个问题,一些搜索引擎认为语义相关的条款提交的查询,用户可以选择建议的反映他们的信息需求。在本文中,我们引入一个有效的方法,捕捉用户的概念偏好以提供个性化的查询建议。我们实现这一目标的两个新策略。首先,我们开发的在线技术,提取概念从web-snippets从查询返回的搜索结果,使用的概念来确定相关的查询,查询。其次,我们提出一种新的两阶段个性化凝结的聚类算法能够生成个性化查询集群。最好的作者的知识,没有以前的工作解决个性化查询的建议。评估我们的技术的有效性,谷歌中间件开发收集点击数据进行实验评估。实验结果表明,我们的方法具有更好的精度和召回比现有的查询聚类方法。[1]
用户配置文件,描述用户兴趣,可以通过搜索引擎来提供个性化的搜索结果。许多方法来创建用户配置文件获取用户信息通过代理服务器(捕捉浏览历史)或桌面机器人(捕获所有活动在个人电脑)。这些都需要参与用户安装代理服务器或机器人。在这项研究中,我们探索使用侵害为个性化搜索收集用户信息的手段。特别地,我们构建基于活动的用户配置文件搜索网站本身和学习使用这些配置文件提供个性化的搜索结果。为谷歌在我们的研究中,我们实现了一个包装器来检查不同来源的信息,以此为基础的用户配置文件:检查搜索结果的查询和片段。这些用户配置文件是由分类信息从开的目录工程概念层次结构的概念,然后用于排名搜索结果。收集用户反馈比较谷歌最初的等级与我们的新等级的用户检查的结果。我们发现,查询时那么有效片段用于创建用户配置文件和我们的个性化reranking导致在用户选择的排序结果提高37%。[2]
一个方法来自动优化搜索引擎的检索质量使用点击数据。直观地说,良好的信息检索系统应该提供相关文件高排名,下面用更少的相关文件后。虽然以前的学习方法检索功能的例子存在,他们通常需要训练数据生成的相关性由专家判断。这使得它们困难和昂贵的应用。本文的目的是开发一种方法,利用点击数据训练,即搜索引擎的查询日志的日志的链接的用户点击了排名。许多这样的点击数据可用,可以记录以非常低的成本。支持向量机(SVM)方法,本文提出一种方法学习检索功能。从理论的角度来看,这种方法在风险最小化框架是有根据的。此外,它甚至是证明是可行的大型集的查询和特性。一个受控实验的理论结果进行了验证。 It shows that the method can effectively adapt the retrieval function of a meta-search engine to a particular group of users, outperforming Google in terms of retrieval quality after only a couple of hundred training example.[3]
查询聚类是一个用来发现过程常见问题或最受欢迎的主题搜索引擎。这个过程是基于搜索引擎的关键问题。由于短长度的查询,基于关键字的方法不适合查询聚类。本文描述一个新的查询聚类方法,利用用户日志允许我们识别文档的用户选择的查询。两个查询之间的相似性可能推导出从常见的文档的用户选择。我们的实验表明,两者的结合关键词和用户日志比单独使用这两种方法都好。[4]
挖掘用户事务的集合与互联网搜索引擎发现集群类似的查询和类似的url。我们利用的信息是“点击数据”:每个记录由一个用户的查询搜索引擎与用户选择的URL中提供的候选人的搜索引擎。通过查看该数据集作为两偶图,顶点一侧对应查询和另一边的url,可以应用一个凝结的聚类算法对图的顶点来确定相关的查询和url。该算法的一个值得注意的功能没有使用的实际内容查询或url,但只有他们如何点击数据中的共现。[5]聚类是数据挖掘技术用于确定数据预定义属性之间的相似性。最相似的数据被分组为集群。
但在这个提议,我们专注于搜索引擎个性化和发展几个concept-based用户分析方法基于正面和负面的偏好。负偏好提高相似的分离和不同的查询,它促进一个凝结的聚类算法决定是否最优簇。
提出的方法使用一个RSVM学习概念偏好加权概念向量代表conceptbased用户配置文件。

三世。个性化的烧结的聚类算法

个性化的聚类算法迭代合并一双最相似查询节点,然后,一双最相似概念节点,然后,一双最相似的查询节点合并,等等。下面的余弦相似度函数是用来计算相似性得分sim (x, y)一对查询节点或一对概念节点。
sim (x, y) = Nx。纽约Ny / | | Nx | | | | | | eqn - - - (1)
在Nx的权向量的邻居节点的节点x两偶图G,邻居节点的重量Nx的权向量Nx的重量是链接连接在G . x和Nx纽约的权向量在G组节点的邻居节点y,和邻居节点的重量在纽约纽约链接连接y和纽约的重量在G。
算法:个性化凝结的集群
输入:Query-Concept两偶图G
输出:一个个性化的集群Query-Concept两偶图的全科医生
初始聚类
1。获得G的相似性分数查询节点的所有可能对使用方程(1)
2。合并两个最相似的查询节点(气、qj)不包含相同的查询从不同的用户。
假设c是一个概念节点连接到两个查询节点气和体重wi和wj qj,创建一个新链接之间c和(气、qj)重量w = wi + wj
3所示。获得相似的得分在G概念节点的所有可能对使用方程(1)。
4所示。合并两个概念节点(ci, cj)相似性得分最高。假设一个查询节点问是连接到两个概念节点与体重wi和wj ci和cj,创建一个新链接之间q和(ci, cj)重量w = wi + wj
5。除非终止,重复步骤1 - 4。
社区合并
6。获得G的相似性分数查询节点的所有可能对使用方程(1)。
7所示。合并两个最相似的查询节点(气、qj)从不同的用户包含相同的查询。假设c是一个概念节点连接到两个查询节点气和体重wi和wj qj,创建一个新链接之间c和(气、qj)重量w = wi + wj。
8。除非终止,重复步骤6 - 7。

第四,提出了系统的体系结构

方法描述

个性化的烧结的聚类算法分为两个步骤:初始聚类和社区融合。
4.1初始聚类:
在初始聚类,查询每个用户的分组范围内。和初始集群参与个性化凝结的聚类算法。
4.2社区合并:
社区合并然后参与组查询社区。和社区融合参与个性化凝结的聚类算法。
4.3终止点:
迭代聚类算法的一个常见需求是确定当聚类过程应该停止,避免合并的集群。当达到初始聚类的终止点,社区合并开始;当达到社区合并的终止点,整个算法终止。好时机停止算法的两个阶段是很重要的,因为如果初始聚类(即停止为时过早。,not all clusters are well formed), community merging merges all the identical queries from different users, and thus, generates a single big cluster without much personalization effect. If initial clustering is stopped too late, the clusters are already overly merged before community merging begins. The low precision rate thus resulted would undermine the quality of the whole clustering process.
终止点形式可以确定初始聚类发现的点集群质量达到了它最高的(即。会降低质量,进一步聚类步骤)。同样可以做决定的终止点社区合并。集群质量的变化可以测量ΔSimilarity,相似度值的变化的两个最相似的集群在两个连续的步骤。效率的原因,我们采用单键的方法来衡量集群相似。相似的两个集群之间的相似性是一样的两个最相似的查询在两个集群。
形式上,ΔSimilarity被定义为ΔSimilarity (i) =思米(Pqm Pqn) _思米+ 1 (Pqo,药品资格预审规划)qm和qn两个最相似的查询的第i个一步聚类过程中,P (qm)和P (qn) qm和qn concept-based概要,问:和qp是两个最相似的查询(i + 1)的th一步聚类过程中,P(问:)和P (qp) qm和qn concept-based概要文件,和sim()余弦相似性。

诉的结论和未来的工作

一个精确的用户配置文件可以大大提高搜索引擎的性能通过识别个人用户的信息需求。我们提出和评估几个用户分析策略。利用点击数据提取的技术从Web-snippets自动构建concept-based用户配置文件。我们不仅应用偏好挖掘规则来推断用户的积极的偏好也是消极的偏好和利用两种偏好在获得用户的配置文件。用户分析策略进行评估并与我们之前提出的个性化查询聚类方法。
除了改善的质量产生的集群,消极的偏好,提出用户配置文件也有助于独立的相似和不同的查询到遥远的集群,这有助于确定最优聚类算法的终止点附近。
我们观察到初始聚类的算法优化点和社区合并通常只有一个远离手动确定最优点。此外,算法的精度和召回值获得最优点是仅略低于手动确定最优点。
在未来的工作中,现有的用户配置文件可以用于预测的目的看不见的查询,这样当用户提交一个新的查询,个性化可以造福于看不见的查询。

数据乍一看

图1 图2 图3
图1 图2 图3

引用






全球技术峰会