关键字 |
负面偏好,个性化,聚类算法,搜索引擎,用户分析 |
我的介绍。 |
数据挖掘通常被定义为在数据库中寻找隐藏的信息。数据挖掘分为预测性和描述性两种类型。预测模型利用从不同数据中得到的已知结果对数据的值进行预测。描述性模型识别数据聚类中的模式或关系,属于描述性范畴。聚类分为分层、分区、分类、大数据库。层次算法创建一组集群。层次算法分为聚类算法和分裂算法两类。在聚类算法中,采用聚类算法的概念对相似查询和相似概念进行聚类,以获得最优的聚类结果。 |
大多数商业搜索引擎对相同的查询返回大致相同的结果,而不管用户的真正兴趣。由于提交给搜索引擎的查询往往很短且模棱两可,因此它们不太可能表达用户的精确需求。例如,农民可以使用查询“apple”来查找关于种植美味苹果的信息,而图形设计师可以使用相同的查询来查找关于apple Computer的信息。个性化搜索是解决查询词歧义性的一个重要研究领域。为了增加搜索结果的相关性,个性化搜索引擎创建用户配置文件来捕获用户的个人偏好,从而确定输入查询的实际目标。由于涉及额外的手工工作,用户通常不愿意明确地提供他们的偏好,最近的研究集中在从用户的搜索历史或浏览的文档中自动学习用户偏好,以及基于学习到的用户偏好开发个性化系统。一个好的用户分析策略是搜索引擎个性化的基本组成部分。我们研究了各种用于搜索引擎个性化的用户分析策略,发现现有策略存在以下问题。在这项研究中,我们通过提出和研究七个基于概念的用户分析策略来解决上述问题,这些策略能够推导出用户的积极和消极偏好。整个用户概要策略是面向查询的,这意味着为用户的每个查询创建一个概要。 The user profiling strategies are evaluated and compared with our previously proposed personalized query clustering method. |
在所有研究的分析策略中,捕捉用户积极和消极偏好的用户配置文件表现最好。此外,我们发现负偏好改善了相似和不相似查询的分离,这有助于凝聚聚类算法判断是否获得了最优聚类。 |
本文的组织结构如下:第2节介绍了本文的研究背景,第3节说明了个性化聚类算法,第4节描述了问题的解决方法,并给出了选择5和6的结论和参考文献。 |
2背景 |
当前Web搜索的一个主要问题是搜索查询通常很短且不明确,因此不足以精确指定用户需求。为了缓解这个问题,一些搜索引擎建议与提交的查询在语义上相关的术语,以便用户可以从建议中选择反映他们信息需求的术语。在本文中,我们介绍了一种有效的方法来捕捉用户的概念偏好,以提供个性化的查询建议。我们通过两种新策略来实现这一目标。首先,我们开发了在线技术,从查询返回的搜索结果的web片段中提取概念,并使用这些概念来识别该查询的相关查询。其次,我们提出了一种新的两阶段个性化聚类算法,能够生成个性化的查询聚类。据作者所知,以前的工作还没有针对查询建议进行个性化处理。为了评估我们的技术的有效性,开发了一个谷歌中间件,通过数据收集点击进行实验评估。实验结果表明,与现有的查询聚类方法相比,该方法具有更好的聚类精度和查全率 |
用户档案,用户兴趣的描述,可以被搜索引擎用来提供个性化的搜索结果。许多创建用户配置文件的方法通过代理服务器(捕捉浏览历史)或桌面机器人(捕捉个人计算机上的所有活动)捕获用户信息。这两种方法都需要用户参与安装代理服务器或机器人。在这项研究中,我们探索了一种低侵入性的方法来收集用户信息以进行个性化搜索。特别是,我们根据搜索网站本身的活动建立用户档案,并研究如何使用这些档案来提供个性化的搜索结果。在我们的研究中,我们为谷歌实现了一个包装器,以检查用户概要文件所基于的不同信息源:检查过的搜索结果的查询和片段。这些用户配置文件是通过将信息分类到Open Directory Project概念层次结构中的概念来创建的,然后用于对搜索结果重新排序。收集用户反馈,以比较谷歌的原始排名与用户检查结果的新排名。我们发现,当用于创建用户配置文件时,查询和代码片段一样有效,并且我们的个性化重新排序导致用户选择结果的排名顺序提高了37%。[2] |
一种利用点击数据自动优化搜索引擎检索质量的方法。直观地说,一个好的信息检索系统应该把相关的文档放在较高的位置,不太相关的文档放在下面。虽然以前存在从示例中学习检索函数的方法,但它们通常需要由专家的相关性判断生成的训练数据。这使得申请它们变得困难和昂贵。本文的目标是开发一种利用点击数据进行训练的方法,即搜索引擎的查询日志与用户在给出的排名中点击的链接日志相关联。这种点击数据有很多,而且可以以很低的成本记录下来。本文采用支持向量机方法,提出了一种学习检索函数的方法。从理论角度来看,该方法在风险最小化框架中是有充分根据的。此外,它被证明是可行的,即使是大的查询和特征集。通过对照实验验证了理论结果。 It shows that the method can effectively adapt the retrieval function of a meta-search engine to a particular group of users, outperforming Google in terms of retrieval quality after only a couple of hundred training example.[3] |
查询聚类是一种用于发现搜索引擎上常见问题或最流行主题的过程。这一过程对于基于问答的搜索引擎至关重要。由于查询的长度较短,基于关键字的方法不适合查询聚类。本文描述了一种新的查询聚类方法,该方法利用用户日志来识别用户为查询选择的文档。两个查询之间的相似性可以从用户为它们选择的通用文档中推断出来。我们的实验表明,关键字和用户日志的组合比单独使用任何一种方法都要好 |
使用Internet搜索引擎挖掘用户事务的集合,以发现类似查询和类似url的集群。我们利用的信息是“点击数据”:每条记录包括用户对搜索引擎的查询以及用户从搜索引擎提供的候选中选择的URL。通过将此数据集视为二部图,其中一边的顶点对应查询,另一边对应url,可以对图的顶点应用聚合聚类算法来识别相关的查询和url。所提出的算法的一个值得注意的特点是不使用查询或url的实际内容,而只使用它们在点击数据中共同出现的方式。[5]聚类是一种数据挖掘技术,用于确定数据在预定义属性上的相似性。最相似的数据被分组为集群。 |
但在这项拟议的工作中,我们专注于搜索引擎个性化,并开发了几种基于积极和消极偏好的基于概念的用户分析方法。负首选项提高了相似和不相似查询的分离,这有助于凝聚聚类算法判断是否获得了最优聚类。 |
所提出的方法使用RSVM从表示基于概念的用户配置文件的概念偏好加权概念向量中学习。 |
3个性化聚类算法 |
个性化聚类算法迭代地合并最相似的对查询节点,然后,合并最相似的对概念节点,然后,合并最相似的对查询节点,以此类推。下面用余弦相似度函数来计算一对查询节点或一对概念节点的相似度分数sim(x,y)。 |
sim(x,y)= Nx。Ny / || Nx || || Ny || eqn- (1) |
在Nx的权向量的邻居节点的节点x两偶图G,邻居节点的重量Nx的权向量Nx的重量是链接连接在G . x和Nx纽约的权向量在G组节点的邻居节点y,和邻居节点的重量在纽约纽约链接连接y和纽约的重量在G。 |
算法:个性化聚类 |
输入:一个查询概念二部图G |
输出:一个个性化的聚类查询概念二部图Gp |
初始聚类 |
1.利用式(1)获得所有可能的查询节点对在G中的相似度分数 |
2.合并不包含来自不同用户的相同查询的最相似的查询节点对(qi,qj)。 |
假设一个概念节点c与查询节点qi和qj的权值分别为wi和wj,则在c与(qi,qj)之间建立一个新的链接,权值w=wi+wj |
3.利用式(1)得到所有可能的概念节点对在G中的相似度分数。 |
4.将相似度最高的一对概念节点(ci,cj)合并。假设查询节点q与概念节点ci和cj的权值分别为wi和wj,则在q与(ci,cj)之间新建一条权值w=wi+wj的链接 |
5.除非达到终止,否则重复步骤1-4。 |
社区合并 |
6.利用式(1)得到所有可能的查询节点对在G中的相似度分数。 |
7.合并包含来自不同用户的相同查询的最相似的查询节点对(qi,qj)。假设一个概念节点c与查询节点qi和qj的权值分别为wi和wj,则在c与(qi,qj)之间建立一个新的链接,权值w=wi+wj。 |
8.除非达成终止,否则重复步骤6-7。 |
四、系统架构 |
方法描述 |
个性化聚类算法分为初始聚类和社区合并两个步骤。 |
4.1初始聚类: |
在初始聚类中,查询在每个用户的范围内进行分组。其中,初始聚类涉及到个性化聚类算法。 |
4.2社区合并: |
然后涉及到社区合并,以对社区的查询进行分组。个性化聚类算法中涉及到社区合并。 |
4.3终止点: |
迭代聚类算法的一个常见要求是确定聚类过程何时应该停止,以避免聚类的过度合并。当到达初始集群的终止点时,社区合并开始;当达到团体合并的终止点时,整个算法终止。在合适的时机停止这两个阶段对算法来说很重要,因为如果初始聚类过早停止(即不是所有的聚类都很好地形成),社区合并将来自不同用户的所有相同查询合并在一起,从而生成一个单一的大聚类,没有太多的个性化效果。如果初始集群停止得太晚,那么在社区合并开始之前,集群就已经过度合并了。这样造成的低准确率会影响整个聚类过程的质量。 |
初始聚类的终止点可以通过找到聚类质量达到最高的点来确定(即,进一步的聚类步骤将降低质量)。确定社区合并的终止点也可以采用同样的方法。聚类质量的变化可以通过ΔSimilarity来衡量,这是连续两步中两个最相似的聚类的相似值的变化。为了提高效率,我们采用单链方法来度量聚类相似度。两个集群的相似度等于两个集群中最相似的两个查询之间的相似度。 |
在形式上,ΔSimilarity定义为ΔSimilarity(i)= simi(Pqm,Pqn) _ simi+1(Pqo,Pqp),其中qm和qn是聚类过程第i步中最相似的两个查询,P (qm)和P(qn)是聚类过程第i+1步中最相似的两个查询,qo和qp是聚类过程第(i+1)步中最相似的两个查询,P (qo)和P(qp)是qm和qn的基于概念的两个查询,sim()是余弦相似度。 |
五、结论与未来工作 |
一个准确的用户档案可以通过识别单个用户的信息需求来极大地提高搜索引擎的性能。我们提出并评估了几种用户分析策略。这些技术利用点击数据从web片段中提取数据,自动构建基于概念的用户配置文件。我们应用偏好挖掘规则来推断用户的积极偏好和他们的消极偏好,并利用这两种偏好来推导用户的配置文件。对用户分析策略进行了评估,并与我们之前提出的个性化查询聚类方法进行了比较。 |
除了提高结果聚类的质量外,建议的用户配置文件中的负面偏好还有助于将相似和不相似的查询分离到遥远的聚类中,这有助于确定聚类算法的近最优终点。 |
我们观察到,初始聚类和团体合并的算法最优点通常与人工确定的最优点只有一步之遥。此外,算法最优点处获得的精度和召回率值仅略低于人工确定的最优点处获得的精度和召回率值。 |
在未来的工作中,现有的用户配置文件可以用来预测不可见查询的意图,这样当用户提交新的查询时,个性化可以使不可见查询受益。 |
数字一览 |
|
|
参考文献 |
- K.W.-T。Leung, W. Ng和D.L. Lee,“基于个性化概念的搜索引擎查询聚类”,IEEE Trans。知识与数据工程,第20卷,no。11,第1505-1518页,2008年11月。
- M. Speretta和S. Gauch,“基于用户搜索历史的个性化搜索”,EEE/WIC/ACM国际会议,Web智能,2005。
- T. Joachim的,“使用点击数据优化搜索引擎”,Proc. ACM SIGKDD, 2002。
- J.-R。温,J.-Y。聂和H.-J。张,“使用用户日志查询集群”,ACM出版社。《信息系统》,第20卷,第1期。1,页59-81,2002。
- D. Beeferman和a . Berger,“搜索引擎查询日志的聚合聚类”,ACM SIGKDD, 2000。
|