关键字 |
点击数据;内隐反应机制排序;信息恢复;搜索结果重组;重组 |
介绍 |
Web删除是数据挖掘和万维网两种方法的结合,是一个非常热门的研究课题。网络删除研究属于删除研究属于众多社区,如数据库,人工智能和信息恢复。我们将Web挖掘分为三部分:Web结构挖掘、Web满足挖掘和Web使用挖掘。Web满足挖掘的重点是从网格中检索和发现有用的信息填充或数据或文档。Web结构研究的重点是如何对Web的基本链接结构进行建模。Web使用移除是相对独立的,但并不遥远的类别,它主要标记了学习用户使用模式并尝试预测用户行为的技术。网站删除是一个帮助做商业,教育和公司。Web是一个大型的动态、多样化和无形式的数据存储库领域。Web是一个大的,短的,杂的,动态的和典型的非结构化的数据存储库,它提供了大量的信息。现有的搜索火车,如谷歌,雅虎和亚马逊经常重新出现一个很长的搜索结果列表,根据他们的相关性来分级。网络用户必须浏览列表,依次检查标题、标签和(短)片段,以确定它们所需的结果。 This is a time consuming task since manifold sub-topics of the given query are varied together. |
LITERETURE调查 |
在基于web的请求中,查询被提交给Search Trains来表示用户的信息需求,但有些查询可能不能准确地表示用户的特定信息需求,因为它是模糊的,可能涵盖一个广泛的主题,不同的用户在面对同一个查询时可能需要获得不同方面的信息。例如,图1显示了我们的方法的轮廓。当搜索引擎屈服于“太阳报”的查询时,一些用户需要印度报纸,一些用户需要关于太阳报的常用语言。因此,在信息检索中,捕获不同操作者的目标是至关重要的。用户搜索目标蕴涵和分析的主要优点是 |
首先,我们可以根据相同搜索目标的搜索结果重构网页搜索结果,这样不同搜索目标的用户就可以很容易地找到自己需要的东西。其次,一些关键词所代表的用户搜索目标可以用于查询引用;它帮助用户更准确地形成查询。第三,用户搜索目标的传递在应用程序中是有价值的,例如重新排列包含不同用户搜索目标的web搜索结果。它可以被划分为三个类: |
1.查询组织, |
2.查询结果重新组织,和 |
3.会话边界检测。 |
在现有系统中,查询的所有反馈会议首先从用户点击日志中删除,并映射到伪文档。由于我们没有提前区分用户搜索目标的准确数量,所以尝试了几种不同的标准,并根据底部的响应来确定最优值。在底部份额中,原始搜索结果是基于从上部部分推断出的用户搜索目标。然后,利用该评价标准分类正则精度CAP对重构搜索结果的表示进行评价,并将评价结果作为响应,选择较高部分的最优用户搜索目标数。 |
提出了系统 |
现有的反馈会议由已单击和未单击的URL组成,并以在单独会话中单击的最后一个URL结束。它用于根据当前反馈所包含的点击数据来查找用户在该时间所需的内容。大多数基于文档的方法专注于分析用户的点击和浏览性能,并记录在用户的点击数据中。在Web搜索列车上,点击浏览数据是用户重要的隐性反馈手段。查询“apple”的点击数据示例,其中包含用户可获得的分层搜索结果列表,用户在[2]上单击的结果上的ID。它根据用户的兴趣和点击最多的URL链接重新排列结果。用户的注意力不考虑单个会话或最后一次搜索会话。在该系统中建立用户档案,监控用户在任何时间、任何地点的搜索会议。我们未来系统的优点是我们可以动态地改变用户的注意力,基于用户兴趣的搜索结果将首先被吸收,URL排名将发生,搜索历史将是通用的过程。 |
我们方法的框架 |
该框架被分为两部分: |
1)在第一部分中,从用户点击日志中提取所有响应会话,并映射到伪文档。收集是通过关键词来完成的。由于不知道用户搜索目标的精确数目,我们先对几个不同的值进行筛选,然后从最小的部分确定最优值。 |
2)。在第二部分,唯一的搜索结果是有效的基于用户搜索目标偶然从上半部分,如图2所示。图2显示了到目前为止被点击过的URL或从上到下浏览过的URL将是机密的矩形框,并且该矩形框已经在室外,盒子还没有被观看(其他链接) |
我们未来系统的主要目标是为每个独立的用户创建用户配置文件,并已由客户端获得真实。用户的兴趣在数据库中列出,因为用户兴趣将被动态更改[5]。在此基础上,数据库将经常更新。首先,用户输入关键字,如果它已经在数据库中,将由服务器进行检查。基于此,它将由客户端显示,重排被执行,每个用户的注意力排名也将完成。根据重排结果进行排序,根据用户的注意力进行排序,因此该系统得到了应用。在图3所示的图表中可以简单地说明这一点。在用户给出关键字的基础上,阐述了系统的工作原理。检查文件并更新兴趣。 |
系统实现 |
这个系统有四个单元,分别是捕捉反馈会议、构建伪文档、收集伪文档、基于web搜索结果进行重构。 |
给定一个模糊的查询,q。当用户提交查询时,在该查询的基础上获得搜索结果 |
S = {s1、s2、s3、s4…,sn} |
首先,用户会点击一些结果,比如{s1,s4,s5},由此得到的点击顺序是,{s1=1,s4=2,s5=3}。因此,点击结果的顺序如下: |
{s1 = 1, s2 = 0, s3 = 0, s4 = 2, s5 = 3,…sn = 0} |
一个反馈会议涵盖的URL,直到最后点击的URL。这些响应会话由,{fs1,fs2,…fsn}表示。将这些反馈会议映射到伪文档,以找出用户目标。因此,伪文档被创建为,{pd1,pd2,..pdn}。最后,聚类这些伪文档,找出相似之处, |
{pd1 =干系人,sg2,…胡志明市| pd2 =干系人,sg2,胡志明市……| |生产=干系人,sg2, . .胡志明市} |
相似度计算simi,j=cos(Ffsi,Ffsj) |
式中,Ffs为反馈环节的特征图。在收集到所有伪文档后,将每个聚类视为一个用户搜索目标。基于网络搜索结果的评估 |
|
N+为相关文档数r为秩N为保存文档总数rel()给定秩相关性的二进制函数Rr为相关保存文档数VAP(投票AP)为点击次数作为投票的类别的AP。在这里,单个会议中的URL被重新构造为两个类,粗体和非粗体。VAP仍然不能接受。因此,避免将搜索结果归类为太多教训应该是有风险的。 |
评价标准 |
1:平均精度 |
一个可能的评估标准是平均精度(AP),它根据用户理解的反馈进行评估。AP是在层次序列中每个相关文档的点上计算的精度平均值,如图所示 |
|
在哪里 |
N为检索到的单张中相关(或点击)单张的数量,r为秩,N为检索到的文档总数,rel(r)是给定秩的重要程度的二进制函数,rr为秩为r或更低的相关检索文档的数量。 |
2:投票ap (vap) |
计算它的目的是为了重新排列搜索结果类,即不相似的聚类结果类。与AP相同,针对点击次数较多的班级计算。 |
3:风险 |
是班级的AP计数更多点击吗?避免错误地将搜索结果划分为太多类别应该是有风险的。所以我们提出了风险。 |
|
4:分类ap (cap) |
通过VAP与风险的结合,将VAP扩展到CAP。秘密AP的计算公式如下: |
|
结论 |
|
本文提出了一种通过收集由伪文档表示的反馈会话来推断查询的用户搜索目标的新方法。首先,我们提供反馈会话进行分析,以推断用户搜索目标,而不是搜索结果或点击的url。在最后一次点击之前点击的url和未点击的url都被认为是用户隐式响应,并考虑到概念反馈会议。因此,反馈会议可以更专业地反映用户信息需求。其次,我们将反馈会话映射到伪文档,以接近用户关注的目标文本。伪文档可以用额外的文本内容(包括标题和片段)丰富url。 |
|
数字一览 |
|
|
参考文献 |
- 结合排位表和聚类改进交互式检索。法兰西学院学报,第665-681页,2000。
- S. Beitzel, E. Jensen, A. Chowdhury和O. Frieder,“主题Web查询分类的不同方法”,第30期。国际ACM SIGIR会议。研究与开发(SIGIR ' 07),
- H. Chen和S. Dumais,“为网络带来秩序:自动分类搜索结果”,《计算机系统中的人为因素》(SIGCHI’00),第145-152页,2000。
- 黄昌凯,黄立峰,杨永杰,“基于上下文信息的交互式Web搜索的相关词建议”,《计算机工程》。信息科学与技术专业。
- T.Joachims,“使用点击数据评估检索性能”,文本挖掘,J. Franke, G. Nakhaeizadeh和I. Renz主编。,第79- 96页,Physica/施普林格Verlag, 2003。
- T. Joachims, L. Granka, B. Pang, H. Hembrooke和G. Gay,“将点击数据准确解读为内隐反馈”,第28期。《信息检索的研究与发展》,2005年第1期。
|