关键字 |
自然语言处理,搜索引擎,半结构化文本,开放域问题 |
介绍 |
从基于关键字的搜索到自然语言问题回答的转变已经等待了很长时间,尽管越来越多的人宣布它最终实现了,但实际上它仍然无法实现。虽然现代自然语言解决方案正试图获得信任并变得流行,但关键字搜索主导了大多数查询系统。这同样适用于维基百科,它已成为一个巨大而强大的知识基础。因此,维基百科是问答系统的一个很好的信息来源,因此在维基百科上搜索特定的信息成为非常有趣和重要的任务。高效的搜索引擎显然对普通用户也很重要。 |
与此同时,标准的维基百科关键字搜索引擎仍然是一个可靠而简单的解决方案。这个搜索实际上是一个非平凡的问题。尽管维基百科的文章在很多情况下都是一种非结构化文本,但也有结构良好的信息框内容可以被广泛利用。此外,维基百科包含了大量文章之间的链接。高效的搜索引擎应该考虑所有这些信息。从某种意义上说,维基百科的搜索系统仍然很简单,它试图一次性将文章独立地与整个查询相匹配。然而,维基百科的结构使人们不仅可以根据自己的内容,还可以根据与自己密切相关的文章的内容,找到匹配的文章。在这种意义上,查询可以由一组相关的文章来满足。在提出的方法中,我们试图遵循这种方法。 |
相关工作 |
其他可供选择的维基百科搜索方法已经被提出。其中一些引入了查询维基百科的新技术。Hahn等[1]提出了一个基于DBpedia的分面搜索系统。Yan等人[2]也使用了分面方法,以提供更好的搜索结果浏览。Hu等人提出了一种考虑文章质量[3]的搜索结果重排名系统。Boi´nski和Brzeski提出了一种波兰语Wikipieda[4]的事实提取方法。反过来,Szyma´nski提出了维基百科搜索结果聚类[5]和文章分类[6]的系统。维基百科也被广泛用作问答系统的知识库。最近,Ryu等人提出了一种使用文章信息框、内容、结构、类别结构和定义[7]的彻底的问题回答方法。Chu-Carroll和Fan也做了有趣的工作,他们利用维基百科的数据生成开放域问题[8]的候选答案。 |
提出的方法 |
所提出的方法假设查询以一组维基百科文章标题的形式给出。任务是找到最相关的维基百科文章,它最好地连接给定的短语,因此是查询的预期结果。本文提出的算法可以简单地表述为: |
输入:由一个或多个对应于维基百科文章的短语组成的查询 |
输出:答案(维基百科文章) |
步骤: |
1)建立一组候选解决方案 |
2)利用相关函数f对候选方案进行评价 |
3)返回得分最高的解 |
在第一步中,通过使用查询的特定短语执行一系列常规的Wikipedia搜索来建立候选解决方案集。对于每个短语,第一个搜索结果被选择为短语文章。然后,对于每个短语文章,获取所有链接文章的列表,并将其添加到候选解决方案集。在这一点上,假设没有一个短语本身是查询的答案,所以短语articles不包括在集合中。通常,候选解决方案集由几百到几千篇文章组成,具体取决于查询长度和使用的短语。在第二步,候选文章相关性评估使用函数f定义的公式1。 |
|
|
|
|
Wi:关系权重 |
Wm:匹配额外权重 |
文章之间定义了三种类型的潜在关系。关系的描述和条件如下所示。最后,对于f函数的评价,假设权重值为:w1 = 10, w2 = 5, w3 = 1, wm = 20。 |
Rel 1物品之间的紧密联系。如果文章B的标题与文章A中使用的信息框类型相同,或者出现在文章A的第一句中,则文章A与文章B相关。如果第一句很长,则只考虑文章的第一部分,在句子开始的第二个逗号字符上进行删减。 |
Rel 2(文章的重要参考)文章A与文章B相关,如果文章B出现在文章A的信息框中。 |
Rel 3(链接到文章)文章A与文章B相关,如果文章A链接到文章B |
结果 |
这些实验是根据一组20个问题进行的,这些问题摘自波兰一个流行的常识问答节目的其中一集。自然语言问题被转换成由有效短语组成的查询,即指向特定维基百科文章的短语。然而,并不是所有的测试问题都可以这样利用。转化为关键字的问题必须保持清晰和可回答。因此,动词起关键作用的问题被删除了,因为动词很难在维基百科的文章中表现出来。此外,任何“是-否”的问题都必须被排除,还有“自选一”的问题,有数字答案的问题,以及英文维基百科没有涵盖的问题。 |
这20个查询是从有效问题的随机子集中获得的。其中10个查询用作开发和调优方法的训练集,而其余查询用作测试集。所有考虑过的查询都列在表I中。 |
为了为所提出的方法提供参考,我们还通过检查第一篇返回的文章来测试谷歌搜索和常规维基百科搜索在查询上的性能。为了优化参考搜索,我们测试了查询中的各种双引号组合,以获得最佳结果。此外,与所提出的方法类似,与查询短语对应的搜索结果被忽略,以增加正确答案出现在顶部的机会。结果载于表二。 |
讨论 |
首先,实验表明,标准的维基百科搜索引擎可以正确地解决大约一半的查询。谷歌搜索也得到了类似的结果。这两个搜索系统解决了完全包含在适当的文章文本中的查询。这导致了一个结论,大部分的测试问题可以根据一篇单独的,但适当的文章来回答。有趣的是,在三分之二的情况下,所提出的方法未能返回正确答案,两个标准搜索系统都成功了。原因是,除了第一句和链接之外,所提出的方法还没有考虑实际的文章文本,而标准搜索则专注于文本,因此能够找到正确的文章。此外,在某些情况下,该方法错误地高估了其他文章的关系,将其置于结果列表的顶部。除了考虑全文内容外,维基百科和谷歌的搜索也因为接受多种形式的单词或命名实体而优于所提出的方法。所提出的方法还缺乏对同义词、词汇派生和Wikipedia重定向的考虑,这导致查询在某种程度上受到了强烈的约束,这在较低程度上限制了谷歌和Wikipedia搜索系统。反过来,在从多篇文章中收集信息方面,所提出的方法明显优于其他搜索系统。 While the standard search systems failed to answer all of the queries of that kind, the proposed method failed only once. This is quite a satisfactory and important result, especially that, again, about half of the queries required combining the information from multiple articles in order to be answered. |
结论 |
所提出的原型方法在解决维基百科文章库中的关键字搜索问题上取得了良好的效果。正确答案率几乎是常规维基百科搜索或谷歌搜索的两倍。跨文章知识检测的结果可能暗示了在自然语言问答中使用的潜力。然而,使用的测试集相当小,实验需要在更大的集上进行确认。预计还会有进一步的改进,主要是考虑文章的全文并引入类似isa的关系,可能会使用DBpedia或Yago本体。 |
|
表格一览 |
|
|
表1 |
表2 |
|
|
|
参考文献 |
- Rasmus Hahn, Christian Bizer, Christopher Sahnwaldt, Christian Herta, Scott Robinson, Michaela Bürgle, Holger Düwiger和Ulrich Scheel, ?多面维基百科搜索?商业信息系统,商业信息处理课堂讲稿,第47卷,第1页?11日,2010年。
- 颜宁,李成凯,Senjuti B. Roy, Rakesh Ramegowda, Gautam Das,维基百科中基于查询的面搜索?,《第19届ACM信息与知识管理国际会议论文集》(CIKM ?10), 1927?8, 2010。
- 胡美群,林奕鹏,孙爱新,Hady Wirawan Lauw, Ba-Quy Vuong,利用文章质量提高维基百科搜索?,在第九届ACM网络信息和数据管理国际研讨会论文集(WIDM ?07),第145页?52岁,2007年。
- Tomasz Boi´nski和Adam Brzeski,《从波兰语文本中提取事实》,国际计算机与通信工程创新研究杂志,Vol. 2, No. 8, 2014.
- Julian Szyma´nski ?组织地图表示聚类维基百科搜索结果?,Intelligent Information and Database Systems, Lecture Notes in Computer Science, pp. 140?9, 2011.
- Julian Szyma´nski,用矩阵表示维基百科文章?u?,Distributed Computing and Internet Technology, Lecture Notes in Computer Science, pp. 500?10, 2013.
- 刘普默,张明吉,金贤基,基于维基百科知识模型的开放领域问答?《信息处理与管理》,第50卷第5期,第683页?92年,2014年。
- Jennifer ju - carroll和James Fan,在问答中利用维基百科的特征进行搜索和候选人生成?, 2011年第25届AAAI人工智能会议论文集。
|