关键字 |
抓取,CQA, MMQA, E-VSM, POS标记器。 |
介绍 |
问答(QA)是一种自动回答以自然语言提出的问题的技术。它被定义为从文本文档集合或语料库中搜索和提取包含以自然语言陈述的特定问题答案的文本的任务(Molla和Vicedo, 2007)。根据应用领域的不同,QA系统可以分为两种类型:开放域问答(ODQA)或限制域问答(RDQA)系统。第一种类型涉及各种各样的问题(例如,谁是印度总理?),第二种类型适合于特定的领域(例如,发烧的人需要什么抗生素?)在医学领域),从而获得关于特定主题的更精确的结果。 |
虽然aQA在逐年的评估工作中取得了重大进展,但它们主要集中在简短的问题上;更复杂的问题通常较少研究。除了事实型、列表型和定义型问题之外,现实世界中还经常出现其他类型的问题,包括有关程序(“如何”)、原因(“为什么”)或意见等的问题。与简单问题不同,这些复杂问题的答案可能不在文档的单个部分中,不同的答案碎片分散在文档集合中也并不少见。 |
下一个出现的技术是社区问答(cQA)。它主要只支持文本答案。但是,文本答案可能不能提供足够的信息。对于“安装SQL server 2005需要哪些步骤”和“如何准备咖啡”这两个问题,答案都是用长句子来描述的。显然,如果有一些视频和图像直观地演示这个过程,效果会更好。因此,需要用图像、视频等多媒体内容来增强文本答题。 |
接下来的方案就是本文提出的新型多媒体问答(MMQA)。该技术可以利用适当的媒体数据丰富cQA中社区贡献的文本答案。它由三个部分组成: |
1.回答媒介选择 |
2.多媒体搜索查询生成。 |
3.多媒体数据的选择和呈现。 |
论文的其余部分描述了项目从文本QA到多媒体QA的工作流程。 |
文献综述 |
QA的早期研究始于20世纪60年代。在开放域交互式QA[1]中,使用了问题处理、文档检索和答案提取等功能,并引入了用户建模(UM)组件,以克服传统标准QA系统不能满足用户个性化需求的问题。自动化QA不会为复杂的问题提供糟糕的答案。在知识共享和yahoo answer[3]中,用户发布一个问题,其他用户直接用他们的答案回答这个问题。除了知识分享,它还允许用户分享建议,意见等。 |
在社区问答系统中,它只提供纯文本的答案,这可能无法为用户提供足够的信息。因此,需要多媒体回答。 |
多媒体质量保证的研究已经开始,旨在利用多媒体质量保证来回答问题。基于照片的QA方法是在2008年提出的,主要集中在寻找物理对象的图像,并以文本和图像将答案呈现给用户。还有一些问题需要视频回答。然后对视频检索进行了研究,并于2011年实施。它试图从youtube、谷歌视频等网站上为用户的问题找到合适的视频 |
每项研究都提供了多媒体内容的答案,但都是单独实施的,这并没有完全满足用户。因此就有了提供多媒体组合答题的需要。 |
2013年,这项技术被称为多媒体问答(MMQA)。这种方法的主要目的是用图像或视频或图像和视频等多媒体内容丰富文本答案。 |
如前所述,传统的自动文本QA和基于社区的QA都取得了巨大的成功。前者主要解决简单和事实类问题,而后者则可以利用网民的智力来回答冗长和复杂的问题。然而,到目前为止,QA研究主要集中在文本上,现有的MMQA研究工作要么可以轻松处理狭窄领域的某些问题,要么只能支持与问题无关的单片媒体类型,如纯视频和纯图像。此外,现有的不应该深入了解用户的需求,这是处理广泛领域的复杂和一般性问题的关键。此外,答案介质确定、答案可用性预测和媒体答案选择都是以前没有使用过的。 |
研究方法 |
现有系统采用了一种新颖的方案,通过cQA中的文本答案来回答使用媒体数据的问题。对于给定的QA对,我们的方案首先预测哪种类型的媒体适合丰富原始文本答案。然后根据QA知识自动生成查询,并根据查询执行多媒体搜索。最后,根据用户的问题,答案应该以文本或文本和图像或文本和图像和视频的形式呈现。 |
在这个项目中,我们提出了一种新颖的方案,可以用适当的媒体数据丰富cQA中社区贡献的文本答案。 |
它包含三个主要部分: |
1.回答媒介选择 |
2.多媒体搜索查询生成。 |
3.多媒体数据的选择和呈现。 |
A.答题媒介选择: |
给出一个QA对,它预测文本答案是否应该丰富媒体信息,以及应该添加哪种媒体数据。具体来说,我们将其分为四类:文本、文本+视频、文本+图像和文本+图像+视频。这意味着该方案将自动收集图像、视频或图像与视频的结合,以丰富原有的文本答案。 |
B.多媒体搜索查询生成: |
为了收集多媒体数据,我们需要生成信息性查询。给定一个QA对,该组件分别从问题、答案和QA对中提取三个查询。信息量最大的查询将由三类分类模型选择。 |
C.多媒体数据选择与呈现: |
根据生成的查询,我们通过搜索引擎收集图像和视频数据。然后进行交互式重排序和重复删除,获得一组准确且具有代表性的图像或视频,以丰富文本答案。 |
方法和技术的设计 |
项目中使用的各种技术和算法 |
1.词干算法和停止字删除。 |
2.朴素贝叶斯 |
3.Bigram文本分类 |
4.POS直方图 |
A.词干算法: |
词干算法是一种语言规范化的过程,在这个过程中,一个单词的变体形式被简化为常见形式, |
例如, |
连接 |
连接 |
连接—>连接 |
连接 |
连接 |
重要的是,我们使用词干的目的是提高红外系统的性能。它不是词源学或语法的练习。事实上,从词源或语法的角度来看,词干提取算法容易犯很多错误。此外,词干算法(至少是这里介绍的算法)适用于语言的书面形式,而不是口语形式。 |
B.移除堵塞物: |
在建立IR系统时,传统的做法是在索引期间丢弃一种语言中最常见的单词——停止词。一种更现代的方法是索引所有内容,这极大地帮助搜索短语。然后,作为可选的检索样式,仍然可以从查询中消除Stopwords。在任何一种情况下,一种语言的停止词列表都是有用的。 |
通过按频率对某一语言的文本语料库中的词汇进行排序,并在列表中选择要丢弃的单词,可以获得一个停止词列表。 |
停止词列表以各种方式与词干算法联系在一起: |
词干算法本身可以用来检测和删除停止词。我们可以向irregular_forms表中添加如下内容: |
"", /*空字符串*/ |
“Am/is/are/be/being/been/”/* be */ |
"Have/has/having/had/" /* had */ |
"Do/does/doing/did/" /* did */ |
因此,单词' am', ' is'等映射到空字符串(或其他一些容易识别的值)。 |
C.朴素贝叶斯: |
朴素贝叶斯分类器是基于贝叶斯定理和预测器之间的独立假设。朴素贝叶斯模型易于构建,不需要复杂的迭代参数估计,这使得它特别适用于非常大的数据集。尽管朴素贝叶斯分类器很简单,但它通常表现得令人惊讶地好,并被广泛使用,因为它通常优于更复杂的分类方法。 |
贝叶斯定理提供了一种从P(c), P(x)和P(x/c)计算后验概率P(c/x)的方法。Naïve贝叶斯分类器假设预测器(X)的值对给定类©的影响独立于其他预测器的值。这个假设被称为类条件独立。 |
|
P (c|x) = P (x1| c) * P (x2* P (x / c)3.P / c) * (c) |
P (c|x)是一类给定预测器的后验概率 |
P(c)是类的先验概率 |
P (x|c)是概率它是给定类别的预测器的概率 |
P(x)是预测器的先验概率 |
D.使用E-VSM Bigram频率计数算法对Bigram文本进行分类: |
bigram是一串符号中两个相邻元素的每个序列,这些符号通常是字母、音节或作品;当n=2时,它们是n-g。字符串中双字母的频率分布在许多应用中通常用于文本的简单统计分析,包括计算语言学、密码学、语音识别等。跳过bigrams是允许有间隙的单词对(可能避免连接单词,或允许模拟依赖关系)。 |
E-VSM存储文档中每个单词重复出现的所有位置。位置向量的长度就是这个词出现的频率。利用这些位置向量可以找出文件中ngram的出现频率。Bigram是文本处理中最常用的n-gram。下面是计算由[7]引用的bigram频率的算法。 |
E. POS直方图: |
对于包含大量复杂动词的查询,检索有意义的多媒体结果是很困难的。我们使用POS标记器为问题和答案的每个单词分配词性。 |
实验设计 |
为了评价各种方法,进行了以下实验。 |
A.答案介质选择方法的评价 |
我们首先评估我们的答案媒介选择方法。它由两种技术组成:基于问题的分类,基于答案的分类。 |
1)基于问题的分类: |
这组25个不同的问题应根据不同类型的问题准备,如是/否型,选择型,数量型,枚举型,描述型。然后实验需要50人进行。根据各成员提供的结果,对结果进行了分析计算。最后用关键词找到用户问题的答案媒介。 |
下表描述了与类别相关的关键字。 |
2)基于答案的分类: |
基于答案的分类使用bigram特征和答案中的动词形式。动词与重词的结合使用效果更好。 |
B.查询生成方法的评估: |
接下来,我们评估查询生成和选择方法。这三个查询是由问题、答案和问题与答案的组合生成的。生成三个查询后,应该从中选择一个信息量最大的查询。这可以使用POS (Part Of Speech)技术来实现。 |
结果与讨论 |
下文讨论了关于这一问题的一些问题和得到的相应结果 |
1)需要文本作为输出的问题 |
2)需要图像输出的问题 |
对于什么是香蕉的问题,我们的方法显示图像作为结果。 |
2)需要Text+video的题目有输出 |
上面的问题是如何煮咖啡。我们的系统从问题中预测用户的期望,并提供结果的文本和视频给用户。 |
结论 |
在本文中,我们描述了一种用相应的媒体数据来丰富CQA中的文本答案的原理图方法。为此,我们的方案高级MMQA决定什么类别的结果应该呈现给用户,以使用户更容易理解。我们的方案是通过网络搜索适当的多媒体答案。使用E-VSM(增强向量空间方法)计算bigram频率计数的算法与现有系统中使用的一般方法相比,使基于答案的分类更加有效。该方法对复杂查询也有较好的处理效果。 |
表格一览 |
|
表1 |
|
|
数字一览 |
|
|
参考文献 |
- D. Mollá和J. L. Vicedo,“受限域的问题回答:概述”,Computat。语言学家。,vol. 13, no. 1, pp. 41–61, 2007.
- S. A. Quarteroni和S. Manandhar,“设计一个交互式开放域问答系统”,J. Natural Lang。Eng。,vol. 15, no. 1, pp. 73–95, 2008.
- 张建民,张建民,张建民。S. Ackerman,《知识共享和雅虎回答:每个人都知道一些东西》,载于Proc. Int。万维网会议,2008。
- T. Yeh, J. J. Lee, T. Darrell,“基于照片的问答”,载于《ACM期刊》。多媒体,2008。
- 李国光,李海辉,明志,洪荣仁,唐善生,唐志生。蔡,“社区贡献的网络视频问答”,IEEEMultimedia,第17卷,no. 2。4,页46-57,2010。
- 聂良,王明,查正,李国光,张志强。蔡,“多媒体答题:用媒体信息丰富文本问答”,载于《计算机科学》。SIGIR会议,2011。
- Ankit Bhakkad, s.c. Dharamadhikari, Parag Kulkarni。”利用E-VSM查找文本文档中Bigram频率的有效方法。国际计算机应用杂志第68卷第19期,2013年4月
- 查正军,王孟,郑彦涛,杨毅,洪日昌,蔡达生,“基于统计主动学习的交互式视频索引”,电子工程学报,第14卷,第1期。2012年2月1日
- Eugene Agichtein Steve Lawrence Luis Gravano,“学习搜索引擎特定查询转换的问题回答”,ACM
- R.Manju1,“基于抽取Web的超越文本QA多媒体多样性相关性排名的答案生成”,《国际计算机与通信工程创新研究》第2卷,特刊1,2014年3月
- Nandhini。N, Ramya。K, Sandeepa。P“基于搜索多样化的多媒体QA生成方法”,《国际计算机科学与移动计算》,2014年2月,第3卷第2期
|