关键字 |
语义相似,对称非负矩阵分解,多文档摘要。 |
介绍 |
多文档摘要是通过减少文档的大小,同时保留原始文档的主要特征来生成通用的或以主题为中心的摘要的过程。由于许多文档共享相同或相似的主题会导致数据过载,因此多文档摘要近年来受到了广泛关注。随着Internet上文档的爆炸式增长,出现了各种各样的摘要应用。例如,在web搜索中生成的信息片段可以帮助用户进一步探索,在基于问题的系统中,需要摘要来提供问题中询问的信息。另一个例子是新闻服务中的新闻组摘要,它为用户提供了更好地理解该组中的新闻文章的方法。 |
对于处理多个输入文档,以下是问题1。认识和处理冗余识别文档和文档之间的重要区别。尽可能多地覆盖信息内容。为了解决这些问题,本文提出了基于句子级语义分析(SLSS)、混合模型和对称非负矩阵分解(SNMF)的聚类多文档摘要。 |
由于SLSS可以更好地以语义的方式捕获句子之间的关系,我们使用它来构建句子相似矩阵。在相似矩阵的基础上,采用混合语言模型和SNMF算法对句子进行聚类。最后,我们在考虑内部和外部信息的情况下,从每个聚类中选择信息量最大的句子。 |
相关工作 |
近年来,对多文献摘要进行了广泛的研究。摘要可以是通用的,也可以是特定于查询的。在一般的摘要生成中,从文档中提取重要的句子,并将提取的句子按适当的顺序排列。在特定于查询的摘要生成中,根据用户给出的查询对句子进行评分。得分最高的句子被提取出来并作为摘要呈现给用户。以下是文本摘要技术的两大类分类。 |
抽取性总结和抽象性总结。抽取摘要通常根据一组预定义的特征(如词频反句频(TF-ISF)[20]、句子或术语位置[20]、关键词数量等)计算出的分数对文档中的句子进行排序。摘要抽象包括信息融合、句子压缩和句子重构。本文主要研究基于句子的抽取摘要。Gong等人提出了一种使用潜在语义分析(LSA)选择高排名句子进行摘要的方法。提出了一种基于查询与句子之间以及句子与之前选择的句子之间余弦相似度的最大边际相关(MMR)方法来总结文档。MMR方法倾向于去除冗余,这是由一个可以自动学习的参数化模型控制的。其他方法包括基于nmf的主题特定摘要、基于crf的摘要和基于隐马尔可夫模型(HMM)的方法。此外,还提出了一些基于图排序的方法。这些方法大多忽略了句子层面的依赖句法,只关注关键字共现。 Thus the hidden relationships between sentences need to be further discovered. The method proposed in group sentences based on the semantic role analysis, however the work does not make full use of clustering algorithms. In our work, we propose a new framework based on sentence-level semantic analysis (SLSS), mixture language model and symmetric non-negative matrix factorization (SNMF). SLSS can better capture the relationships between sentences in a semantic manner, mixture language model is used to measure the similarity between documents and SNMF can factorize the similarity matrix to obtain meaningful groups of sentences. |
该方法 |
3.1概述:图1展示了我们提出的方法的框架。给定一组需要汇总的文档,首先,我们通过删除格式化字符来清理这些文档。在相似矩阵构建阶段,我们将文档集分解为句子,然后使用语义角色解析器将每个句子解析为多个框架。基于语义角色分析[11]和使用WordNet的词关系发现[20]计算对句语义相似度。第3.2节将详细描述这一阶段。一旦我们有了成对的句子相似矩阵,我们在第二阶段执行对称矩阵分解将这些句子分组成簇。关于提议的SNMF算法的完整解释将在第3.3节中介绍。最后,在每个聚类中,我们使用结合内部信息(例如,计算出的句子之间的相似性)和外部信息(例如,给定的主题信息)的度量来识别语义上最重要的句子。第3.4节将详细讨论选句阶段。这些精选的句子最后形成了摘要。 |
3.2语义相似矩阵构建:在去除词干和停止词后,我们将同一主题的文档放入句子中。简单的词匹配类型的相似度如余弦不能忠实地捕捉内容的相似度。相似概念之间的稀疏性使得相似度度量不均匀。因此,我们对句子进行语义角色分析,并提出了一种计算任意一对句子之间语义相似度的方法。 |
3.2.1句子级语义分析(SLSS):语义角色被定义为“对句子中动词的关系的描述”。句子中的每个动词都标有“论点”,有“论点”的动词称为“框架”。SLSS算法的输入是句子Si和Sj。使用语义角色标签器为句子中的每个动词分配标签。分配标签后,计算常见的语义角色WordNet。然后求出Tm(ri)与Tn(ri)之间的角色相似度为 |
|
然后,计算fm和fn之间的帧相似度为 |
(2) |
因此,Si和Sj之间的语义相似度可以计算如下: |
(3) |
其中相似度得分在0到1之间。 |
混合语言模型与对称非负矩阵分解一旦我们获得了相关案例的相似度矩阵,就需要执行聚类算法将这些案例分组到聚类中 |
混合语言模型:混合语言模型[19]用于度量文档之间的相似性,同时从请求中过滤出通用和公共信息。混合模型度量基于如何生成相关文档的新视图。我们也可以把它看作是一个语言模型,带有专门为我们的任务设计的平滑算法。 |
图2显示了混合语言模型,其中输入是句子相似度矩阵w。该文档是三种语言模型的混合:通用英语语言模型thetaE,特定于用户的请求模型thetaT和文档上下文模型thetaD。文档中的每个单词wi分别由三种语言模型生成,其概率分别为lmdaE、lmdaT和lmdaD。然后计算概率和相关分数,使用混合语言模型度量文档之间的相似度。通过使用混合模型,自然降低了请求中或一般英语中出现频率较高的单词对相似度计算的影响。 |
SNMF:提出了一种基于句子级语义分析和对称非负矩阵分解的多文档摘要框架。SLSS能够捕获句子之间的语义关系,SNMF可以将句子分成组进行提取。证明了SNMF等价于核k -均值聚类,是三因子NMF的一种特殊情况。另一个重要的性质是简单的SNMF等价于复杂的归一化切谱聚类。谱聚类是求解归一化切量[38]的一种有原则且有效的方法。这些结果证明了SNMF的聚类能力。 |
聚类内句子选择:通过SNMF算法将句子分组后,在每个聚类中,我们根据句子得分计算对句子进行排序。一个句子的得分衡量了这个句子在摘要中的重要性。 |
其中F1(Si)表示句子Si与聚类Ck中所有其他句子之间的平均相似度得分,N表示Ck中句子的个数。F2(Si)表示句子Si与给定主题t之间的相似度。λ为权重参数,经验设置为0.7。 |
模块: |
1.客户请求和过去案例的预处理和句子级语义相似度计算。 |
2.基于混合模型和SNMF算法的顶级案例聚类。 |
3.每个案例集群的多文档摘要。 |
实验结果 |
为了提高系统的可用性,我们提出了句子级语义分析方法,并将SNMF聚类算法自然地应用于摘要任务来解决上述问题。 |
4.1病例对比:在这组实验中,我们从不同的类别中随机选择5个问题,并为每个问题手工标记相关的案例。然后,我们分别通过基于关键字的Lucerne和我们提出的系统检查前10个检索案例。图6和7显示了两种方法的平均精度。在图6中,多文档摘要的高精度表明,语义相似度计算可以更好地捕获请求和案例文档的含义。在图7中,我们只查看前10个检索到的案例,而有些案例可能有超过20个相关案例,召回也是合理和可接受的。 |
4.2结果分析:在本节中,我们将比较我们提出的以请求为中心的案例排名结果和Apache Lucene,后者是最流行的基于关键字的文本排名引擎之一。 |
例二。我可以从多台计算机上更新我的iPod音乐收藏吗?表1显示了一个说明性示例的抽象参数的完整表示。表3显示了Lucene和Multidocument summary检索到的顶级案例样本。对于排序结果,我们发现Lucene以单词“iPod”、“Computer”作为关键字,并以列表格式返回许多与之相关的案例作为搜索结果,如图8所示。很明显,它们不是顾客想要的。 |
在我们提出的系统中,多文档摘要提供了请求的语义含义。我们首先利用语义精神分析计算句子之间的相似度,并构造相似度矩阵。然后利用混合语言模型和对称矩阵分解对句子进行聚类提取。最后,从每一组中选取信息句组成摘要。 |
上图显示了我们提出的基于句子级语义分析的系统的最高分数。现有的系统,即Lucene系统,是基于基于关键字匹配的排序方案的案例检索和结果将在一个列表格式。我们提出的系统以语义的方式根据与用户请求的相关性对现有案例进行搜索和排名,即最高分数越高,结果越好。 |
结论 |
为了提高系统的可用性,我们执行多文档摘要,为每个案例集群生成简要摘要。本文采用语义化的方法,根据用户请求的相关性对现有案例进行搜索和排序,并通过对检索到的过去案例进行分组和汇总,提供更好的结果表示,使系统功能完备,可用性强。采用句子级语义分析(SLSS)、混合模型和对称非负矩阵分解(SNMF)实现基于聚类的高效多文档摘要。 |
表格一览 |
|
数字一览 |
|
|
|
|
|
图1 |
图2 |
图3 |
图4 |
图5 |
|
|
|
|
|
图6 |
图7 |
图8 |
图9 |
图10 |
|
参考文献 |
- 顾客服务:优质顾客服务的重要性。(在线)。可用:http://www.ustomerservicetrainingcenter.com
- S. Agrawal, S. Chaudhuri, G. Das和A. Gionis,“数据库查询结果的自动排序”,载于Proc。CIDR, 2003,第888-899页。
- 李涛,王德明,“基于语义分析和对称矩阵分解的多文档摘要”,中文论文市立Proc。, 2008,第307-314页。
- K. Beyer, J. Goldstein, R. Ramakrishnan,和U. Shaft,“何时最近邻是有意义的?”“在Proc。ICDT, 1999,第217-235页。
- D. Radev, E. Hovy和K. McKeown,“总结专题导论”,第一版。语言学家。,第28卷,第28期。4,第399-408页,2002年12月。
- D. W. Aha, D. Mcsherry和Q. Yang,“会话案例推理的进展”,"。Eng。牧师。,第20卷,no。3,第247-254页,2005年9月。
- R. Agrawal, R. Rantzau和E. Terzi,“上下文敏感排序”,inProc。SIGMOD, 2006,第383-394页。
- A. Leuski和J. Allan,“结合排名表和聚类改进交互式检索”,载于Proc。RIAO, 2000,第665-681页。
- 刘晓霞,龚宇,徐伟,朱思,“基于聚类优化和模型选择能力的文档聚类”,第2期市立Proc。, 2002,第191-198页。
- R. Collobert和J.Weston,“使用新型神经网络架构的快速语义提取”,载于Proc ACL。, 2007,第560-567页。
- M. Palmer, P. Kingsbury和D. Gildea,“命题库:语义角色的注释语料库”,第一版。语言学家。,第31卷,第31期。1,第71 - 106页,2005年3月。
- C.费尔鲍姆,”电子词汇数据库,马萨诸塞州剑桥:麻省理工学院出版社,1998年。
- 刘晓霞,龚宇,徐伟,朱世生,“基于聚类优化和模型选择能力的文档聚类”,中国信息工程学报,2002,pp. 191-198。
- D. Radev, E. Hovy和K. McKeown,“概述专题导论”,computer。语言学家。,vol. 28, no. 4, pp. 399–408, Dec. 2002.
- Shi和J. Malik,“归一化切割和图像分割”,IEEE翻译。模式肛门。马赫。智能。,vol. 22, no. 8, Aug. 2000.
- D.W.Aha, D. Mcsherry和Q. Yang,“会话案例推理的进展”,Knowl。Eng。2005年9月。
- D. Bridge, M. H. Goker, L. Mcginty和B. Smyth,“基于案例的推荐系统”,"。Eng。牧师。,第20卷,no。3,第315-320页,9月。2005
- 王顶顶,李涛,朱生火,龚义宏,“iHelp:一种智能在线帮助台系统”,2011
- 张勇,J. Callan和T. Minka,“自适应滤波中的新颖性和冗余检测”,载于市立Proc。, 2002,第81-88页。
- 龚宇,刘晓霞。“使用关联度量和潜在语义分析的通用文本摘要”,SIGIR 2001。
- R. Mihalcea和P. Tarau,“用于单个和多个文档摘要的独立于语言的算法”,IJCNLP 2005。
|