所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

基于集群的多文档摘要

Khanapure V.M1教授,Chirchi种内观浪漫2
  1. PG学生,CNE称,工程学院,Ambajogai,印度马哈拉施特拉邦
  2. CNE系助理教授,工程学院,Ambajogai,印度马哈拉施特拉邦
相关文章Pubmed,谷歌学者

访问更多的相关文章国际先进研究期刊》的研究在电子、电子、仪表工程

文摘

总结可以松散定义为一个文本是由一个或多个文本,包含很大一部分原始文本中的信息(s),而不再是一半以上的原始文本。摘要的主要目的是在文档中提出的主要想法更少的空间。多文档摘要的过程生产单一的总结一组相关的源文件,是相对较新。处理多个输入文档以下是problems1。认识和应对冗余2。识别重要的差异文档和3。覆盖尽可能多的信息内容。在本文中,为了解决这些问题,我们建议multidoument总结基于集群使用字面意思语义分析(sls),混合模型和对称非负矩阵分解(SNMF)。



关键字

语义相似度,对称非负矩阵分解,多文档摘要。

介绍

多文档摘要的过程生成一个通用的或好帮手总结通过减少文件的大小,同时保留原始文档的主要特征。因为数据过载的问题之一是由于这样的事实,许多文件共享相同的或类似的话题,多文档摘要近年来吸引了大量关注。爆炸性增长的文件在互联网上,有各种各样的总结应用程序使用。例如,生成的信息片段在网络搜索可以帮助用户进一步的探索,并在出于一系统总结需要提供信息问的问题。另一个例子是总结新闻集团的新闻服务,提供用户更好地理解新闻文章。
处理多个输入文档以下是problems1。认识和应对冗余2。识别重要的差异文档和3。覆盖尽可能多的信息内容。在本文中,为了解决这些问题,我们提出了基于集群的多文档摘要使用字面意思语义分析(sls),混合模型和对称非负矩阵分解(SNMF)。
自sls可以更好地捕捉句子语义的方式之间的关系,我们用它来构造句子相似度矩阵。基于相似矩阵,我们执行提出了混合语言模型和SNMF算法集群的句子。最后,我们选择最有益的句子每个集群考虑内部和外部信息。

相关工作

最近多个文档汇总时被广泛研究。总结可以是泛型或查询具体。在通用的总结一代,从文档中提取出的重要句子和句子提取以适当的顺序排列。在查询具体总结一代,句子得分是基于用户的查询。得分最高的句子提取总结并呈现给用户。以下是两大层次分类的文本摘要技术。
萃取摘要和摘要式的总结。萃取摘要通常排名根据他们的分数计算文档中的句子通过一组预定义的特性,如词频率逆句子频率(TF-ISF)[20],句子或词位置[20],和关键字的数量。摘要式的总结包括信息融合,句子压缩和重构。在本文中,我们研究的填空题型可以萃取总结。龚et al。[22]提出一种方法利用潜在语义分析(LSA)为总结选择高排名的句子。提出了一个最大边际总结文档相关性(MMR)方法基于余弦相似度查询和句子和句子之间和先前选择的句子。MMR法倾向于消除冗余,这是由一个参数化的模型实际上可以自动学习。其他方法包括NMF-based主题特定的总结,CRF-based总结,基于隐马尔可夫模型(HMM)的方法。此外,一些基于graph-ranking方法也提出了[22]。大多数这些方法忽略依赖句子中的语法水平,只关注关键字同现。 Thus the hidden relationships between sentences need to be further discovered. The method proposed in group sentences based on the semantic role analysis, however the work does not make full use of clustering algorithms. In our work, we propose a new framework based on sentence-level semantic analysis (SLSS), mixture language model and symmetric non-negative matrix factorization (SNMF). SLSS can better capture the relationships between sentences in a semantic manner, mixture language model is used to measure the similarity between documents and SNMF can factorize the similarity matrix to obtain meaningful groups of sentences.

该方法

3.1概述:图1演示了我们建议的方法的框架。给定一组文件,需要总结,首先,我们清洁这些文件通过移除格式化字符。相似矩阵的构建阶段,我们的文档集分解成句子,然后每个句子解析成帧(s)解析器使用语义的作用。对明智的句子语义相似度计算基于语义角色分析[11]和词的关系发现使用WordNet [20]。3.2节将详细描述这一阶段。一旦我们有成对的句子相似度矩阵,我们执行对称矩阵分解这些句子组合成集群在第二阶段。提出的完整解释SNMF算法将在3.3节。最后,在每个集群中,我们确定最重要的句子语义使用测量结合内部信息(例如,句子之间的相似度计算)和外部信息(例如,给定主题的信息)。3.4节将详细讨论句子选择阶段。这些选中的句子最后形成摘要。
3.2语义相似度矩阵结构:移除阻止和停止词后,我们干的文件在同一主题的句子。简单的单词匹配类型的相似性,如余弦不能忠实地捕捉内容相似。相似的概念之间的稀疏不均的相似性度量。因此,我们对句子和执行语义角色分析提出一个方法来计算任何一对句子之间的语义相似性。
3.2.1文句上语义分析(sls):语义角色被定义为“关系的描述,对句子中的动词”。每个句子中动词与参数标签,标签的动词叫做“框架”。输入句子Si和Sj sls算法。标签分配给每个动词在句子中使用标签语义的作用。WordNet后分配标签计算常见的语义角色。然后找到角色相似性Tm (ri)和Tn (ri)
图像
然后,计算框架相似调频和fn之间
图像(2)
因此,如果之间的语义相似性和Sj可以计算如下:
图像(3)
在相似的分数在0和1之间。
混合语言模型和对称非负矩阵分解:一旦我们获得相似矩阵相关的情况下,聚类算法需要执行这些病例分组到集群
混合语言模型:混合语言模型[19]用于衡量文档之间相似性而过滤掉将军和公共信息的请求。混合模型的衡量标准是基于一本小说视图相关的文件是如何生成的。我们也可以把它看作一种语言模型的平滑算法专门为我们的任务。
图2显示了混合语言模型中输入句子相似度矩阵w。本文档是三种语言模型的混合:一般thetaE英语模式,一个特定于用户的请求模型thetaT和thetaD文档上下文模型。wi文档中的每个单词是由三种语言模型与概率lmdaE,分别lmdaT和lmdaD。然后计算概率和相关性分数混合语言模型是用来测量文档之间的相似度。通过使用混合模型,单词的效果在请求或一般英语中频繁出现的相似度计算是自然减少。
SNMF:我们提出一个新的基于字面意思多文档摘要框架语义分析(sls)和对称非负矩阵分解(SNMF)。sls能够捕获的句子之间的语义关系和SNMF提取可以把句子分成组。它已经表明,SNMF相当于内核的k - means聚类和是一个特例trifactor NMF。另一个重要属性是简单的SNMF相当于复杂的归一化光谱聚类。谱聚类是一种原则和有效的方法来解决规范化削减[38]。这些结果证明SNMF的聚类能力。
Within-Cluster句子选择:分组后的句子在集群SNMF算法,在每个集群中,我们排名基于句子的句子得分计算。的分数是多么重要的一个句子一个句子措施列入总结。
F1 (Si)措施之间的平均相似度得分句子如果集群中的所有其他句子Ck、Ck, N是句子。F2 (Si)代表了相似的句子如果给定主题t .λ是重量参数,将0.7经验。

模块:

1。预处理的客户请求和过去的情况下和字面意思语义相似度的计算。
2。一流的情况下使用混合模型和SNMF算法聚类。
3所示。Multidocument总结为每个集群。

实验结果

以提高系统的可用性,我们提出能语义分析方法和语句SNMF自然聚类算法可以应用于总结任务来解决上述问题。
4.1案例比较:在这组实验中,我们随机选择五个问题从不同的类别和手动为每个问题标签相关的案件。然后,我们检查通过关键字检索到的前10例紫花苜蓿和我们提出的系统,分别。图6和图7显示的平均精度两个方法。在图6中,高精度的multidocument总结表明,语义相似度计算可以更好地捕捉请求和用例文档的含义。在图7中,我们只看十大案例检索时的一些病例可能有20多个相关的情况下,回忆也是合理的和可接受的。
4.2结果分析:在本节中,我们比较建议request-focused case-ranking结果和Apache Lucene,这是一个最流行的关键字text-ranking引擎。
例二。我可以更新我的iPod音乐收藏来自多个电脑:的完整表示的抽象争论一个说明性的例子见表一、表3显示了一流的案例样本检索Lucene和Multidocument总结。排名结果,我们发现Lucene需要“iPod”这个词,“计算机”作为关键字,并返回相关的许多情况下,他们的搜索结果列表的格式如图8所示。显然他们不是客户想要的东西。
在我们建议的系统中,多文档摘要提供请求的语义。我们首先计算sentence-sentence使用语义精神分析和构造相似矩阵的相似之处。然后混合语言模型和对称矩阵分解组句成集群用于提取。最后,选择信息的句子从每组形成摘要。
上面的图表显示了我们提出的最高得分系统基于语义分析的句子水平。我现有的系统。e Lucene系统是基于关键字匹配等级方案为基础的情况下检索和结果将以列表格式。我们提出了系统搜索和现有的排名情况下根据他们的语义的方式与用户的请求即高分数提供了更好的结果。

结论

提高系统的可用性,我们执行multidocument总结为每种情况下集群生成一个简短的总结。本文搜索和现有的排名情况下根据他们的相关语义的方式和用户的请求我们提供一个更好的结果表示通过分组和总结过去的情况下使系统检索功能齐全的和可用的。multidoument总结基于集群的高性能使用字面意思语义分析(sls),混合模型和对称非负矩阵分解(SNMF)。

表乍一看

表的图标 表的图标 表的图标
表1 表2 表3

数据乍一看

图 图 图 图 图
图1 图2 图3 图4 图5
图 图 图 图 图
图6 图7 图8 图9 图10

引用