所有提交的EM系统将被重定向到网上投稿系统.作者被要求将文章直接提交给网上投稿系统各自的日志。

从波兰语文本中提取事实

Tomasz Boinski, Adam Brzeski
波兰格但斯克工业大学电子、电信和信息学学院
有关文章载于Pubmed谷歌学者

更多相关文章请访问国际计算机与通信工程创新研究杂志

摘要

波兰语在许多方面不同于英语。它有更复杂的共轭和赤纬。因此,从文本中自动提取事实是很困难的。在本文中,我们将介绍这些语言之间的基本区别。本文提出了一种从波兰维基百科文章中提取事实的算法。该算法基于在分析文本中搜索的7个提出的事实方案。分析包括形态句法标记、命名实体提取和关系识别。本文介绍了为示例性维基百科文本获得的结果。我们指出自由构词原则是波兰语篇分析的主要难点。同时,在所进行的实验中证实了标记和分析工具对波兰语的满意性能。

关键字

自然语言处理,文本分析,知识提取,非结构化信息,标记,命名实体识别

介绍

互联网包含了很多知识。据估计目前有超过33亿个网页[1]。这些页面中的大多数都是用自然语言形成的文档,因此从这些文档中提取信息(或事实)从互联网时代开始就符合研究人员的利益。
那么什么是信息提取呢?它是从非结构化和/或半结构化机器可读文档中自动提取结构化信息的过程。在大多数情况下,这项活动涉及通过自然语言处理(NLP)处理人类语言文本。
本文的目的是向波兰语文本的全自动事实抽取迈出一步。许多研究人员专注于最广泛使用的英语,因此有许多可用的工具。不幸的是,这些解决方案,即使是那些非常可行的解决方案,在与其他自然语言结合使用时也不能很好地执行。波兰语的性质决定了它很难应用与英语相同的规则。在本文中,我们将重点讨论在初步测试中出现的一些基本想法和问题。
本文的结构如下。在下一章中,我们将从文献中介绍相关的工作。然后介绍了波兰语和英语之间的差异。接下来,描述了所提出的提取事实的方法。最后,我们给出了得到的结果和结论。

相关工作

自动事实抽取问题在网页处理中扮演着越来越重要的角色。特别是当信息(甚至知识)包含在非结构化、自然语言格式的文本中时。
多年来,研究人员和企业试图用不同的方法解决这个问题。基本方法涉及到模式的创建。在大多数情况下,这些模式是在分析文本之前创建的,然后应用于搜索匹配的事实[2]。这种方法引入了在分析文本之前需要适当的复杂模式以及在提取过程中需要监督的需求。一些方法试图通过提供自动或半自动模式学习的方法来消除这个问题。最后,现代方法提供了基于本体的解决方案,消除了模式创建和识别的需要[4],[5],[6],[7]。

波兰语的问题

波兰语在许多方面不同于英语。最重要的区别是:
1.波兰语是无结构的。不幸的是,分析性语言(如英语或汉语)的主导地位使得研究主要集中在具有固定结构的语言上,而具有自由结构的语言则很少被探索。像ÅÂ: wigra[9]或TaKIPI[10]这样的工具在一定程度上解决了这个问题。
2.更复杂的规则共轭——波兰语有更多的共轭模板,而英语有更少的模板和更多的例外。此外,波兰语的屈折变化[11]使其更加复杂。
3.复杂的偏斜——现代英语,类似于词形变化,与古英语或波兰语相比,有非常简单的偏斜,但它有更多的例外。
4.将偏斜与自由语序结合起来,使得波兰语的句子比英语更模糊。
直到最近,波兰语也缺乏适当的工具来自动化一些常见任务,如标记、查找词的引理或命名实体查找。这种情况随着Morfeusz[9],[12]的发展而改变,它对波兰语句子进行形态分析。Morfeusz成为ÅÂ的基础的wigra, TaKIPI和最近Pantera[13]。所有这些工具都是波兰语的有效标记。另一个有用的应用程序是Spejd[14]、[15]、[16],这是一个用于部分解析和基于规则的形态句法消歧的工具。削弱[17]反过来允许提取命名实体。这些工具大多需要大量的语料库,特别是在命名实体提取或共参考分析过程中。这样一个通用的语料库是近年来开发的——波兰语国家语料库[18],[19]。所有这些工具都允许对波兰语文本进行复杂的分析,为分析和提取以自然语言表述的文档中包含的知识奠定了基础。

从维基百科中提取事实

在我们的研究中,我们专注于从维基百科文章中提取知识。维基百科文章的主体由任意选择的部分和文本块组成,格式相当松散。此外,每个页面的内容都是没有正式结构的自然语言文本。我们试图以<主语、谓语、宾语>三元组的形式提取事实。
测试是通过Multiservice网站[20]完成的。总的想法是使用Pantera标记文本,并使用Nerf提取命名实体。类型为[17]的动词(subst)和命名实体(ne): persName、placeName、orgName和geogName被映射到主题和对象,类型为date的命名实体被映射到对象。伪分词(praet)、分词(ppas)和介词(prep)总是被当作谓语。形容词(adj)被发现但被忽略。标签取自IPI PAN语料库标签语法[21]。
另外引入了两个关系:isA和of。isA关系引入了包容,可以将命名实体和动词作为主语,动词作为宾语。关系的存在是指主体与客体通过某种行为相联系,如老板是公司的负责人,但公司不归老板所有。这种关系可以以动词为主语,动词和命名实体为宾语。
在三元组中,动词和命名实体对主语和宾语的分配取决于它所使用的形态句法上下文。目前我们识别出以下方案(方括号(“[”和“]”)表示可选出现,管道(“|”)表示可选出现):
1.Ppas日期[准备日期]
2.ppas准备placeName
3.准备日期[Prep] (subst | [praet [subst [subst] [ne]]])
4.Prep subst ne subst
5.Subst prep ne Subst[形容词]
6.Subst Subst ([adj] | [prep Subst [ne]])
7.路径替换不
当找到与其中一种模式相匹配的短语时,这些单词就与主主语相连。不幸的是,目前用户必须选择一个动词或命名实体作为句子的主语。

结果

初步研究取得了一些令人满意的结果。大部分事实都被提取出来了。例如,波兰文“BronisÅ aw Maria Komorowski (urodzony 4 czerwca 1952 w Obornikach Å …skich) - polski polityk, z wyksztaÅ cenia historyk。Od 6西伯利亚2010年总统Rzeczypospolitej Polskiej。(" Bronislaw Maria Komorowski(生于1952年6月4日在Oborniki Å là …skie) -波兰政治家,受教育为历史学家。自2010年8月6日起,波兰共和国总统。”)[22]我们获得以下事实:
声明:BronisÅ aw Maria Komorowski(主体声明),
urodziA„一个‡w Oborniki…›lA„…滑雪(生于Oborniki…šlA„…skie),
BronisÅ aw Maria Komorowski urodzià 4 czerwiec 1952(生于1952年6月4日),
BronisÅ aw Maria Komorowski isA polityk (BronisÅ aw Maria Komorowski isA政治家),
BronisÅ aw Maria Komorowski isA historyka (BronisÅ aw Maria Komorowski isA受教育为历史学家),
BronisÅ aw Maria Komorowski isA总裁(BronisÅ aw Maria Komorowski isA总裁),
prezydent od 6 sierpieÅ 2010年(总裁自2010年8月6日起),'
rzeczpospolita polski总统(波兰共和国总统)。
可以看出,所有的事实都被正确地提取出来了。然而,仔细观察就会发现现有工具的一些缺点。在波兰语中,基本形式与衰落后的形式有很大不同。熟悉波兰语的读者可能会发现“Oborniki Å là …ski”或“rzeczpospolita polski”这样的实体可以理解,但相当奇怪。正确的格式分别是“Oborniki Å …skie”和“Rzeczpospolita Polska”。不幸的是,为了显示正确的形式,morphosyntax标记器需要一个包含所有命名实体及其基本形式的数据库,以正确地表达给定的命名实体。命名实体的另一个问题是缩写。通常RP代表Rzeczpospolita Polska。我们当前的解决方案将把这两个实体视为不同的实体。同样的问题也适用于普通动词。 The form of the education in the above example is incorrect. Instead of “historyka” it should be “historyk”. This in turn is caused by difficulty of guessing the correct form of the base lemma (like singular or plural form, the proper declination of the original etc.). We plan to address those problems using Słowosieć (Polish version of WordNet) [23], [24], [25].
如果命名实体由多个命名实体组成,则会出现进一步的问题。例如,persName至少由一个名和姓组成。在我们的研究中,我们决定把最复杂的形式作为一个实体来考虑。在进一步的研究中,我们计划根据每个命名实体的元素提取其附加信息。

结论

从自然语言文本中提取事实已经做了很多工作。最近,波兰出现了至少两个主要的研究中心,专注于波兰语自动化分析。越来越多的工具可供使用,导致对波兰语的全面分析。
最大的问题在于波兰语的复杂性。然而,利用适当的形态分析仪,可以解决共轭和偏斜的多样性和复杂性。另一个问题在于形成的自由。这使得可以应用于文本的模板的构造非常复杂。
随着辅助工具的不断发展和通过对英语语言的研究所获得的经验,我们的初步研究表明,从波兰语编制的文件中提取事实的可行解决方案应该很快就会出现。

参考文献

  1. M. de Kunder,“万维网大小”,http://www.worldwidewebsize.com/, 2014,[在线:18.07.2014]。
  2. R. Grishman,“信息提取:技术和挑战”,《新兴信息技术的信息提取多学科方法》。施普林格,第10-27页,1997。
  3. N. Chambers和D. Jurafsky,“没有模板的基于模板的信息提取”,在第49届计算语言学协会年会论文集:人类语言技术-第1卷。计算语言学协会,第976-986页,2011。
  4. B. Magnini, M. Negri, E. Pianta, L. Romano, M. Speranza, L. Serafini, C. Girardi, V. Bartalesi和R. Sprugnoli,“语义网的从文本到知识:文本项目”,SWAP,卷166,2005。
  5. 魏玛asuriya、D. Dou,“基于本体的信息抽取方法研究”,《信息科学学报》,2010。
  6. 樊,A. Kalyanpur, D. Gondek, D. A. Ferrucci,“从文档中自动提取知识”,IBM研究与发展杂志,第56卷,第1期。3.4,页5-1,2012。
  7. H. Alani, S. Kim, D. E. Millard, M. J. Weal, W. Hall, P. H. Lewis和N. R. Shadbolt,“从web文档中自动提取基于本体的知识”,智能系统,IEEE,第18卷,no. 1。1,页14-21,2003。
  8. P. Skórzewski,“Wydajne algytmy parsowania dla jË ezyków o szyku swobodnym”,博士学位论文,Uniwersytet im。Adama Mickiewicza w Poznaniu WydziaÅ matiatyki i Informatyki, 2014。
  9. M. WoliÅ ski,“Komputerowa weryfikacja gramatyki Ŕ,博士学位论文,Instytut Podstaw Informatyki PAN,华沙,2004。
  10. M. Piasecki,“波兰标记器TaKIPI:基于规则的构建和优化”,任务季刊,第11卷,no. 1。1-2页,151-167,2007。
  11. A. Przepiórkowski,“斯拉夫语信息提取和部分解析”,载于《巴尔图-斯拉夫语自然语言处理:信息提取和使能技术》研讨会论文集。计算语言学协会,pp. 1-10, 2007。
  12. M. WoliÅ ski,“morfeusz -一种用于波兰语形态分析的实用工具”,用于智能信息处理和web挖掘。施普林格,第511 - 520,2006。
  13. S. AcedaÅ ski,“一个词形变化语言的morphosyntactic brill tagger”,在自然语言处理方面取得了进展。《施普林格》,第3 - 14页,2010。
  14. A. Przepiórkowski和A. Buczynski,“浅解析和消歧引擎”,在第三届语言与技术会议论文集,第340-344页,2007。
  15. A. BuczyÅÂ,“产品评论情感分析中的浅解析”,在LREC部分解析研讨会论文集,第14-18页,2008。雷竞技苹果下载
  16. a.c rBuczyÅÂ、a.c rPrzepiórkowski,“Spejd:一种浅处理和形态消歧工具”,《人类语言技术,信息社会的挑战》,施普林格,pp. 131-141, 2009。
  17. A. Savary, J. Waszczuk和A. Przepiórkowski,“面向波兰语国家语料库中命名实体的注释”,LREC, 2010。
  18. A. Przepiórkowski, R. L. Górski, M. Lazinski和P. Pezik,“波兰语国家语料库的最新发展”,LREC, 2010。
  19. A. Przepiórkowski, R. L. Górski, B. Lewandowska-Tomaszyk和M. Lazinski,“迈向波兰语的国家语料库”,LREC, 2008。
  20. 潘一,“多服务演示”,http://glass.ipipan.waw.pl/multiservice/, 2014,[在线:2014年8月9日]。
  21. M. WoliÅ WoliÅ ski,“System znaczników morfosyntaktycznych w korpusie IPI PAN”,Polonica,第43卷,第39-55页,2003年。
  22. 维基百科,“BronisÅ aw komorowski”,http://pl.wikipedia.org/wiki/Bronis%C5%82aw_Komorowski, 2014,[在线:09.08.2014]。
  23. E. Rudnicka, M. Maziarz, M. Piasecki和S. Szpakowicz,“将plWordNet映射到普林斯顿WordNet”,2012。
  24. M. Maziarz, M. Piasecki和S. Szpakowicz,“接近plWordNet 2.0”,松江,日本,2012。
  25. M. Piasecki, S. Szpakowicz, B. Broda,“一个来自底层的文字网络”,WrocÅ aw: Oficyna Wydawnicza Politechniki WrocÅ awskiej, http://www.plwordnet.pwr.wroc.pl/main/content/files/publications/A_Wordnet_from_the_Ground_Up.pdf, 2009,[在线:09.08.2014]。
全球科技峰会