关键字 |
RD、均方根、字典、过滤 |
介绍 |
反向字典词典组织在一个非标准的订单,为用户提供信息,将很难获得从一个传统的字母顺序排列的字典。例如,西班牙语和沃克反向字典的押韵的字典是反向字典,该组织是基于排序每个条目词根据其最后一个字母,随后的字母进行这个词的开始。因此,在这些反向词典所有相同的单词,后缀出现在字典里。 |
这种反向字典有用的语言学家和诗人可能寻找与一个特定的后缀结尾的单词,或由一位人类学家或法医专家检查损坏的文本(如一块石头铭文,或烧文档),只有一个特定的词的最后部分保留。扭转这种类型的字典已经发表的大多数主要字母语言(见下面列出的众多例子)。对比,在标准字典单词组织这样单词前缀出现在相同的顺序,因为排序顺序从入口词的第一个字母开始,后续信件这个词的末尾。 |
在第二部分中,我们讨论了在短暂工作的发展。第三节论述了反向字典的概述。第四节中描述的问题是在简短的讨论。V节提出的方法。第六节项目在各领域的应用进行了讨论。 |
相关的工作 |
T。刀[5],描述了一种方法用于捕获相似单词之间是关心两个字符串的语法相似。今天他们回讨论另一种方法,更关心的是单词的意义。 |
f·塞巴斯蒂亚尼[7],描述研究社区主导这个问题的方法是基于机器学习技术:一般归纳过程自动构建一个分类器通过学习,从一组重新分类文件,分类的特点。 |
•克罗夫特(george w . bush)[6],描述了信息检索的研究人员研究了通过广泛检索,然而没有共识在社区内如何评估通过检索实验的结果。介绍五个字符级通过评估措施和他们的任务可能是合适的。下半年的纸比较几个段落检索模型,包括一个新的衍生混合模型优于强大基线的评估措施部分中讨论。 |
PRELIMNARIES |
在本节中,我们描述什么是反向词典和它是如何工作的。 |
反向字典词典组织在一个非标准的订单,为用户提供信息,将很难获得从一个传统的字母顺序排列的字典。例如,西班牙语和沃克反向字典的押韵的字典是反向字典,该组织是基于排序每个条目词根据其最后一个字母,随后的字母进行这个词的开始。因此,在这些反向词典所有相同的单词,后缀出现在字典里。这种反向字典有用的语言学家和诗人可能寻找与一个特定的后缀结尾的单词,或由一位人类学家或法医专家检查损坏的文本(如一块石头铭文,或烧文档),只有一个特定的词的最后部分保留。扭转这种类型的字典已经发表的大多数主要字母语言(见下面列出的众多例子)。对比,在标准字典单词组织这样单词前缀出现在相同的顺序,因为排序顺序从入口词的第一个字母开始,后续信件这个词的末尾。 |
扭转这种类型的字典是历史上难以产生之前,电子计算机的出现和第一个计算机排序以来变得更加普遍出现在1974年。术语“反向字典”的另一个用途是为一个参考的工作组织的概念,短语或单词的定义。这与一个标准的词典,单词的首字母索引,但相似函数来一本同义词典,可以查找一些常见的概念,一般的词,然后找到一个词语的词列表。(例如,在一个同义词典查找“医生”,可以看到这样的话作为治疗,内科医生,外科医生,医学博士、医疗的人,巫医,院士,教授,学者,鼠尾草、大师、专家)。理论上,一个反向字典可能比这更进一步,只允许你找一个词的定义(例如,找到“医生”这个词只知道他是一个“治愈疾病的人”)。这样的字典已经变得更加实用与计算机的出现informationstorage和检索系统。 |
报告工作创建一个在线反向字典(RD)。相对于普通(向前)字典词汇映射到它们的定义,RD执行相反的映射,即。,因为一个短语描述理想的概念,它提供了单词的定义匹配输入定义短语。例如,假设一个向前字典告诉用户,这个词的意思是“洞穴探险探索洞穴。“反向字典,另一方面,为用户提供了一个机会进入“查看自然洞穴”作为输入,并期望获得“洞穴探险”(也可能是同义句话说)作为输出。 |
问题描述 |
两种最常见的方法来实现潜在语义索引(LSI)和主成分分析(PCA),都在语料库分析文档的关键词识别文档中占主导地位的概念。在大多数的实现CSP(概念相似性问题)的解决方案,向量化是先天的,在运行时,只计算向量的距离。表示为向量的概念特性(或关键字)空间。 |
我们的实验结果表明,我们的方法可以提供性能上的显著改善规模不牺牲质量的结果。我们的实验比较,我们的方法的质量,目前可用的反向字典显示,我们的方法可以提供更高质量的其他现有的实现。 |
用户输入不太可能完全匹配的定义词的字典。响应效率需要类似的在线查找字典。向量化的概念关键词搜索是不适合在网络速度。 |
该方法 |
相似度是一个重要的和许多其他领域的基本概念。在现有相似措施在本质上是启发式的,绑定到一个特定的领域或知识表示形式。在这个项目中,它描述了一个反向映射技术相似性信息理论。的普遍性的定义证明了其应用在不同的领域,不同的相似性措施。然后我们提供同义词、反义词、下义词和上位词对每个输入短语是由用户提供。 |
RMS的映射、同义词、下义词,上义词,反义词是存储为整数映射,Wordnet字典中的每个单词是由一个唯一的整数。这凝结映射集的大小,并允许快速处理的相似性比较,比字符串处理。这项工作可以改善上面的简单方法的效率,减少用户组定义比较输入短语的定义出现在一个给定的单词。 |
我们创建一个可扩展的数据库驱动的逆字典。我们提出一套方法用于构建和查询反向字典。反向词典系统是基于这样一种观念,一个短语,在概念上描述了一个词应该像的实际定义这个词,如果没有匹配的最确切的词,那么至少在概念上类似。考虑,例如,以下概念的短语:“会谈很多,但没有太多的物质。“基于这样一个短语,反向字典应该返回单词如“加贝,”“健谈,”和“多嘴的。“这种方法包含两个连续的步骤。收到一个用户输入短语,我们首先找到候选词从一个字典数据源,这些候选词的定义有一些相似的用户输入。然后我们排名的候选词的匹配质量。 |
应用程序 |
有效地,RD地址”这个词在我的舌尖上,但我不太记得它”问题。一个特定类别的人被这个问题折磨严重作家,包括学生,专业作家、科学家、营销和广告专业人员,教师,不胜枚举。事实上,对于大多数人来说,某种程度的教育,问题往往不是缺乏知识,一个词的意思,但是,相反,无法回忆起适当的需求。RD地址这个普遍的问题。 |
结论 |
拟议的方法来创建一个反向词典使用词从一个现有的网络。这表明高精度反向字典可以创建不使用任何其他中级字典或语言。使用这个词网络层次结构增加了创建字典条目的数量。我们得出这样的结论:反向字典分析句子和短语识别。字典里有几个数量的反向映射集包含同义词,反义词,上义词和下义词。然后描述一组实验显示我们的结果的质量,以及运行时。它可以克服基于运行时加载的词法履带扩展这个工作。 |
爬虫是基本实体,使反向字典在万维网高效地工作。语义概念是隐含在搜索引擎搜索结果提供精确的和狭隘的互联网终端用户所需要的。搜索引擎的搜索机制可以增强通过语义词汇数据库,如WordNet ConceptNet,搜索结果将从词法和语义检索知识库(KB)通过应用词意义和元数据技术基于用户查询。统一资源定位器(URL)可以添加和更新的用户语义知识库。 |
数据乍一看 |
|
|
引用 |
- Anindya达塔,瑞安·肖,黛博拉•范德米尔和KaushikDutta(2013)构建一个可扩展的数据库驱动的逆字典卷。25岁,没有。3,pp.528 - 540
- 布莱D.M. A.Y. Ng, M.I.乔丹,“潜在狄利克雷分配,”j .机器学习研究,3卷,第1022 - 993页,2003年3月。
- j .他本人h . Dalianis m .激战,o . Knutsson”提高信息检索的精度为瑞典使用阻止,“TechnicalReport iplab - 194, TRITA-NA-P0116,交互和演示实验室技术和皇家机构的赵舒斯德哥尔摩大学,2001年8月。
- h·崔,r .太阳,k . Li M.-Y。菅直人,t·s·艾。蔡,“问答检索通过使用依赖关系,“Proc。28日安。Int 'lACM SIGIR相依在信息检索的研究与开发,400 - 407年,2005页。
- t . Dao和t·辛普森“测量句子之间的相似度,”http://opensvn.csie.org/WordNetDotNet/trunk/Projects/Thanh/Paper/WordNetDotNet_Semantic_Similarity.pdf去年访问(2009年10月16日),2009年。
- x刘和w·克罗夫特,”检索基于语言模型,通过“Proc。11日如相依信息和知识管理,375 - 382年,2002页。
- f·塞巴斯蒂亚尼”,在自动文本分类、机器学习”(2002)ACM计算调查,34卷,没有。1、1 - 4页
|