关键字 |
信息检索、本体、语义网络。 |
介绍 |
信息检索是实现资源与信息相关的过程需要从信息资源的集合。搜索是基于元数据和全文索引。一个信息检索过程开始时userenters查询到系统中。虽然搜索引擎技术的发展在过去十年中,目前信息检索(IR)系统是建立在主要关键词。匹配关键字红外使用词形式。这个模型有很多问题,因此大部分时间不满足用户的需求。解决这个问题的关键在于从关键字匹配语义匹配,理解为意义而不是字符串搜索。(M费尔南德斯,2011) |
检索信息的高效、准确地变得越来越重要。领域本体(或特定领域的本体)characterisesconcepts是世界的一部分。目前,领域本体作为骨干提供词汇和语义Web的正式的概念化给定域的促进信息共享和交换(古伯,1993)。在这项研究中,本体是用来实现语义扩展和为用户提供更好的信息服务,提高客户的需求。 |
本文的IR模型提出了基于领域本体的驯化的植物。实验数据表明,基于本体的IR模型的精度比高于普通关键字在一定程度上基于web信息检索模型。论文的结构如下。首先,简要施工过程和移植驯化植物本体。其次,详细讨论了红外模型,其中包括关键模块和关键功能。接下来,提到的测试和评估模型,最后给出结论。 |
建筑本体的 |
领域本体的施工方法 |
本体被定义为一个正式的、共享的概念化的明确的规范。古伯(1993),它提供了一个公共的词汇表来表示的类型、属性和关系的概念域。本体可以采用多种形式,但一定会包括词汇的术语,和一些规范的意义。这包括定义和概念是如何相关的集体施加一个结构域和约束条件的可能的解释。(本体是什么?,2014)Classes are the focus of most ontologies. Classes define concepts in the domain.(McGuinness, 2000)The following steps are needed for building domesticated plants ontology. |
确定的范围和领域本体的目的 |
这个阶段澄清的目的,范围,领域本体构建的函数。在施工之前,领域本体的目的应该是很清楚的。驯化植物本体提供了特定的语义有助于提高信息检索的效率的网页信息。因此概念的语义关系应提供尽可能多的提高基于本体的信息服务。 |
域信息收集和分析 |
这个阶段是构建驯化植物本体的先决条件。只有当领域知识和理解的信息完全收集,它是能够建立一个可用的和正确的本体和足够的信息。驯化的来源信息本体来自维基百科,书籍对驯化的植物、领域专家和其他relevantontologies已经存在。 |
定义类和类的层次结构 |
目前有三个类的设计方法。自顶向下的开发过程,从最一般的分类概念域和顺向专业化的概念,一个自底向上的开发过程从最具体的类的分类开始,这些类和分组成更一般的概念,结合自顶向下和自底向上的开发过程是一个混合的方法。(麦吉尼斯,2000),自顶向下的方法应用于构造驯化植物本体。 |
定义类的属性 |
类本身不能提供足够的信息来回答能力问题。一旦我们已经定义的类,我们必须描述的内部结构的概念。(麦吉尼斯,2000)。最初,重要的是要得到一个全面的列表项之间所代表的概念,术语之间的关系,或任何性质的概念。这些术语包含对象属性和数据类型的属性。所有的子类继承类的属性。 |
创建实例 |
最后一步是创建单个实例的类层次结构。定义一个类的单个实例需要1)选择一个类,2)创建这个类的单个实例,和3)填写槽值。(麦吉尼斯,2000) |
驯化植物本体的构建 |
驯化植物领域本体描述的概念和关系的概念驯化的植物。在这个模型中,使用OWL DL本体来描述概念,实现领域本体和门徒5.0 Beta的工具。植物本体有很多类别组成,例如,商品,烹饪植物,观赏植物,等等,每一层由许多概念集(类、类的关系和属性)。模型确定的类别,然后定义了类,属性和关系对应类别。最后的类将充满实例。领域本体定义类并将相应的类信息。驯化植物本体描述每个类的属性、关系和扩张的关系。 |
|
建设基于领域本体的信息检索模型 |
传统网络由操作员等任务,并使用计算机系统发现,搜索和聚合而语义Web是一个理解电脑,搜索,收集信息,结合人类操作员。它很容易适合加工的机器,在全球范围内。它是代表数据的有效方法在万维网上。语义检索系统构建领域本体的基础上,旨在实现更高的效率比关键字的搜索引擎。该模型利用领域本体实现语义注释的驯化植物网站,并构造驯化植物本体的语义信息检索系统。 |
支持任何信息检索系统检索过程包括三个基本流程,如下: |
我)的代表性的内容文档, |
(二)表示用户的信息需求,和 |
3)的比较两个表示。 |
图1中的过程可视化。 |
|
信息检索可用于开发、实施和评价的一个搜索引擎。代表文件通常被称为索引过程。代表一个用户的信息需要的过程通常被称为查询公式的过程。结果表示查询。比较查询文档的表示称为匹配过程。检索策略指的是信息检索模型。检索策略分配一个衡量查询和文档之间的相似度。任何信息检索系统是基于信息检索过程。 |
查询和查询扩展 |
查询由一个用户的信息需要。在最简单的形式中,由关键字查询和文档包含这些关键词搜索。查询可以简单的一个词或一个更复杂的组合操作涉及几个单词。最基本的查询,可以制定在文本检索系统是一个词。单词查询的结果集包含至少一个单词的文档的查询。 |
制定用户查询一个简单的方法是使用关键字的自然语言来匹配用户的信息需求。在信息检索中,用户输入的查询通常不够详细,允许完全满意的结果返回。查询扩展可以解决这个问题。 |
查询扩展通常旨在制定一个用户查询到信息检索响应更快。调查结果表明,尽管早些时候查询详细的查询检索的改进有限扩张,它展示了潜力巨大明显改善的结果给短查询。从那时起已经有很多工作人员在进行查询扩展的红外社区。文献提出了许多查询扩展的方法,每个人都有自己的优点和局限性。 |
解析查询的用户识别单词的词类中包含查询。然后相关的同义词集检索查询中包含的关键字。域语义相关的关键字查询从本体中提取。这一步的检索结果更多数量的语义相关的词。这些领域关键词然后用于提炼查询的形成。这些精致的查询与扩展关键字查询,有更多的语义相关性。(Swathi Rajasurya, 2012) |
原型系统的实现和测试数据的分析 |
本体建设 |
本体,这是一个正式的表示知识,是一组概念域中形成了我们的项目的知识基础,构造基于驯化植物相关域的概念。通过各种植物通过引用网站的信息收集,在此基础上,构建考虑本体,驯化plantsdomain下各个重要领域。 |
工具:门生5.0 Beta |
用户输入 |
系统的用户输入一个查询相关驯化植物在自然语言领域。这个查询的预期的输出是语义相关的网页链接。无关紧要的链接被过滤掉。 |
解析输入查询 |
输入查询的用户最初通过解析器进行解析。解析了分析查询语法决定每一个词的词性的查询。用这种方法分析了给定查询语法。 |
工具:斯坦福解析器 |
WORDNET |
从解析器中获得的输出被发送到wordnet得到相关的同义词集各种单词包含在查询。这里语义相关的词从wordnet的输出。 |
工具:Wordnet API |
从本体中提取 |
这个过程是更重要的,与给定的用户查询相关的信息提取本体构建的。最初给定的查询通过斯坦福解析器和wordnet,一组分类和语义分析的话。我与概念本体中包含一组相关的关键字。在这个过程我们得到一组语义相关的词和领域特定的关键字。 |
工具:使用Jena API |
形成精确查询 |
下一个过程的查询创建使用这些词的集合。形成的查询将会更加精炼和获取更多的语义相关的网页链接,当我们将这些查询作为输入传递给搜索引擎。精确查询发送在网路上搜索API获取用户查询相关的链接。 |
工具:谷歌搜索API |
结果与讨论 |
我们的实验揭示了细化查询给更多的语义相关的网页链接和明显比直接给予谷歌搜索查询来表现良好。我们所做的这些实验在2014年8月和9月。第一个100链接手动检查的相关性。处理的示例查询下表中给出。 |
|
|
独立样本t检验执行使用SPSS和假说可以设置如下:H0——有谷歌搜索和本体搜索之间没有显著差异。H1 -谷歌搜索和本体之间有显著差异。四组=算法(“谷歌”的“本体”)/失踪= = =精度/分析/变量标准CI (.95)。 |
表1 |
|
|
自列文的测试意义值= 0.525 > 0.05两组有相同的方差。相应的p值为0.012 < 0.05。所以,我们拒绝零假设。 |
它已经得出结论,“谷歌搜索和本体之间有显著差异。“从表1,可以看出对精度意味着使用本体0.886 > 0.8567对精度意味着用于谷歌。它是统计证实,使用提出的查询优化精度提高。 |
结论 |
在本文中,我们提出了执行的一些实验结果,以评估基于本体的检索效率。毫无疑问,我们的本体的使用增加了搜索结果的准确性。但精度很大程度取决于本体是用于查询优化过程。虽然很多研究是制定一个统一的全球本体,它还没有成为现实。 |
引用 |
- 应用本体——Clinfowiki。(2014年9月)。从应用本体检索——Clinfowiki: http://www.informaticsreview.com/wiki/index.php/Applied_ontology
- 敬畏西迪基,p . a (2013)。本体论方法提高语义WEB搜索结果。IJRET:国际期刊》的研究在工程和技术、30-33。从http://www.slideshare.net/ijreteditor/ontologicalapproach-for-improving-semantic-web-search-results获取
- 古伯,t (1993)。便携式本体论规范翻译方法。知识获取,199 - 220。
- 信息检索-维基百科,自由的百科全书。(2014年9月)。检索从维基百科,自由的百科全书:http://en.wikipedia.org/wiki/Information_retrieval
- M费尔南德斯,i c (2011)。语义增强信息retieval:基于本体的方法。Web语义:科学、服务和代理在万维网上,432 - 452。
- 麦吉尼斯:f (2000)。什么是本体,为什么我们需要它。从http://protege.stanford.edu/获取:http://protege.stanford.edu/publications/ontology_development/ontology101-noy-mcguinness.html
- 明,t . T.-y。(2012)。蔬菜电子商务的基于本体的信息检索模型。迭代农业学报,800 - 807。
- 本体(信息科学)-维基百科,自由的百科全书。(2014年8月)。检索从维基百科,自由的百科全书:http://en.wikipedia.org/wiki/Ontology_ (information_science)
- 社会研究术语表。(2007)。从质量研究国际检索:http://www.qualityresearchinternational.com/socialresearch/ontology.htm
- Swathi Rajasurya, t m (2012)。使用在大学领域本体的语义信息检索。
- 本体是什么?(2014年9月24日)。检索从学校的计算机科学,曼彻斯特大学的:http://www.cs.man.ac.uk/ ~ stevensr /上/ node3.html
|