所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

有效的方法的专利搜索模式

Haritha.V1,一个博士。Senthil库马尔2和Dijith.M.S3
  1. P.G.学者,CSE、旅游房车工程与技术学院,印度哥印拜陀
  2. 教授,CSE、旅游房车工程与技术学院,印度哥印拜陀
  3. P.G.学者,CSE, R.V.S.工程与技术学院,印度哥印拜陀
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

作为一种重要的行动找到现有的相关专利和验证或无效的新专利申请,专利搜索来自工业和academiccommunities吸引了太多的关注。但是大多数用户有限的知识基础专利和他们必须重复问题不同的查询并检查答案,这是一个非常耗时和无聊的过程。为了克服这个问题,我们提出一个有效的用户友好的方法专利搜索模式,提高用户的搜索体验,帮助用户更容易地找到相关的专利。自动纠错,topicbased查询建议,和查询扩展,我们提出了三种有效的技术来提高可用性的专利搜索。我们也关注如何有效地找到相关专利大量的专利。首先,专利划分为小的分区根据主题和类。那么对于一个给定的查询,我们发现高度相关的分区和答案相关的查询在每个分区。最后,我们结合每个分区的答案并生成top-k专利检索查询的答案。因此,通过复杂的图形用户交互产生更多相关的答案。

关键字

专利搜索、纠错、查询建议,查询扩展

介绍

专利是一组一个主权国家颁发的专有权,发明人或者受让人在有限的一段时间换一项发明的详细公开披露。专利在知识产权保护中发挥非常重要的作用。专利搜索可以帮助专利审查员发现以前公布的新专利申请相关专利和验证或无效。已成为越来越受欢迎,最近获得了工业和学术社区的认可。例如,有很多在线系统,如谷歌专利搜索、德文特河创新指数(DII), USPTO支持专利搜索。因为大多数专利检索用户潜在的专利知识有限,他们不得不雇佣一个试试看方法反复发出查询并检查答案,这是一个非常单调的过程。帮助用户轻松地找到相关的专利,专利搜索的第一步是获取用户?搜索的目的。换句话说,这意味着为用户搜索关键词是最关键的搜索策略的一部分。选择正确的搜索关键字之后,接下来的一步是发现和排名相关的答案。
提供专利测试集合和大量的专利检索,讲习班和研讨会有兴趣重燃研发信息检索(IR)工具,搜索专利技术和理论。专利分析师执行一系列的困难和富有挑战性的任务和依赖复杂的搜索功能,搜索工具和专业的产品。这些搜索任务往往表现在严格的条件下,他们也需要不同的搜索策略来实现最终的目标。虽然已经有大量的研究专利搜索和相关任务和工具,小的工作已经完成调查专利搜索者的需求,和他们想要的东西。至关重要的是,用户咨询和他们的需求理解。
大多数现有的方法专注于设计一个复杂的模型等级排名专利和发现最相关的答案,他们没有足够的注意有效地捕获用户?搜索的目的,这至少是一样重要的排名专利。为了解决这个问题,本文提出一种新的用户友好的专利搜索模式,可以帮助用户更容易地找到相关的专利,提高用户的搜索体验。当用户?查询关键字可能输入错误,现有方法将返回没有答案,因为他们找不到专利匹配查询关键字。为了减轻这个问题,我们提出一种纠错技术建议类似条款的查询关键字和返回答案类似的条款。此外,帮助用户生产高质量查询,当用户输入关键字,我们建议局部相关的关键字查询关键词。通过这种方式,用户可以交互式地提供查询和修改他们的关键词,如果没有相关的答案,它可以为用户提供满意。用户可能无法准确地理解底层的专利,他们可能输入模糊关键字或不正确的关键字。另一方面,相同的概念或实体可能有不同的表示。 For example, “car” and “sedan” are relevant to “automobile.” Thus, if users type in a keyword “car,” we may need to expand the keyword to “automobile.” To this end, we propose a query expansion-based technique to recommend users pertinent keywords. Two methods are discussed here whichefficiently suggest pertinent keywords. To summarize, we use these three techniques to help users search patents more easily and improve the usability of patent search.

相关工作

郭先生与戈麦斯[10]提出的支持向量机专利排名模型来提高搜索质量。Larkey[5]研究了专利分类问题;然而,本文忽略了先前技术搜索(新颖的搜索)。雪和克罗夫特[8]研究了如何自动查询专利转化为一个搜索查询使用搜索查询,找到答案。他们专注于如何从专利中提取查询词,如何重量以及是否使用nounphrases。这里的问题是不同的,当我们专注于改善效率和质量来回答查询关键字。泽帕迪等。[4]调查了八十名专利分析师为了获得一个更好的图片的搜索习惯,类型的功能,偏好,给这个调查的一些结果。Magdy等。[8]讨论了现有技术专利搜索两种方法。第一个是一个简单的方法的需求资源缺乏,和第二个是一个复杂的方法,使用一个先进水平考试的内容。巴希尔和raub[6]评价现有技术的覆盖查询提取查询专利使用可回收性测量。 Different from prevailing studies, we propose an efficient user-friendly patent search paradigm.

概述

在本文中,我们提出一个简单的专利搜索techniquewhich mightfacilitate用户simplynotice相关专利,提高用户的搜索技术。图1说明了我们的专利检索的体系结构模式。
友好的用户界面组件用于捕获用户?搜索意图和细化查询关键字,找到相关的答案。它包括三个部分,错误的相关性,基于主题的查询建议,和查询扩展。同时,它组织答案基于他们的主题来帮助用户浏览答案。它还为用户提供了专利的片段的答案来帮助用户快速检查返回的答案是否相关。因此,用户可以交互式地发出查询,浏览结果,得到最终的答案,这可以帮助他们更容易地找到相关的答案。
提高效率,专利是基于他们的主题划分为不同的数据分区。索引组件建立反向索引上的每个分区。然后,专利分区选择组件选择最高„高度相关的数据分区为每个查询和路线查询等相关分区找到当地的答案。查询处理组件确定答案在当地分区。最终,聚合组件结合当地的查询结果和排名组件排名返回最后top-k答案的答案。

用户友好的专利搜索范例

有几个独特的挑战专利搜索,主要是因为理解用户的困难吗?年代查询意图和有效地匹配查询关键词的专利。在这里,我们给出了一些有效的技术来解决这些挑战。
1。专利分区
专利是划分为不同的数据分区基于以下原因。首先,专利有不同的类。其次,专利的数量通常是非常大的。此外,专利的数量正在迅速增加。第三,专利搜索查询,只有一些类/子类的专利可能相关的专利查询。基于这些,我们分区根据专利使用主题模型类和主题如下:我们首先提取每个专利的主题。然后,专利是分区具有相同主题到相同的数据分区,和每一个主题对应一个数据分区。同一个分区中的专利是高度相关的,不同的分区是不合适的。
2。有效的索引
对于每个分区,我们构造一个著名的反向索引结构。对于每个查询关键字,我们利用包含关键字的索引结构来定位专利。然后,我们相交专利对应不同的关键字来生成最相关的专利。在每个分区中,我们可以使用任何有效的排序功能分区的专利。专利在每个分区非常相关的,我们能做的更深层排名考虑之间的相关性不同的专利。webuilda triestructure攻击关键字在专利分区,协助查询的建议。路径上的每个节点有一个标签关键字的一个角色。对于每个和everyleaf节点,我们商店一个倒置的Idsof列表记录包含相应的关键字。
3所示。友好的用户界面
捕获用户?查询意图,我们引进一些有效的技术专利搜索用户友好和帮助用户轻松地找到相关的专利。
3.1自动纠错
作为查询用户输入的关键字可能输入错误,传统方法将返回没有答案,因为他们无法找到答案包含查询关键词。显然,这种方法不是用户友好。相反,最好是正确的打印错误,suggestusers类似的关键字,并返回答案相关的关键词。衡量关键词之间的相似性,现有方法通常支持编辑距离。两个关键词之间的编辑距离是最小数量的编辑操作(即。,insertion, deletion, and substitution) of single characters needed to convert the first one to the second. For example, the edit distance of “patent” and “paitant” is 2. Two keywords are said to be akin if their edit distance is within a given threshold. In this section, the method first uses the filter step to find a subset of keywords which may be potentially akin to the query keyword. Then, it uses a verification step to eliminate those false positives and get the final akin keywords.
3.2基于主题的查询建议
我们开发一个完全独特的模型有效地显示关键字作为用户?输入查询的信,信。该方法的基本概念是利用主题模型来估计未来的概率查询关键字。直观地说,如果一个关键词在专利更局部连贯与先前输入的查询关键字,它会得到更高的分数。具体来说,重点是评估两个重要概率:主题关键字的可能性条件,从专利的概率抽样的关键字。每个两个概率是用来评估每个关键字的分数。LDA模型可以用来学习关键字分布在每个主题从底层的专利。LDA可以表示为soft-clustering技术允许一个关键词出现在多个主题和考虑关键字的程度属于每一个主题。关键字分布一套专利是学会使用语言模型。语言模型方法捕获的财产专利和计算抽样准确的关键词的可能性。因此,结合两个概率和使用基于主题的方法来显示相关的关键词。
3.3查询扩展
可以使用WordNet扩展关键字。如果查询关键字索引WordNet,很容易得到相关的关键字查询的关键字使用倒置的列表结构。WordNet是人工生成的常见单词。如果没有查询关键词在WordNet,不可能建议相关的关键词。
为了解决这个问题,第一种方法是利用搜索引擎,因为大多数搜索引擎会推荐相关的关键词作为用户吗?输入查询。发给专利查询搜索引擎和获得相关的关键词的搜索引擎(如谷歌)。第二个方法是我从查询日志相关的关键字。使用点击率数据挖掘相关的查询如下:两个查询,如果用户点击返回相同的结果(专利),他们可能相关。这个属性是我利用相关查询。对于两个查询,使用用户点击的次数相同的专利来显示他们的相关性。如果一对关键词与他们同现大于给定的阈值,这两个关键字相关的扩展和使用它们来执行查询。
3.4专利排名和分区的选择
提高效率,查询不是发给每一个专利分区。相反,选择top-l相关专利分区和使用它们来回答查询。查询的相关性专利分区需要评估。有三个因素需要考虑对专利分区排名。首先是主题的相关性。即专利是否分区局部rpertinentt查询关键字。第二个是关键字的相关性。也就是说,专利分区是否包含查询关键词。tf-idf模型用于评估的相关性。三是现有技术的相关性。 That is, whether the patent partition is novel enough to the query.
这里的重点是有效改善结果质量的排名模型评估查询之间的相关性和专利。这个计算是重要的因素考虑:
1。专利p的重要性,由Wp。更重要的是专利,高概率相关的查询。专利专利可以设计为一个图,节点和边之间引用专利。因此,图可以用来计算一个专利的重量。
2。查询关键字的相关性专利p Q, R代表(p, Q)。著名的红外光谱方法(例如,tf-idf)用于计算相关性。
3所示。专利的主题相关性p查询,由T (p, Q)表示。以上基于主题的方法可以用来计算值。
4所示。专利Pp的先前技术的相关性
结合上述因素对专利p鉴于对一个查询,由S (p |),如下:
方程Eqn 5.1
上面的函数可以用来计算专利p和查询之间的相关性并返回top-k最相关专利。
给定一个查询,找到其top-k答案,首先选择高级- l相关专利分区,并发出查询等相关专利的分区。使用上面的排名函数计算分数不同的专利分区。为每个分区,有效发现top-k回答使用我们的索引结构和排序模型。然后,把答案从每个选定的分区和基于我们的排名模型生成最终top-k答案。这种方法可以删除许多专利无关的分区,可以显著提高效率。

结果与讨论

在目前的系统中,最小数量的查询花费更少的时间如Fig.5a所示。这是graphdrawn betweenNumber查询和查询处理的时间。如果查询的数量增加,时间也会增加性能。这是查询标题的时机选择的过程。我们给两个或三个查询意味着产生的时间是最小值,否则它需要大量的时间。,当前系统时间性能是基于查询。它可以提高用户的搜索体验。
系统的整体性能计算通过比较专利结果的时间,最高见Fig.5b k值。这是高级K之间的图形绘制结果值和花费的时间。如果许多顶尖的k值增加时,计时系统的性能也会增加。用户友好的专利搜索范式方法提高了性能。专利搜索范式方法提高搜索性能。性能图代表专利检索搜索结果的速度。

结论和未来的工作

新专利搜索范式三个有效的技术开发,纠错,基于主题的查询建议,和查询扩展,使专利搜索更加用户友好,提高用户的搜索体验。误差修正技术可以提供用户精确关键词并纠正打字错误。基于主题的查询建议可以推荐局部连贯的关键词作为用户输入查询关键字。查询扩展可以推荐同义词和相关的关键字的查询关键字与查询关键字相同的概念。而基于分区的方法实现提高搜索性能。实验结果表明,该方法达到高的效率和质量。未来的工作,更多的用户交互可以通过包括用户建议会话分析来推断用户搜索的目标。我们尽量减少所需的计算时间分区数据集。它将减少原始数据在简化数据集,找到相关的文件根据用户的建议。也降低了时间复杂度为显示top-k专利搜索查询的答案。

数据乍一看

图1 图2
图1 图2

引用











全球技术峰会