所有提交的EM系统将被重定向到网上投稿系统.作者被要求将文章直接提交给网上投稿系统各自的日志。

基于模糊头搜索的XML数据搜索性能演化

Laxman Dethe1, R. M. Goudar教授2, Sunita Barve教授3.
  1. 印度浦那,麻省理工学院工程学院CE系硕士生
  2. 印度浦那,麻省理工学院工程院CE系副教授
  3. 印度浦那,麻省理工学院工程院CE系助理教授
有关文章载于Pubmed谷歌学者

更多相关文章请访问国际计算机与通信工程创新研究杂志

摘要

在当今基于关键字的Xml数据搜索系统中,用户编写查询,提交给系统并获得最佳结果。如果用户在编写查询时对数据缺乏了解,并且必须使用try and find方法来查找相关信息。本文介绍了XML数据的模糊预输入搜索,它是一种新的数据访问范式,系统根据用户输入的查询关键字动态搜索XML数据,以访问相关文档。XML模型捕获更多语义信息,并导航到文档中并显示更准确的信息。基于关键字的搜索是在XML数据中进行搜索的另一种方法,它使用简单,用户不需要了解XML数据和查询语言。我们的调查论文主要关注基于关键字搜索来检索前k的答案的技术。另一种方法是采用top-k算法实现高结果质量和搜索效率的交互式排序方法,采用易于识别top-k结果的算法终止技术和有效的索引结构。

关键字

关键词搜索系统,查询,模糊搜索,索引结构,预输入搜索,Top-k算法,XML数据

介绍

传统的方法需要使用查询语言XPath和XQuery从XML数据中检索相关答案。这些方法很好,但对于非专业用户来说非常困难。这些查询语言对于非数据库用户来说很难理解。, XQuery理解起来比较复杂。其次,这些语言需要在底层(有时是复杂的)数据库模式旁边设置查询。
为了克服这一限制,关键字搜索被衍生出来作为另一种查询XML数据的方法,这种方法很简单,而且现在大多数互联网用户都可以识别,因为它只需要输入关键字就可以查询XML数据。最近,关键字搜索是用于查询文档系统和万维网[24],[23]的搜索原型。它在数据中寻找答案。它是在互联网上进行信息检索最必要的范式。关键字搜索的优点之一是简单,用户不需要学习复杂的查询语言,可以在不了解xml数据结构的情况下进行查询。关键字搜索非常必要的要求是对查询结果进行排序,以便检索到最相关的结果。关键字检索方法为internet上xml数据的检索提供了简单、友好的查询界面。Xml是为了以结构化的方式传输和存储数据而开发的。它不做任何事情,创建它是为了构造、存储和传输信息。xml文档包含带有一些标记的文本,这些标记是用打开和关闭标记xml模型按层次结构组织的。
为了减少html搜索引擎示例谷歌的限制,它返回整个文本文档,但xml捕获额外的语义,例如在全文文章中,引用和子部分显式地使用xml标记捕获。对于查询xml数据,关键字搜索是有效的,提出了可供选择的方法。在今天的xml数据查询方法中,它需要非数据库用户很难理解的查询语言。只有专业人士和专业用户才能理解。最近数据库社区一直在研究在xml数据[1],[17],[19]中对xml文档进行关键字搜索的相关挑战。因此,目前的XML数据搜索方法对用户来说并不友好。
为了解决上述问题,许多系统都引入了各种特性。方法为“自动完成”。这是在预测用户输入的单词。越来越多的网站支持这些优势,比如谷歌,雅虎等。这种方法最大的限制之一是将多个关键词视为单个关键词,不允许它们在搜索时出现在其他地方。为了解决这一问题,本文提出了在文本文档中进行完整搜索的新方法,该方法允许多个关键字出现在不同的位置,但不能容忍查询中的小错误。模糊类型提前搜索,允许查询[1],[26]中的小错误。输入前搜索是一种用户界面交互方法,通过文本数据逐步搜索过滤器。当用户输入文本时,会找到一个或可能的文本匹配项,并立即显示给用户。xml数据中的模糊类型正向搜索返回近似结果。 The best similar prefixes are matched and returned. This purpose edit distance method is used. Edit distance method is defined as number of operations (deletion, insertion, substitution) required to make the two words equal. For example user typed the query ?mices? but the mices is not in the xml document it contains miches ed{mices, miches} = 1 so therefore the best similar prefix is miches it is displayed.

相关工作

Bast和Weber[5]提出在文本文档中进行完全搜索,通过允许查询关键字出现在答案中的任何位置,可以找到相关的答案。但是,完全搜索不支持近似搜索,不允许查询关键字和答案之间有微小的错误。近年来,吉思寿、李国强对文本文档[9]中的模糊预输入搜索进行了研究。它允许用户在输入关键字时探索数据。Li C和J.Feng也研究了关系数据库[8]中的预输入搜索。查询中所有关键字对应的内容节点集合的LCA中关键字查询的最低共同祖先(LCA)。许多XML关键字搜索算法都使用LCA[10]符号。为了提高搜索效率和结果质量,Xu和papkonstantiou[10]提出了排他最低共同祖先。预输入搜索的主要部分还包括指定匹配的近似关键字进入语句,在匹配的近似关键字进入语句出现微小错误时也给出近似答案[6]。XML查询的局限性,它对完整搜索的影响很小,对用户来说很难理解系统[1]。 To solve the problem into minor error keyword search and matching particular word into query type-ahead search [1]. Minimal cost tree is for each node, we define its corresponding answer to the query as its sub tree with paths to nodes that include the query keyword [7]. J Chen, Lyad A. Kanjb define how top-k work in XML database and how ranking the keyword as effective manner [8]. G Li, Chen Li, J Feng and L Zhou define that when particular keyword present in XML tree how to retrieve and if particular keyword not perfectly match how they retrieve a accurately[9]. XML query techniques Feature Limitation Xpath Collection of element can be retrieve by specifying Directory. One or more condition place on path to increase lack of complexity. Xpointer Specific location defines start point and End point. It specify the absolute location Location path composed of a series of step join with “/” each in down the preceding, not a single step.MCT High ranking score Top- Bottom, Left-Right search data much time need LCA To get answer good ranking They using “And” semantic between keywords ignore the answer that contain query keyword Fuzzy type ahead top-k Easily retrieve data in high ranking score Multiple keyword search required much time.

传统的XML查询技术

在传统的搜索系统中,Xpath和Xquery在Xml中使用这两种类型。Xpath是一种功能强大的XML查询语言,它为XML文档的部分寻址提供了简单的语法。Xpath可以通过在路径上指定零或多个条件来检索。我们有一个逻辑树状的XML文档,每个元素、名称空间、处理指令、注释、属性文本和根引用都有节点。
寻址机制的基础是XML文档中从一点到另一点的起始节点和位置路径。Xpointer可以用于指定特定位置或更接近的位置。路径的定位由一系列步骤组成,每一步都以“/”连接,从根节点向下移动到叶节点。Xquery是关系系统和面向对象系统中查询语言的一个新特性。Xquery合作操作
文档排序,可以对文档进行否定、提取和重构。W3c查询工作组为XML开发了一种名为Xquery的查询语言。序列节点中的值可以是文档、名称空间、属性、文本和元素。顶层路径表达式是根据它们在原始层次结构中的位置排序的,从上到下和从左依次[14]、[18]。目前急需的部分是数据中心文档和xml数据中的文档中心文档。以数据为中心的文档Xpath很难在短时间内理解。它既源于数据库内部,也源于数据库外部。这些文件用于公司之间交换数据。这些都是机器加工的;它们具有有效的规则结构,获得的数据精细,无混合内容。 Document-Centric are document usually developed for human use, they are usually collected directly in XML or some other format(RTF,PDF and SGML). This is then translated to XML. Document-Centric doesn’t have regular structure, larger achiever data and lots of mixed content [13].

XML查询技术的模糊搜索

本节将对重要的XML查询和关键字搜索方法进行说明。与Xpath和Xquery相关的主要问题是它们在查询语法方面的限制。这里相对于Xpath和Xquery,基于lca的交互搜索参考[7],[21]和最小代价树参考[14],[22]效率更高。下面提到的小节给出了上述方法的详细信息。
A.最小成本树:
检索相关信息,对XML文档进行关键字查询。对于每个节点,我们将其对查询的所有相对答案定义为其子树,其子树的路径指向包含查询关键字的节点。这个XML文档格式的子树称为该节点的最小代价树(MCT)。不同的节点对应不同的查询结果,我们将学习如何计算xml数据的相关性排序。假设XML数据包含文档中D,一个节点n关键字查询Q = {k1、k2、k3…,kl},其特定的查询“Q”和节点n在子树扎根,和每个关键字ki€Q,如果节点n的前任,那么它是一个qussi-content节点k与数据的节点,子树包括ki的关键路径和节点n .我们首先要确定每一个的字的每个输入关键字查询。之后,我们根据谓词词为XML树中的每个节点构造MCT,并编写得分最高的最佳节点。
该方法的主要优点是,即使一个节点没有包含查询中所有关键字的后代节点,该节点仍然被视为潜在的答案引用[4]。
B.基于lca的交互搜索:
我们知道一种基于最低共同祖先(LCA)的交互式搜索方法。我们使用排他LCA(ELCA)语义来了解谓词词的相关答案。我们在XML数据中对标记化的单词使用树索引结构。首先针对单个关键字,从XML文档树中寻找最近的可行节点,然后定位该节点的叶子代节点,进行检索。将对应的谓词词及其倒排列表上的谓词XML元素和查询字符串转换为每个关键字k1, k2, k3,k4,…,kv。每一个关键字ki (1< v< m),从XML数据[5]中有许多谓词词的列表。

步骤:

1.基于LCA方法的关键字查询检索XML中倒置列表中的内容节点。
2.从倒排列表中查找内容节点的最低公共祖先(LCA)。
3.取查询的最低公共祖先(lca)答案的子树。

限制:

这是提供低质量的结果和答案是不相关的。
C.基于ELCA的方法
为了克服基于LCA的方法只使用LCA (ELCA)[4]的局限性,提出了[26]。它指出,如果一个LCA在移除其LCA后代后不再是一个LCA,那么它就是ELCA。例如,从上图中假设用户输入了查询“db tom”,那么db的内容节点是{13,16},tom的内容节点是{14,17},这些内容节点的lca是节点2,12,15,1,这里的elca是12,15。在删除节点12和15后,Node2不是ELCA,也不是LCA,将显示以这些节点为根的相关答案子树。XU和papakonstantinou[9]开发了一种基于二值搜索的方法来有效地识别elca。与基于LCA的方法相比,ELCA的优点是检索的相关性更强。
D. XML数据搜索的模糊预输入和top-k
本文首先考察了模糊预输入搜索算法如何减少Xpath和Xquery语言以及关键字搜索的局限性。首先是知道自动完成搜索,如果在xml文档的同一位置有关键字可用,之后他可以轻松高效地检索到但是关键字放置在文档的不同位置(节点),然后自动搜索无法在这种状态下工作。例如“apple iphone”和“iphone有一些不同的资产”,在这种情况下,案例和策略“apple iphone”出现在一个节点和下一个节点,而iphone功能出现在另一个节点。二是对文本文档中不同位置的数据进行完整的检索,但在关键字查询中包含微小错误时不能访问数据。
在模糊预输入搜索中解决了上述情况。它有包含关键字,如果关键字包含微小的错误进入关键字查询,它可以大致访问数据。使用LCA和MCT对关键字的答案进行排序,其特定分数为[7],[14],[16]。本文提出的参数化top-k算法分为两个不同的阶段。第一个阶段是结构算法,即在一个问题实例上构造一个关键字大小可行的结构;另一个阶段是基于xml数据的结构生成该实例的k个最佳解的枚举算法。我们开发了支持高效枚举算法的新技术。我们准备了固定参数可处理性和参数化top-k算法在搜索和排序答案[1][23]之间的关系。对于排序查询答案,我们已经讨论了如何将节点n的MCT作为查询答案进行排序。直观地,我们首先评估节点n与每个输入关键字之间的有效性,然后将所有这些相关性得分合并为最小代价树(MCT)的所有得分。我们将研究不同的方法来量化节点n与查询关键字的相关性,并添加节点[4],[5]的相关性评分。
1.子树排序
主要有两个排序函数来量化节点n和关键字ki之间的排序(分数)。案例1:n个包含关键字ki。计算节点n与关键字ki的相关性或得分
图像
其中,tf (ki, n)- no: ki在子树根中出现的次数n idf (ki)- XML中节点数量与包含关键字ki的节点数量之比itl(n)- |的长度n/nmax|=带有最大项的节点s-常量设为0.2假设图2.1用户组成了一个包含关键字“db”的查询
图像
案例2:节点n不包含关键字ki,但其子代节点有ki。根据祖先和后代关系进行排序。计算n和kj之间的分数的第二个排序函数是
图像
其中p-集关键节点α -常数设为0.8 - n与p之间的距离
2.模糊搜索
假设一个关键字查询Q= {k1, k1,....,kl} in term of fuzzy search, the minimal-cost tree may not contain predicated list of words for every keyword, for contain predicted words for every keyword. Suppose predicated word be {w1,w2,….,wl} the best similar prefix of wi would be considered to be most parallel to ki. The function to quantify the similarity among ki and wi Where ed- edit distance ,ai –prefix ,wi – predicted word –constant.
图像
其中γ值为0 ~ 1之间的车削参数,由于前者更为重要,γ接近于1。实验表明,较好的γ值为0.95。我们将该相似度函数引入到支持模糊搜索的排序函数中,如下所示:
图像

结论

本文研究了XML数据中模糊预输入搜索的需求。我们推导出有用的索引结构、高效算法和叙事优化技术,以逐步有效地发现前k个答案。我们研究了基于elca的技术,以交互和有效地从大量数据中识别预测答案。本文提出了一种基于最小代价树(MCT)的XML数据关键字搜索方法,该方法对用户友好,不需要对XML数据进行详细的研究,并实现了该方法,获得了较高的搜索效率和搜索结果质量。

未来的范围

1.该应用程序可用于扩展web搜索。
2.设施纳入下载文件。
3.应用程序可以扩展以搜索多个xml文件。

数字一览

图1 图2
图1 图2

参考文献

  1. 冯军,李国良,“高效的模糊预输入搜索XML数据”,IEEE知识与数据工程学报,第14卷,pp。1280 - 1292年,2012年5月。

  2. CH.Lavanya“XML数据的交互式搜索获得Top-k结果”国际软计算与工程杂志,ISSN: 2231- 2307,第3卷,2013年7月号

  3. 陈志伟,陈志伟,陈志伟,“基于关键字的关系数据库搜索系统”,计算机工程学报,2002年第4期

  4. 鲍志强,陈天伟,陆杰,“基于关联排序的XML关键字搜索”,计算机工程,2009

  5. H. Bast和I.Weber,“少输入,多查找:基于索引的快速自动补全搜索”,2006年国际ACM会议信息检索研究与开发

  6. 李磊,王宏,李娟,高宏,“XML流中skyline top-k关键字查询的高效算法”,哈尔滨工业大学。

  7. xu . y .和Y.Papakonstantiou,“XML数据中最小LCA的高效关键字搜索”procInt 'sconf扩展数据库技术进展(EDBT) 2008

  8. 李国强,季顺生,张志刚。李和J.Feng,“关系数据的高效预输入搜索:一种更好的方法”proc ACM SIGMOD Int 'tconf数据管理,2009

  9. 季顺生,李国强,冯建军,“高效交互式模糊关键字搜索”,计算机科学与技术,2009

  10. 余。徐teradat,加州大学,“基于LCA的XML数据关键字搜索”ACM版权,2003

  11. IBM,“SQL/XML的进步”Jim Meton oracle corp, 2002

  12. Ronald Bourret,“XML和数据库”,独立顾问,Felton, A 18 Woodwardia Ave. Felton CA 95018 USA SPRING 2005。

  13. 李国强,冯建华,周丽珠,“XML数据的交互式搜索”清华大学信息科学与技术国家实验室计算机科学与技术系,北京100084

  14. 丁柏霖,余旭,王珊,秦璐,林学敏,“数据库中top-k Min-cost连通树”,香港中文大学中国

  15. 陈磊,李亚德,夏戈,张丰辉,“参数化top-k算法”,杜德泽,2012

  16. 李杜林,李晨,冯杰,周丽珠,“基于结构感知的XML关键字搜索方法”,加州大学欧文分校计算机科学系,加州92697- 3435,美国

  17. H.Willimson,“XML的完整参考”,The McGrew Hill Companies, Inc,纽约,2009年

  18. Luis M. de Campos, Juan M. Fernández-Luna, Juan F. Huete,和Eduardo Vicente-López,“使用个性化改进XML检索”,IEEE知识与数据工程学报,第1280-1292页,2011。

  19. 李建新,刘成飞,周锐,王伟,“概率XML数据的Top-k关键字搜索”,IEEE数据工程国际会议(ICDE),pp。673 - 684年,2011年。

  20. NikolausAugsten, Denilson Barbosa, Michael M. Bo¨len,和Themis Palpanas,“小内存中的高效Top-k近似子树匹配”,IEEE知识与数据工程学报,第1123-1137页,2011。

  21. 冯建华,李国良,王建勇,“基于元组单元的关系数据库关键字搜索Top-k答案”,《计算机工程学报》,第4期,2011。

  22. 袁烨,王国仁,陈磊,王海勋,“基于不确定图数据的高效关键字搜索”,《知识与数据工程学报》,pp。2767 - 2779年,2013年。

  23. Ruby Carlin GeorgewinSathiaseelan, SriramSitharaman, RaghavBabuSubramanian,RadhaSenthilkumar,“关于紧凑XML的飞行搜索方法”,IEEE信息技术最新趋势国际会议(ICRTIT),pp。347 - 351年,2013年。

  24. Chandragandhi.S Nithya.L。杨晓明,“基于树索引结构的XML模糊搜索优化”,《计算机工程》,2013年第4期。

  25. 乐王超,李菲菲,AnastasiosKementsietsidis,宋云端,“大RDF数据的可扩展关键字搜索”,《IEEE知识与数据工程学报》,pp。2774 - 2788年,2014年。

  26. Bettina Fazzinga, Sergio Flesca和Andrea Pugliese,“带否定的XPath查询的Top-k近似答案”,《IEEE知识与数据工程学报》,pp。2561 - 2573年,2014年。

全球科技峰会