所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

有效的多维模糊搜索个人信息管理系统

DR.K.P.KALIYAMURTHIE1和D.PARAMESWARI2
  1. Bharath大学教授和负责人,部门,钦奈(chennai) 073 - 600
  2. Asst.教授(SG),计算机应用部门,耶路撒冷Engg学院。100年,金奈- 600
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

爆炸的半结构化数据的用户访问和存储在个人信息管理系统中,有一个关键需要强大的搜索工具来检索常常异构数据在一个简单而有效的方法。现有的工具通常支持一些IR-style排名文本查询的一部分,但只考虑结构(例如,文件目录)和元数据(例如,日期,文件类型)作为过滤条件。我们提出一个新颖的多维搜索的方法,允许用户执行模糊搜索结构和元数据条件除了关键字的条件。我们技术分别得分每个维度和集成三维分数成有意义的统一的分数。我们还设计指标和算法来有效地识别匹配多维查询最相关的文件。我们执行一个全面的实验评价方法和显示我们的放松和非内容维度得分框架为模糊查询条件可以显著提高排名的准确性。我们还表明,查询处理策略执行和规模,使我们的模糊搜索方法适合每天使用。

介绍

存储在个人信息管理系统的数据量迅速增加,之后therelentless增长能力和价格下降的存储。这次爆炸的信息正在推动一个关键常常需要强大的搜索工具来访问异构数据以一种简单而有效的方式。这些工具应提供高质量的评分机制和高效的查询处理功能。众多的搜索工具已经开发执行关键字搜索和查找个人信息存储在文件系统,如商业工具Google桌面搜索和焦点。然而,这些工具通常支持某种形式的排名的文本部分查询类似的做法在信息检索(IR)的阵营-但只考虑结构(例如,文件目录)和元数据(例如,日期,文件类型)作为过滤条件。最近,研究团体的关注搜索个人信息和Dataspaces,包括异构数据集合。然而,与商业文件系统一样搜索工具,这些作品关注IR-style关键字查询和使用其他系统信息只有指导的关键字搜索。Keyword-only搜索往往不足,如下例所示:
示例1:考虑用户在文件系统中保存个人信息的个人计算设备。除了实际的文件内容、结构位置信息(例如,目录结构)和一个潜在的大量的元数据信息(例如,访问时间,文件类型)也存储在文件系统中。
在这种情况下,用户可能想问查询:
[文件类型= *。文档和
createdDate = 03/21/2007和
内容=“提案草案”,
结构= / docs / Wayfinder /建议)
目前的工具将回答这个查询返回所有文件类型的*。文档上创建目录/ docs / Wayfinder /下03/21/2007提案(过滤条件),内容类似于“提案草案”(表达式)排名,排名基于距离的内容匹配”的提议草案”使用一些潜在文本评分机制。
因为所有信息以外的内容只被作为过滤条件,文件非常相关的查询,但是不满足这些精确的条件将被忽略。我们认为允许灵活的条件对结构和元数据可显著提高搜索结果的质量和有效性在许多搜索场景。例如,在示例1中,用户可能不记得确切的文件的创建日期的兴趣但记得03/21/2007周围创建它。同样,用户可能感兴趣的主要文件类型的*。医生,但也可能要考虑不同但相关的类型(如相关文件。,*。特克斯或* . txt)。最后,用户可能记错文件存储的目录路径。在这种情况下,通过使用日期、大小和结构条件不作为过滤条件但作为查询的排序条件的一部分。一旦选择了一个好的评分机制,高效的算法来确定最佳的查询结果,不考虑系统中的所有数据,也需要。在本文中,我们提出一个新颖的方法,允许用户在三个不同的维度:有效执行模糊搜索内容、元数据和结构。 We describe individual IDF-based scoring approaches for each dimension and present a unified scoring framework for multi-dimensional queries over personal information file systems. We also present new data structures and index construction optimizations to make finding and scoring fuzzy matches efficient.
我们的具体contributions1包括:
•我们建议IDF-based得分机制为内容,元数据,结构,和个人维度分数合并成一个统一的框架
多维分数(2节)。
•我们适应现有top-k查询处理算法和提出优化改善结构维度指数。我们的优化考虑top-k评价策略只关注建筑的部分指数最相关的查询处理(部分3和4)。
•我们评估得分框架实验,表明我们的方法有可能显著提高搜索精度过电流滤波方法(章节5.2和5.3)。
•我们经验证明我们在查询处理优化的影响时间和显示我们的优化大大提高查询效率和导致良好的可伸缩性(章节5.4∼5.8)。有数据库和讨论
红外社区整合技术两个领域[1],[2],[7],[12]结合内容搜索和基于结构的查询结果。我们技术提供在这个方向迈出的一步,因为他们整合IR-style内容得分与DB-style结构近似分数。剩下的纸是组织如下。在第2部分中,我们提出我们的多维得分框架。在第三节,我们将讨论我们top-k查询处理算法的选择和现在小说静态索引1。这项工作建立在,并大大扩展我们的工作在得分多维数据[24]。top-k查询处理指标和算法的部分3和4的实验结果是小说的贡献是部分5.4∼5.8。结构和分数评价技术。第四节描述动态索引结构和索引结构算法结构的松弛。在第5部分中,我们提出我们的实验结果。 Finally, conclude in Section 6.

统一的多维得分

在本节中,我们提出我们的统一框架,将分数分配给文件基于他们怎么密切匹配查询条件在不同的查询维度。我们区分三个评分维度:内容条件文件的文本内容,元数据条件相关的系统信息文件,和结构条件的目录路径来访问该文件。我们代表文件和它们的关联元数据和XML文档结构信息。跨多个维度统一成一个单一的分数总分排名的答案。我们的评分策略是基于一个IDF-based分数的解释,如下所述。对于每个查询条件,我们分数文件基于最放松的条件是每个文件匹配。得分在所有密度均匀IDF-basedwhich允许我们有意义的多个singledimensional分数聚合到一个统一的多维分数。

评分内容

我们使用标准的红外放松和得分的技术内容查询条件[30]。具体来说,我们采用TF * IDF得分公式从Lucene [6], state-of-theart关键字搜索工具。这些公式如下:
方程(1)
方程(2)
方程(3)
问在哪里内容查询条件,f是文件被拿下,N是文件的总数,Nt是t包含术语的文件数量,和NormLength (f)是一种规格化因素的函数f的长度。2注意放松上述公式的一部分,因为他们分数所有文件查询中包含的一个子集的条件条件。
这篇文章已经发表在这个杂志未来的问题,但还没有完全编辑。在最终出版之前内容可能会改变。

得分的元数据

我们引入一个层次对每个类型的放松方法搜索元数据支持得分。例如,图1显示了放松(部分)水平对文件类型,表示为一个DAG3。每片叶子代表一个特定的文件类型(例如,pdf文件)。每个内部节点表示一个更一般的文件类型的联盟儿童的类型(例如,媒体的视频,图像,和音乐),因此是一个放松的后代。
这个分层表示的一个关键特性控制;即组文件匹配的节点必须等于或包含的文件集匹配它的每个子节点。这将确保文件的分数匹配一种更轻松的一个查询条件总是小于或等于文件匹配的分数少放松形式(见下面的方程4)。然后我们说一个元数据条件匹配DAG节点如果节点的元数据值等于或包容范围查询条件。例如,一个文件类型查询条件指定一个“*类型的文件。cpp”将匹配的节点表示文件类型的“代码”,文件类型的“文档”,等等。在文件的创建日期查询条件匹配不同级别的时间粒度,如天,几个星期或几个月。从最深的路径上的节点(大多数限制性)匹配节点的根DAG代表所有的放松方式,我们可以得分的查询条件。类似地,每个文件中的所有节点匹配DAG等于或包含文件的元数据的值。最后,鉴于问米,包含一个元数据条件查询文件的元数据分数f对Q是计算为:
方程(4)
其中N是文件的总数,纳米是最深的节点匹配M, nf最深的DAG节点相匹配的f, commonAnc (x, y)返回最近的共同祖先节点放松层次结构中的x和y,和nfile (x)返回的数量相匹配的文件节点x。比分是规范化log (N),这样一个完美的匹配会尽可能高的得分为1.2分。

得分结构

大多数用户使用分层目录结构组织文件。当搜索一个特定的文件,用户可能经常记住的一些组件包含目录路径及其近似排序,而确切的路径本身。因此,允许一些近似结构的查询条件是可取的,因为它允许用户利用部分记忆来帮助搜索引擎找到所需的文件。我们的结构得分策略扩展priorwork[4]在XML结构查询松弛操作,[5]。具体来说,节点反演放松介绍下面是小说,介绍了处理可能的路径名称混乱组件时指定查询条件的个人文件系统结构。假设结构查询条件(即非循环路径。路径查询),这些放松方式是:
•边缘泛化用于放松ancestor-descendant关系的父子关系。例如,应用边缘泛化/ a / b将导致/ / / b。
•路径扩展用于扩展路径P,目录中所有文件棵子树P可以被认为是答案。例如,运用路径扩展/ a / b将导致/ a / b / /∗。
•节点反演用于交换节点在一个路径查询p代表可能的排列,我们引入节点组的概念作为道路边的位置是固定的,(标签)节点可能变更。排列可以应用到任何一个相邻节点或节点组除了根和∗节点。排列组合相邻节点或节点组,成一个单一的节点组,同时保留边缘的相对顺序以p为例,应用节点反演在b和c / A / b / c将导致/ A / b / c),允许为原始查询条件以及/ A / b / c。(b / c)的部分放松条件/ a / b / c)被称为节点组。
•节点删除用于删除一个节点的路径。节点可以应用于任何路径查询或删除节点组,但不能用于删除根节点或∗节点。删除一个节点路径查询中n P:——如果n是一个叶节点,n是从P andP−n是通过/ /∗扩展。这是确保容器的确切答案P组P _的答案,和分数的单调性。——如果n是一个内部节点,n是从P和父(n)和儿童(n)在P / /连接。
例如,删除节点从a / b / c导致a / b / /因为/ b / /∗∗是最具体的放松路径查询包含不包含的a / b / c c。同样,删除从a / c / b / c / / / b / /∗∗结果。删除一个节点组内节点n, n这篇文章已经发表在这个杂志未来的问题,但还没有完全编辑。在最终出版之前内容可能会改变。
图2所示。结构弛豫DAG。实线代表父子关系。虚线linesrepresentancestordescendant关系,与中间节点删除简单的演示。IDF分数显示在右上角的DAG节点。在路径查询P,需要以下步骤以确保回答容器和单调性的分数:
- n和相邻边的n从n .每条边在成为ancestor-descendant边缘。如果n是唯一节点n, n是节点P所取代。
——在P N的周围边缘被ancestor-descendant边缘所取代。
如果N是一个叶子节点组,结果查询是通过/ /∗扩展。

分数聚合

我们将上面的一维分数聚合成一个统一的多维分数排名提供一个统一的文件相关的多维查询。要做到这一点,我们构造一个查询向量,V_Q,拥有一个值为1(精确匹配),每个维度和一个文件矢量,V_F,文件组成的一维分数F对查询问:(内容维度分数归一化对得分最高的为查询条件值在[0,1]范围。)然后我们计算的投影V_F V_Q和由此产生的向量的长度作为文件的汇总得分f .在其目前的形式来看,这是一个简单的线性组合组件分数相等的权重。然而,向量投影法提供了一个框架为将来探索更复杂的聚合。

查询处理

我们适应现有的算法称为阈值算法(TA)[15]查询处理。助教使用一个阈值条件来避免评估所有可能的matchesto查询,专注于识别k最好的答案。需要作为输入几个排序的列表,每个包含系统的对象(文件在我们的场景中)在降序排序根据他们的相关性分数为特定属性(在我们的场景中维度),这篇文章已经发表在这个杂志未来的问题,但还没有完全编辑。在最终出版之前内容可能会改变。动态访问排序的列表,直到满足阈值条件找到k最好的答案。至关重要的是,TA依靠排序和随机访问检索单个属性的分数。排序的访问,访问上述排序的列表,需要返回的文件在他们的特定维度分数降序排列。随机访问需要特定维度得分的计算对于任何给定的文件。

评估内容得分

正如2.1节中提到的,我们使用现有的TF * IDF方法内容维度得分。通过标准倒排表实现支持随机访问,在那里,每个查询词,我们可以很容易地查找这个词频率在整个文件系统,以及在一个特定的文件。我们支持访问通过保持反向排序列表顺序;即为的文件集包含一个特定的术语,我们保持文件的顺序根据他们的TF分数,规范化的文件大小,这一项。4然后使用助教算法递归返回文件顺序根据他们的内容成绩查询,包含多个项。

元数据评估分数

排序访问元数据条件的实现使用适当的放松DAG指数。首先,精确匹配识别通过识别最深的DAG节点匹配给定的N元数据条件(见2.2节)。一旦所有精确匹配检索从N的叶子的后代,近似匹配是由遍历DAG考虑更多的近似匹配。每个父母都包含一个更大范围的值比它的孩子,这确保了降序返回匹配分数的元数据。类似于内容维度,我们使用助教算法递归返回排序的文件包含多个元数据条件的查询。随机访问元数据条件需要定位在合适的DAG指数最接近的共同祖先最深最深的节点匹配条件和节点相匹配的文件的元数据属性(见2.2节)。这是作为一个高效的实现DAG算法遍历。

评估结构分数

文件的结构得分为查询条件取决于关闭的目录文件存储4。这给了相同的顺序TF * IDF IDF分数以来的一个术语是相同的所有文件。
图3所示。一个目录树,其结构指数。匹配的条件。所有文件在同一目录中分数将有相同的结构。计算在目录中文件的结构分数f d(确切或放松)结构相匹配的P(给定查询条件,我们首先要确定所有的目录路径,包括d,匹配P .剩下的部分,我们将使用结构条件是指特定的原始条件查询和查询路径引用原始条件可能的放松形式。然后我们和所有目录中包含的文件数量匹配P计算分数查询使用这些文件的结构方程6。分数计算步骤本身是简单的;复杂性驻留在目录匹配步骤。与目录节点反演复杂匹配查询路径,所有可能的排列必须被考虑。特定技术及其支持索引结构需要开发。几个XML查询处理技术主要集中在路径匹配。 Most notably, the PathStack algorithm [9] iterates through possible matches using stacks, each corresponding to a query path component in a fixed order. To match a query path that allows permutations (because of node inversion) for some of its components, we need to consider all possible permutations of these components (and their corresponding stacks) and a directory match for a node group may start and end with any one of the node group components, which makes it complicated to adapt the PathStack approach to our scenario. We use a two-phase algorithm to identify all directories that match a query path. First, we identify a set of candidate directories using the observation that for a directory d to match a query path P, it is necessary for all the components in P to appear in d. For example, the directory /docs/proposals/final/Wayfinder is a potential match for the query path /docs/(Wayfinder//proposals) since the directory contains all three components docs, Wayfinder, and proposals. We implement an inverted index mapping components to directories to support this step (see Figure 3). We extend our index to maintain the position that each component appears within each directory (Figure 3). For efficiency, each directory is represented by an integer directory id, so that each entry in the index is a pair of integers (DirID, position). This augmented index This article has been accepted for publication in a future issue of this journal, but has not been fully edited. Content may change prior to final publication. allows us to quickly check structural relationships between components of a directory

优化查询处理的结构维度

在本节中,我们提出我们的动态索引和算法的高效处理查询条件的结构维度。这个维度带来以下挑战:
•熟练的技艺代表的松口结构条件[4],[24]query-dependent,因此必须建立在查询处理时间。然而,由于这些熟练的技艺成长指数与查询的大小,即。,the number of components in the query, efficient index building and traversal techniques are critical issues.
•助教需要高效的排序算法和随机访问单维度得分(第三节)。特别是,随机访问可能会非常昂贵。我们需要高效的索引和遍历的算法支持两种类型的访问。我们提出以下技术和算法应对上述挑战。我们逐步建立查询依赖DAG结构在查询时,只有物化DAG节点需要回答一个查询(4.1节)。提高访问效率排序,我们建议跳过不必要的DAG节点的得分技术利用的容器属性DAG(4.2节)。我们提高随机访问只使用一种新颖的算法,有效地定位和评估DAG的部分匹配的文件要求每个随机存取(4.3节)。

增量放松匹配的识别

正如2.3节中提到的,我们代表所有可能的松口相应查询条件和IDF分数使用DAG结构。得分整个查询松弛DAG可以是昂贵的,因为他们生长指数的大小与查询条件。例如,有5个,21岁,94年,427年和1946年中的节点各自的查询条件/成套装饰边,/ a / b / a / b / c / a / b / c / d / a / b / c / d / e。然而,在许多情况下,足够的查询匹配将DAG的顶部附近发现,很大一部分的DAG不会需要得分。因此,我们使用一个懒惰的评价方法,逐步构建DAG,扩大和得分DAG节点贪婪的方式在需要的时候产生额外的比赛[29]。不过部分评估应该确保目录(因此文件)的顺序返回他们的分数。对于一个简单的top-k评价结构条件,我们的懒惰DAG算法和停止当k匹配识别。对于复杂的查询涉及多个方面,该算法可用于排序的这篇文章已经发表在这个杂志未来的问题,但还没有完全编辑。在最终出版之前内容可能会改变。访问结构条件。 Random accesses are more problematic as they may access any node in the DAG. The DAG building algorithm can be used for random access, but any random access may lead to the materialization and scoring of a large part of the DAG.5 In the next sections we will discuss techniques to optimize sorted and random access to the query relaxation DAG.

提高排序的访问

评估查询结构条件下用懒惰的DAG算法可以导致显著的查询是常见的多维评价倍topk处理访问非常放松结构匹配,即。轻松查询匹配路径,躺在DAG的底部,计算top-k答案。一个有趣的观察是,并不是每一个可能的放松导致了新发现的比赛。例如,在图2中,查询路径/ docs / Wayfinder /建议,/ / docs / Wayfinder /建议,和/ / docs / / Wayfinder /建议1完全相同的分数,这意味着没有附加文件检索后放松/ docs / Wayfinder /建议/ / docs / Wayfinder /建议或/ / docs / / Wayfinder /建议(方程6)。推而广之,如果两个DAG节点共享相同的分数,那么所有节点在两个DAG节点之间的路径也必须共享相同的得分/ DAG定义。这是正式的定理1

改进的随机访问

DAG Top-k查询处理需要随机访问。使用排序访问来模拟随机存取往往是非常低效的top-k算法可能会访问一个文件的目录,只有匹配一个非常放松的版本的结构条件,导致大多数DAG的物化和得分。虽然DAGJump算法有所缓解这个问题,减少节点的数量需要得分,高效的随机存取效率的一个关键问题仍top-k评估。我们提出RandomDAG算法(算法2)优化随机访问我们结构DAG。RandomDAG背后的关键思想是跳过一个节点P的DAG实际最轻松的亲密祖先节点随机存取文件的父相匹配的P_(包含)目录d或P _本身,只有实现和分数sub-DAG扎根在P必要分数P _。直觉是我们可以通过比较确定P d和原始查询条件。特别是,我们计算之间的交叉查询条件的组件和d。然后计算P,放弃所有组件在查询条件中,十字路口,必要时用ancestor-descendant取代亲子关系。然后保证计算P等于或P _的祖先。DAG节点是得分,得分与匹配的目录缓存加速未来的随机访问。作为一个例子,我们的查询条件/ docs / Wayfinder /建议在图2中,如果top-k算法想执行一个随机存取评估的结构分文件的目录/归档/建议/ Planetp RandomDAGwill首先计算节点的祖先密切匹配/归档/建议/ Planetp之间的交叉查询条件和文件目录,即。/ /建议,将跳转到sub-DAG扎根在这个节点。 The file’s directory does not match this query path, but does match its child //proposals//* with a structure score of 0.197. This
图5所示。一个例子执行RandomDAG返回目录中的一个文件的分数/归档/建议/ Planetp查询条件/ docs / Wayfinder /建议。如图5所示,显示了部分的DAG图2需要访问的随机访问文件的分数在目录/归档/建议/ Planetp。

实验结果

我们现在通过实验评估潜在的多维模糊搜索的方法来提高相关排序。我们也报告搜索性能可实现的使用我们的索引结构,评分算法,以及top-k适应。

灵活的多维搜索的影响

我们首先探索潜在的方法提高评分(所以排名)精度使用两个示例搜索场景。在每个场景中,我们首先建立一个内容查询要检索一个特定的目标文件,然后扩大这个查询以及其他几个维度。对于每个查询,我们考虑的目标文件的排名方法与目标文件是否会排在所有以今天的典型的过滤方法非内容的查询条件。
具有代表性的结果在表1中给出。在第一个示例中,目标文件是小说《时间机器》h . g . Wells位于目录路径/个人/电子书/小说,和查询内容的设置条件在我们最初的内容查询Q1包含两项时间和机器。尽管查询相当合理,条款是通用的,以至于他们出现在许多文件,导致排名18的目标文件。查询Q2增强Q1文件类型的精确匹配值,修改日期,并包含目录中。这让目标文件的秩为1。其余查询探索发生了什么当我们为非内容性维度提供不正确的值。例如,在查询Q10,几个正确但错误命令组件目录名称仍将排名1。相反,如果这样的目录作为过滤条件,目标文件将被视为与查询无关,而不是排名;查询包含一个“*”我们的技术的排名结果代表那些目标文件不会被视为一个相关答案给今天的典型的过滤方法。第二个例子的结果,这是一个寻找电子邮件,是相似的。 This study also presents an opportunity for gauging the potential impact of the node inversion relaxation. Specifically, queries Q23 and Q26 in the second example misorder the structure conditions as /Java/Mail and /Java/Code, respectively, compared to the real pathname /Personal/Mail/Code/Java. Node inversion allow these conditions to be relaxed to //(Java//Mail) and //(Java//Code), so that the target file is still ranked 1. Without node inversion, these conditions cannot match the target until they both are relaxed to //Java/*, the matching relaxation with the highest IDF score, using node deletion. This leads to ranks of 9 and 21 since files under other directories such as /Backup/CodeSnippet/Java and /workspace/BookExample/Java now have the same structure scores as the target file. In another example scenario not shown here, a user is searching for the file wayfinder cons.ppt stored in the directory /Personal/publications/wayfinder/presentations. The query with content condition wayfinder, 8. Content was extracted from MP3 music files using their ID3 tags. availability, paper and structure condition /Personal/wayfinder/presentations would rank wayfinder cons.ppt 1. However, if the structure condition is misordered as /Personal/presentations/wayfinder or /presentations/Personal/wayfinder, the rank of the target file would fall to 17 and 28, respectively, without node inversion. With node inversion, the conditions are relaxed to /Personal//(presentations/wayfinder) and /(presentations//Personal/wayfinder), respectively, and the target file is still ranked 1.
基本情况查询处理性能
现在我们评估我们的系统的搜索性能。在最终出版之前内容可能会改变。
系统结构的基本情况和评估结构DAG顺序不合并DAGJump(4.2节)和RandomDAG(4.3节)优化算法。注意,基本情况还包括matchDirectory的实现(3.3节)和增量DAG建筑(4.1节)技术。

查询处理和优化性能

图7 (b)给出了查询处理时间相同的15查询如图7所示(一个),但在我们应用DAGJump和RandomDAG算法。我们观察到这些优化显著减少这些查询的查询处理时间对大多数。尤其是,最慢的查询处理时间查询,Q10,从125.57下降到1.96秒。虽然这里没有显示,所有80查询现在需要0.39秒处理时间的结构维度,这篇文章已经发表在这个杂志未来的问题,但还没有完全编辑。在最终出版之前内容可能会改变。

结论

我们提出了一个得分多维查询个人信息管理系统的框架。具体来说,我们定义结构和元数据,提出松口IDF-based评分方法内容,元数据,查询条件和结构。这个统一的评分允许个人维度分数很容易聚合。我们还设计了索引结构和动态索引结构和查询处理优化支持多维查询的效率评价。我们实施和评估得分框架和查询处理技术。我们的评估显示,我们的多维分数聚合技术保留个人的属性维度分数和排名有可能显著改善准确性。我们还表明,索引和优化是必要的足够使多维搜索高效实用的日常使用。我们优化的查询处理策略在各个领域表现出良好的行为,导致整体查询性能和可伸缩性好。

数据乍一看

图1 图2 图3 图4
图1 图2 图3 图4
图1 图2 图3
图5 图6 图7

引用