一个高效的指数排名在空间数据基础

年代。Krishnaveni, K.Sangeetha
CSE学系助理教授,阿波罗工程学院,钦奈,印度Tamilnadu

文摘

在现实中空间对象(例如,大坝)不仅有空间位置,也有质量属性(如高度、水库容量)。给定一个空间位置年代,质量向量ψ和一组空间对象D,空间查询,检索和排名的对象相交区域和满足质量向量。基于反向索引和线性四棵树,我们提出一个新颖的索引结构,称为反向线性四树(IL-Quad树),这是利用精心设计的空间和基于关键字的修剪技术有效地减少搜索空间,执行1)空间滤波,2)文本过滤和3)对象排名完全集成的方式。倒四棵树和R树相比,SKR树。

关键字

IL -四叉树、r - tree SKR-tree、查询处理、空间数据库。

介绍

空间数据库系统管理大型地理实体的集合,它除了空间属性包含非空间信息。空间对象在现实中与多个质量属性除了他们的空间位置。传统的空间查询和连接只关注操纵空间的位置和距离,但他们忽视质量属性的重要性。优势比较适合比较两个对象对多个质量属性。为了简单起见,我们假设每个质量属性是完全有序的领域(例如,整数域)。对象是主宰另一个对象,如果没有比B质量属性和A比B至少一个质量属性。在此系统中,我们研究一种有趣的空间查询,选择最佳的空间位置对空间邻近设施的质量。给定一组D有趣的对象(例如,候选人的位置)和质量向量,top-k温泉多弧离子镀偏好查询检索中的k对象D最高的分数。对象的分数被定义为质量特性(例如,设施或服务)在其空间社区。作为一个激励的例子,考虑一个数据库包含所有信息的水坝。 Here “feature” refers to specific facilities or services. A customer may want to rank the contents of this database with respect to the quality of their locations, quantified by aggregating non spatial characteristics of other features (e.g., height of dam, reservoir capacity etc.,) .

在Fig.1a,一个简单的分数,叫做分数范围,结合附近地区一个圆形区域在p半径(显示为一个圈),和聚合函数和。例如,p1的最大质量(dam1)是0.9和0.6。因此,τ(p1)是0.9 + 0.6 = 1.5。同样的大坝p2,τ(p2)是1.0 + 0.1 = 1.1。因此大坝p1作为前返回结果。s1 Fig.1b显示大坝p5和三个特性,s2、s3(和他们的质量值)。圆的半径为τ的倍数,如果计算的分数乘以其质量与重量2 ^ - j, j是最小的顺序包含硅圆。[1]

排名对象的传统上,有两种基本方法:1)空间排名,这订单对象根据他们的一个参考点的距离,和2)非空间排名,这订单的对象由一个聚合函数的非空间值。top-k空间偏好查询集成这两种排名以直观的方式。

问题陈述

让c(数字)质量属性的数量。每个对象在对象数据集D p c的质量是由一组属性,并与位置相关资讯。质量向量角度ψcdimensional空间中每个维度是指质量属性。简化符号,我们使用ψ[我]代表第i(质量)ψ的属性值。主导地位的概念是用来比较质量向量。质量向量ψ是说主宰另一个ψ(表示为ψ<ψ”),如果∃1≤≤c,ψ(我)比ψ”[我]和∀1≤≤c,并不比ψ”[我]。

一个位置是一对在欧几里得空间(x, y), x和y坐标的值。p = < loc,ψ>空间对象由一个位置啊。疯狂的和一个向量o.ψ质量。符号dist (p, p)表示的位置空间对象之间的欧几里得距离p, p”。是说给两个空间对象p, p的支配者p '当p.ψ< p ' .ψ。给定一个查询问指定一组查询关键词Wq平方空间范围查询,文本相关性和空间相关性的对象p, q形式化定义1和2,分别。

定义1(文本相关性)。物体,据说是文本相关查询如果o包含查询关键词即。,Wp∩Wq≠0。量化的相关性p, q,加权函数用τq (o)。因此对于一个给定的q,τq (p1) >τq (p2)意味着对象p1比对象文本与q p2。

定义2(空间相关性)。对象o是说空间的位置相关查询问如果对象o覆盖与查询空间问的范围,即。Lp∩平方≠0。让τq (o)是一个得分函数量化的空间相关性阿q。因此对于一个给定的q,τq (p1) >τq (p2)意味着对象p1比对象空间与q p2。

因此,k对象从D对象检索文本和空间相关给定查询和排名对象基于质量特性的对象。

对象的空间相关性p,指示为τ(p)取决于类型的Lq对象之间的空间关系定义的位置。和一个空间范围包括美国普遍采用关系

1。封闭。τ(p)设置为1,如果查询相应的位置是全封闭的范围,也就是说,

2。重叠。τ(p)将对象的部分位置所覆盖的空间范围。

3所示。接近。τ(p)为代表的逆Lp和中心之间的距离,也就是说,

定义3(最近的支配力,距离最近的支配者)。S牵引质量向量ψ的某个位置,和一组空间对象D,最近的统治者D被定义为的年代

ND(ψ,D) = argmin dist (S, p)

pεD, p.τ<ψ

即。,the nearest neighbor of S in D among those that dominate ψ. The nearest dominator distance ndd(S,ψ,D)=dist(S,ND(S,ψ,D)). Refer to the example in Fig 2 and 3, the ND of S is the dam hj that minimizes the dist(Sj,hj) value, among those dams dominating the design competence ψ.In Fig 2.b. lists the NN and ND of each location Sj. It is important to note that NN is not necessarily the same as ND. For example, the NN of S2 is h4 which, however, does not dominate S2 with respect to its design competence. Whereas its next nearest neighbour h3 does, which exactly is S2’s ND. By considering the distance of each location Sj from its ND, we pick the largest one(i.e., dist(S3,h5)), and take its location(i.e., S3) as the result location for building the new dam.

定义4(最远的主导位置查询)

给定一组(竞争对手)空间对象D, L,一组(候选人)的位置和质量向量ψ的设计能力,最远的主导位置查询返回从L位置年代这样的距离ndd(ψ,D)最大化,也就是说,

空间查询评价R树

最受欢迎的空间访问方法是r - tree[3],该索引的最小边界矩形(mbr)对象。图4显示了一组D {p1, p2 . .p8}的空间对象(例如,点)和一个r - tree索引。r - tree能够有效地流程主要空间查询类型,包括空间范围查询,近邻查询,和空间连接。给定一个空间区域,空间范围查询检索从D t相交的对象,

例如,考虑一个范围查询,要求阴影区域内的所有对象视图从树的根开始,递归地处理查询以下条目,mbr相交查询区域。例如,e1不相交查询区域,因此e1的子树指出不能包含任何查询结果。相比之下,e2是紧随其后的是算法和点相应的节点递归检查找到查询结果第七页。对象的上界的分数计算使用公式

空间查询评价SKR树

在图5中。假设如果用户Alice在波士顿问题地理查询“波士顿的污染控制灌溉”和前三座大坝将被归还。在这个查询中,“污染控制”和“灌溉”查询关键字,和“波士顿”表示地点/区域的利益。不管他们的相关性,这个例子展示了一组候选对象{p2、p3、p4 p5 p6},对这两个文本相关性和空间相关性。这里,p1,尽管在“波士顿”不是因为它包含有关“污染控制”和“灌溉。”另一方面,{p7, p8,票数,p10}虽然被文本相关的查询,并不是在“波士顿。“前三座大坝在返回最相关的候选集。

我们提出了一个高效的索引方案叫做SKR树索引的文本内容和空间对象来支持数据检索结合文本和空间相关性的基础上,,反过来,可以调整不同的相对权重。图7。显示了SKR树的结构,每个节点有两个空间和非空间信息的数据对象。没有是根节点有两个子节点N1和N2。子节点的关键字AN1,空间数据DN1。索引方案执行文本滤波和空间滤波,因此它是有效与R树索引机制相比。

空间查询评价IL-QUAD树

IL-Quadtree。为每个关键字,ti∈V我们建立一个线性四叉树,用LQi,对象包含关键字。除了黑叶节点,我们也明确保持四叉树结构,在LQi作为对象的签名,这可以很容易地适应主内存。更具体地说,是四叉树的每个节点,设置为1,否则黑叶节点和叶节点和0。

显然,一个节点在LQi是空的(即。,it does not contain any object with keyword ti) if the bit is set to 0 Fig. 7 illustrates the linear quadtrees LQ1 and LQ2 constructed for keywords t1 and t2 respectively.

索引维护。走马上任的新对象o,它将插入到相应的基于线性四叉树的文本信息。特别是四叉树的叶节点分裂如果它包含超过c对象和它没有达到预先设定的最大分区的最大深度w水平。删除,一个对象o从相应的线性四叉树将被删除。与此同时,一些细胞可能是由于合并,删除。签名的有效性,我们执行,所有的对象都是推到黑色的叶子节点水平以下w_(最小的分区级别),因为一个黑色的叶子节点在高水平可能损害修剪功能。

为空间偏好查询算法

答:范围分算法

给定一组对象,分数范围算法计算最近的邻居距离和排名的对象。[4]。

输入:一组数据,查询位置、R树的根和半径ε。

输出:k数据与最短的距离

过程:

1:Group_Range(节点N)

2:为每一个条目e N

3:如果N是nonleaf

4:读取子节点N我指出e;

5:Group_Range (N);

6:其他

7:为每个pεV这样dist (p, e)≤ε

由e 8:更新工作;

分支定界算法

分支定界算法,计算分数和排名的对象基于非空间对象的质量特征。

输入:一组数据D和查询位置和R树的根

输出:k数据与得分最高的。

过程:

1:Cal_Score(节点N)

2:为每一个条目eεN

3:如果N是nonleaf

4:读取子节点N我指出e;

5:Cal_Score (N);

6:其他

7:为每个p V,ε

8:c: = 1 m

9:计算所有e Tc (e)∈V并发;

10:更新工作由e

c . SKR树构造算法

输入:D组对象

输出:SKR树的根

过程:

d .空间关键字排名算法

在本节中,我们在实际对象和特征数据集进行实验以证明top-k空间选择查询的应用程序。我们获得真正的空间数据从http://www.fao.org/nr/water/aquastat/gis/index2.stm在这些数据集对应位置(经度和纬度)坐标在非洲和中东国家。

这个空间数据集包含的信息大坝在南非和中东的国家有几个功能,如灌溉、供水、防洪、水利电力、导航、娱乐、污染控制、牲畜饲养和其他人。我们对空间使用SQL server 2008数据库设计。空间查询visualiser空间查询和空间形象化加载程序上传文件形状的非洲和中东国家。建议的R树索引方案评估和SKR树

结论

在本文中,我们研究了top-k空间偏好查询,提供一种新颖的排名基于质量特性的空间对象在他们的社区。给定一个空间位置年代,质量向量ψ和一组空间对象D,空间查询,检索和排名的对象相交区域和满足质量向量。我们提出了一个高效的索引称为IL-Quad树和算法执行1)空间滤波,2)文本过滤和3)对象排名完全集成的方式。

在未来,我们将研究top-k道路网空间偏好查询,两点之间的距离定义为最短路径距离而非欧几里得距离。面临的挑战是开发替代性的方法计算一组点的上界分数道路网络。

表乍一看

表1

数据乍一看


图1	图2	图3	图4

图5	图6	图7	图8

引用

马丁姚,X。戴:Mamoulis, m . Vaitis¢高级k空间偏好查询,一个¢Proc, IEEE IntA¢Engl相依数据。(ICDE), 2007年。

人肺姚,华陆,Nikos Mamoulis, MichailVaitis¢排名由空间数据质量preferencesA¢IEEE反式。在数据中。March2011。

一个。格特曼,一个¢r - tree:空间搜索的动态索引结构,一个¢Proc。ACM SIGMOD, 1984。

y陈和J.M. Patel,¢有效评价All-Nearest-Neighbor查询,一个¢Proc, IEEE IntA¢Engl相依数据。(ICDE), 2007年。

n . Mamoulis马丁姚、K.H. Cheng和D.W.张,一个¢Top-k聚合效率排名输入,一个¢ACM反式。数据库系统,32卷,不。3、2007年p。19日。

大卫•Noack¢空间变异在搜索引擎ResultsA¢,IntA¢Alconf对系统科学- 2010。

志诚,胡锦涛徐,Yansheng,境况不佳的奎阿纳¢总最近的关键字搜索在空间数据库中一个¢IntA¢l亚洲特定web会议。2010。

RamondT。Ng Jiaweihan,¢有效和高效的聚类在空间dataminingA¢,学报20 VLDB相依,圣地亚哥,智利。