所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

研究反向Top-K查询使用单色和Bichromatic方法

S.Anusuya1,M.Balaganesh2
  1. 打开学生,计算机科学与工程系,Sembodai Rukmani Varatharajan工程学院,Vedharaniyam,泰米尔纳德邦,印度
  2. 计算机科学与工程系,副教授Sembodai Rukmani Varatharajan工程学院,Vedharaniyam,泰米尔纳德邦,印度
相关文章Pubmed,谷歌学者

访问更多的相关文章国际创新研究期刊》的研究在科学、工程和技术

文摘

通常Top-k查询是广泛用于检索一组排名的“k”大多数对象基于个人用户首选项。例如在在线市场地方客户通常搜索排名的产品,满足他们的需求。从制造商的角度来看,当务之急是她的产品出现在许多不同的用户首选项排名最高的职位。否则,潜在客户的产品是不可见的。在本文中,我们提出一种查询类型即反向top-k导致查询类型,而不是返回一组的客户找到一个产品属于top-k结果的偏好。制造商有必要了解市场情况的基础上竞争。该查询的两个版本是单色,bichromatic介绍了。在单色提供了几何解释获得解决方案空间的直觉。以防bichromatic介绍了两种查询处理的方法,即一个高效的基于阈值的算法和一种算法基于物化反向top-k视图。

关键字

top-k查询,反向top-k查询,查询用户首选项,线性函数。

介绍

事实上,排名查询数据库文献中已被广泛的研究由于其流行在许多应用程序中,如决策、建议上升,和数据挖掘任务。许多建议了为了提高效率排名在回答查询。现在一天的大多数应用程序返回给用户只有一组有限的数据点有趣的用户,因此是非常重要的对于一个制造商,她的产品返回排名最高的位置尽可能多的不同的用户首选项。然而现有研究工作只有top-k查询从客户的角度寻求产品匹配他们的偏好。在本文中,我们研究反向top-k查询业务分析。从制造商的角度很感兴趣他们的产品给客户带来的影响,而现有产品竞争对手。鉴于潜在的产品本产品的用户首选项的top-k查询结果集吗?为此,我们提出反向top-k查询和研究两个版本查询的单色和bichromatic技术。在单色没有知识的用户首选项和制造商的目标是估计潜在的产品会对市场的影响。在bichromatic,一个数据集和用户首选项。 The reverse top-k query returns those preferences that rank a potential product highly.
有效地计算反向轮廓搜索的概念[3]解释如下。首先,我们考虑为一个多维数据集P动态轮廓查询的问题根据查询点。这种动态的天际线轮廓对应转换数据空间,点变得的起源和所有点P代表他们的距离向量。反轮廓查询返回的对象的动态轮廓包含查询对象q。为了计算任意查询点的反向天际线,我们首先提出一个分支定界算法(称为bbr),这是一个改进的定制的原始BBS算法。此外,确定一套超级逆转的天际线,用于搜索空间,同时计算反向的天际线。进一步降低计算成本的确定一个点属于相反的天际线,提出一个增强的算法(称为RSSA),它是基于准确的预先计算的近似天际轮廓线。这些近似用于确定一个点属于相反的天际线。通过大量的实验与真实和合成数据集,表明我们的算法可以有效地支持反轮廓查询。增强的方法提高逆转天际线处理了一个数量级比没有使用预计算近似算法。
单色和Bichromatic反向轮廓搜索[6]解释反轮廓查询不确定数据库都有许多重要的应用,如传感器数据监控和业务规划。由于不确定性的存在在许多真实世界的数据,回答反轮廓查询准确、有效地确定数据变得越来越重要。在这方面,模型不确定的概率反轮廓查询数据,在单色和bichromatic情况,并提出有效的剪枝方法来减少查询处理的搜索空间。此外,高效的查询程序已经提出了无缝整合提出的修剪方法。大量的实验证明了我们建议的方法的效率和有效性与各种实验设置。评估top-k查询[14]解释说,阈值算法读取对象的所有成绩曾经从一个排序的访问。不需要等到列表给“k”共同的对象。排序的重复访问,直到top-k回答。阈值算法执行比教唆犯随机存取算法。它执行(m - 1)为每个对象随机存取。 It requires only bounded buffer space. Top-k query processing [8] explains that a query in a multimedia database means combining graded attributes by using aggregation function. The aggregation function gives overall grade of object and return ‘k’ objects with highest overall grade. Top-k query processing means finding ‘k’ objects that have the highest overall grades. For that the algorithms like, Fagin algorithm and threshold algorithm are used.
本文的工作分为两种方法,1)Monochromatic2) Bichromatic。在拟议的系统用户通过线性top-k查询表达他们的偏好。偏好是由重量分配到每个评分属性,指示每个属性对用户的重要性。从制造商的角度来看,重要的是,返回一个产品在排名最高的位置尽可能多的用户首选项。估计的影响产品与竞争产品相比。宣传产品的潜在客户。一种新的查询类型即反向- k查询定义。使用反向top-k查询的两个版本,即单色和bichromatic。在单色不需要知识的用户首选项,其目的是估计潜在的产品在市场上的影响。分析二维的几何性质的单色反向top-k查询和提供算法的解决方案。 In case of bichromatic a data set with user preferences are given and a reverse top-k query returns those preferences that rank a potential product highly. Here an efficient and progressive threshold – based algorithm called Reverse top – k threshold algorithm is introduced.

提出了系统

在拟议的系统用户通过线性top-k查询表达他们的偏好。偏好是由重量分配到每个评分属性,指示每个属性对用户的重要性。从制造商的角度来看,重要的是,返回一个产品在排名最高的位置尽可能多的用户首选项。估计的影响产品与竞争产品相比。宣传产品的潜在客户。一种新的查询类型即反向- k查询定义。使用反向top-k查询的两个版本,即单色和bichromatic。在单色不需要知识的用户首选项,其目的是估计潜在的产品在市场上的影响。分析单色的将二维情况下的几何属性反向top-k查询和提供算法的解决方案。bichromatic的一个数据集和用户偏好给出反向top-k查询返回那些潜在的产品排名的偏好。 Here an efficient and progressive threshold – based algorithm called Reverse top – k threshold algorithm is introduced.

问题定义

最近,支持rank-aware查询处理在数据库研究界引起了人们广泛的关注。Top-k查询只检索一组排名的k最佳匹配用户偏好的对象,从而避免压倒性的结果集。因为大多数应用程序返回到用户只有一组有限的排名结果基于个人用户的偏好,必须为制造商,她的产品出现在许多不同的用户首选项排名最高的职位。否则,潜在客户的产品是不可见的。本文认为,通过线性top-k查询用户表达自己的喜好,这是由重量分配到每个评分属性,指示每个属性对用户的重要性。这个模型是在协议与偏好的概念和广泛采用的相关工作。一种新的查询类型,即反向top-k查询,可以表示如下:“鉴于潜在的产品,这个产品的用户首选项在top-k查询结果集吗?查询的两个版本:单色和bichromatic反向top-k查询。在前,没有知识的用户偏好和目的是评估一个潜在的产品在市场上的影响。在后者,一个数据集和用户偏好给出反向top-k查询返回那些潜在的产品排名的偏好。

反向高级查询

反向top-k查询(RTOPK)被定义为一个用户指定的产品“p”并返回的权重向量' w ' p top-k结果集。反向top-k查询是必不可少的对于制造商来说,评估他们的产品在市场上的影响的基础上竞争。的反向版本是单色,Bichromatic top-k查询。单色的几何解释反向top-k查询提供获取解决方案空间的直觉。在这里,没有知识的用户首选项和制造商的目标是估计产品在市场上的影响。它返回分区解决方案的空间,当没有给出用户首选项的分布是已知的。bichromatic识别用户那些感兴趣的一个特定的产品给一组已知的偏好。bichromatic以下技术即有效的基于阈值的算法和一种算法使用基于物化反向top-k视图。
图像
上面图中显示该系统的数据流图,在这组产品市场的产品和基于用户偏好的影响产品发现。如果提供了几何解释单色提供解决方案空间的直觉。

单色的查询

单色查询定义,给定一个点,一个正数k和数据集,单色反向top-k查询的结果集的轨迹存在p TOPk (wi)这样fwi (q)≤fwi (p)。给定一个数据集,单色反向top-k查询返回所有权重向量w,而查询点q∈TOPk (w)。让我们假设w表示所有有效作业的集合w。不可能列举所有可能的w∈w的作业,由于可能的向量w的数量是无限的。另一方面,解决方案空间W可以分为一组有限的分区Wi (Wi = W, Wi =Ø),这样查询点具有相同的排名位置的加权向量W∈Wi。然后,单色反向top-k的结果集是一组分区Wi的解决方案空间W W .解决方案空间可以分为一组有限的不相邻的分区,这样查询点有相同的秩的权重向量。单色版标识分区解决方案的空间满足查询。是用于业务分析估计的影响一个产品当没有给出用户首选项的分布是已知的。

BICHROMATIC查询

bichromatic定义如下,给定一个点和一个正数k,以及两个数据集和W,其中S表示数据点和W是一个数据集,它包含不同的权重向量,一个权重向量wi∈W属于bichromatic反向top-k问结果集,当且仅当p∃∈TOPk (wi)这样fwi (q)≤fwi (p)。bichromatic反向top-k查询,给出两个数据集和W, S包含数据点和W的不同权重向量代表用户首选项。然后,目标是找到所有权重向量wi∈W,这样查询点q∈TOPk (wi)。这里我们使用一个基于阈值算法bichromatic反向top-k查询,丢弃的权重向量不能导致结果集,没有评估相应的top-k查询。基于用户偏好的影响产品在市场上找到。

基于阈值的方法

使用bichromatic基于阈值的方法。它减少了被丢弃top-k评估权重向量的个数。等基于成对相似性排序权重向量。Top-k查询是由类似的向量,并有类似的结果集。首先评估top-k查询,计算一个阈值。为每个权重向量可能有可能基于阈值的修剪和改进阈值。每个重复一组阈值是根据前面计算top-k结果集;为了抛弃下没有top-k查询评价权重向量。等用于处理反向top-k查询任意数据维数。等丢弃候选人没有处理各自的top-k查询处理用户首选项。 In addition to that an indexing structure based on space partitioning which materializes reverse Top-k views in order to further improve reverse top-k query processing. This method consistently out performs a brute force algorithm by one to three orders of magnitude in terms of required number of top-k evaluations. Numerical non negative values are considered for weights. Smaller scoring values are preferable.RTA aims to reduce the number of top-k query evaluations, based on the observation that top-k queries defined by similar weighting vectors return similar results. Hence RTA exploits already computed top-k result sets to avoid evaluating weighting vectors that cannot be in the reverse top-k result set. Therefore, in each repetition a threshold is set based on the previously computed top-k result set P. Given a set of points P, the maximum value corresponds to the worst scoring value for any point in the set based on wi and is used as a threshold during the reverse top-k evaluation. Initially RTA computes the top-k result for the first weighting vector that belongs to the result set and kept in main memory buffer. The score of the query point q based on the vector wi is computed and compared against buffer value and if it is not greater than wi buffer, then wi is added to the result set. Before, we take the next weighting vector (wifl) and we set the threshold equal to the wifl.

实验评估

在本节中,我们提供了一个广泛的实验评价逆转top-k查询。用c#实现所有方法。net和运行在一个3 GHz双核AMD处理器配备2 gb RAM。块大小是8 kb。至于数据集S是真实和合成数据收集。统一的数据集,所有属性值生成独立使用均匀分布。我们评估等的性能;等执行比教唆犯随机存取算法。助教执行比教唆犯算法(m - 1)随机访问。TA =实例优化每一个单调聚合函数,对每个数据库(包括野生的猜测),它是最佳的意义远比教唆犯的算法如果是严格单调聚合函数,最优比率= m + m (m - 1) cR / cs和这是一个最好的(m = #属性)。如果随机访问不可能(cr = 0),最优比率= m。如果排序访问不可能(c = 0),那么,最优比率等于无限。 The TA is instance optimal (always optimal) for every strictly monotone aggregation function, over every database (including wild guesses) that satisfies the distinctness property. The experimental evaluation explains the efficiency of our techniques proposed.

结论

通过使用- k最大反向查询产品的潜在影响。在这个提议系统介绍了反向top-k查询检索所有查询点的权重向量属于top-k查询结果集。该类型是重要的市场分析和评估产品基于用户偏好的影响和竞争对手的产品。两个版本的反向top-k查询单色和Bichromatic进行了研究。单色反向top-k查询只有一个数据集的产品。bichromatic反向top-k查询一组权重向量也是可用的。此后,我们提出一个有效的基于阈值算法计算bichromatic反向top-k查询,丢弃候选用户首选项,而不需要评估相关top-k查询。实验评价表明提出的算法的效率。

引用

  1. Akbarinia, r . Pacitti大肠Valduriez, p(2007),最好的假设。Akbarinia, r . Pacitti大肠Valduriez, p(2007),最佳位置算法对于Top-k查询Proc。非常大的数据库(VLDB)。
  2. 常,研究。伯格曼、清醒Castelli诉史密斯,jr(200),“洋葱技术:线性优化索引查询的Proc, ACM SIGMOD。
  3. Dellis,大肠和西格,b(2007),“反轮廓查询的效率计算”Proc。(VLDB 07年)。
  4. Hristidis,诉Koudas: Papakonstantinou, y(2001),“一个系统为有效执行不确定型排名查询的Proc, ACM SIGMOD。
  5. 科恩,f . Muthukrishnan,美国(2000年),影响集基于反向最近邻查询的Proc, ACM SIGMOD。
  6. 丽安,x和陈,l(2008),“单色和Bichromatic反向轮廓搜索overUncertain数据库”Proc, ACM SIGMOD。
  7. D.J.斯登Rosenkrantz,右眼和路易斯二世(1977),下午的几个启发式分析货郎担问题的暹罗j . 563 - 581页。
  8. 罗纳德·教唆犯,暗嫩,L和模拟Naor (2011),“Top-k查询处理”
  9. Vlachou, a . Doulkeridis c . Kotidis y和Norvag k(2010),“反向Top-k查询”Proc。IEEE 26日如相依数据中。(ICDE)
  10. Vlachou, a . Doulkeridis Nørva°g、k和Kotidis y(2009),最具影响力的数据对象的识别和快速地扭转Top-k查询的Proc。非常大的数据基本养老。
  11. Wan问:Wong R.C.-W。伊卜拉欣-,和彭,y(2009),创建CompetitivProducts Proc。BaseEndowment非常大的数据
  12. 鑫,陈d、c和汉族,j .(2006),对健壮的排名查询的索引的Proc。第32如相依超大型数据基地(VLDB 06年)。
  13. l .邹和l .陈”,主要图:一个高效的索引结构来回答Top-k查询,“Proc, IEEE国际Conf.Data Eng 24日。(ICDE ' 08),第545 - 536页,2008年。
  14. 答:玛丽安:布鲁诺,l . Gravano”评估Top-k查询web访问的数据库,“ACM反式。数据库系统,29卷,不。2、319 - 362年,2004页。
  15. b .姚明,f·李,p . Kumar“反向最远的邻居在空间数据库中,“Proc数据Eng IEEE 25日国际会议。(ICDE ' 09), 2009年。