关键字 |
映射算法,减少Inceremental算法,水平和垂直分区,分布式数据,弹性计算云(EC2)。 |
介绍 |
现实生活中的数据往往是肮脏的。清理数据,高效的算法来检测错误必须到位。错误的数据通常发现违反约束(数据质量规则),如函数依赖(FDs),否认约束和条件函数依赖(差价合约)。当数据是在一个集中的数据库,众所周知,两个SQL查询足以检测其违反的差价合约。它也愈发常见数据分区垂直或水平,并分布在不同的网站。这是最近的兴趣所反映出的SaaS和云计算,MapReduce和柱状DBMS。在分布式环境中,然而,它是更难检测数据中的错误。 |
在现有的模型中,没有条件函数依赖和分布式数据错误检测。SQL查询用于检测其违反差价合约。只适用于集中式数据库,不能用于分布式数据库。各种问题发生违反检测和索引技术。 |
启发式算法 |
通常这些算法,找到一个解决方案接近最好的和他们发现它快速和容易。有时这些算法可以准确的,这是他们能找到最好的解决方案,但该算法仍叫做启发式直到这个最佳解决方案被证明是最好的。启发式算法的方法是一种已知的方法,如贪吃,但为了容易和快速算法忽略了甚至会抑制问题的一些要求。 |
散列算法(MD5) |
MD5消息摘要算法是一种广泛使用的加密哈希函数产生一个128位的散列值(16字节),通常用文本格式表示作为一个32位的十六进制数。MD5一直在利用各种各样的加密应用程序中,也常用来验证数据的完整性。 |
MD5是由Ron Rivest设计在1991年取代更早的哈希函数,MD4。RFC 1321中源代码包含一个“归因”RSA许可证。 |
1996年,一个缺陷被发现在MD5的设计。而不认为是一个致命的弱点,密码器开始推荐使用其他算法,如SHA-1-which已经被发现是脆弱的。在2004年,它被发现,MD5不耐碰撞。因此,MD5不适合应用SSL证书或数字签名依赖数字安全这个属性。同样在2004年更严重的缺陷被发现在MD5,进一步利用安全目的的算法问题;具体地说,一个研究小组描述了如何创建两个文件共享相同的MD5校验和。进一步发展在2005年打破MD5, 2006和2007。2008年12月,一群研究人员使用这种技术来假的SSL证书有效性,卡耐基-梅隆软件工程研究所说,现在MD5”应考虑密码地打破,不适合进一步使用”,现在大多数美国政府应用程序需要SHA - 2家人的哈希函数。 |
地图减少算法 |
MapReduce是一个软件框架,它允许开发人员编写程序并行处理大量的非结构化数据跨分布式集群的处理器或独立的计算机。MapReduce是一个软件框架,它允许开发人员编写程序并行处理大量的非结构化数据跨分布式集群的处理器或独立的计算机。它是在谷歌索引网页开发,并在2004年取代了原来的索引算法和启发式。 |
该框架分为两个部分: |
•地图,一个函数,它包裹工作不同的分布式集群中的节点。 |
•减少,另一个函数,整理工作和解决结果到一个值。 |
•MapReduce框架是容错,因为集群中的每个节点将定期报告完成的工作和状态更新。如果一个节点保持沉默比预期的时间间隔长,主节点使得其他节点注意和重新分配工作。 |
增量式算法 |
增量更新算法解决问题的增量变化后对其输入。增量算法,应用程序的初始运行是由一个算法执行所需的从头计算和增量算法在随后的运行(我)使用信息从先前的计算和(2)反映了网络上的更新,同时避免re-computations尽可能多。计算之间的中心地位取决于网络中最短路径的数量和这些路径的中间节点。网络更新优势插入或边缘等成本下降可能导致创建新的网络中最短路径。然而,仍有相当一部分的年长的路径可能会保持不变,尤其是在不受影响的部分网络。因此,准确的维修数量的最短路径和最短路径上的前辈将满足准确地更新的值之间的动态网络更新。这是关键的观察我们做出我们的增量中间性中心的设计算法。 |
特设网络(manet)由移动节点的集合不受到任何基础设施的限制。节点在MANET可以相互通信,可以移动任何地方没有限制。这未限制流动性和容易部署马奈的特点使他们非常受欢迎和高度适用于突发事件、自然灾害和军事行动。 |
马奈的节点电池能量有限,这些电池不能更换或充电在复杂的场景。延长或最大化网络生命周期应该使用这些电池效率。每个节点的能耗变化根据其通信状态:传输、接收、听力或睡眠模式。研究人员和行业都是致力于机制延长节点的电池的寿命。但是路由算法中扮演一个重要的角色在提高能源效率,因为路由算法将决定哪个节点被选中进行交流沟通。 |
节能算法的主要目的是最大化网络生命周期。这些算法不仅是相关路线的能源消费总量最大化,也最大化网络中每个节点的寿命提高网络生命周期。节能算法可以基于两个指标:1)最小化总传输能量2)最大化网络的生命周期。第一个指标侧重于总传输能量用于发送数据包从源到目的地通过选择大量的啤酒花标准。第二个指标侧重于整个网络的剩余面糊能级或单个节点的电池能量[1]。 |
文献调查 |
在算法计算证实算法(的消息)的数量限制。与真实网络流量数据集实验结果证明我们的技术可以减少消息通信开销高达70%相比,现有的数据distribution-agnostic方法。[1]增量算法在垂直分区,以减少数据装运。实验验证,使用真实数据在Amazon Elastic Compute Cloud (EC2),我们的算法明显优于批同行。[2] |
计算最优的计划证明是np难的总体评价。最后,我们目前的实现算法,以及实验,说明他们的潜力不仅对探索性查询的优化,而且对大批量的多查询优化标准查询。[3] |
随着实验,说明他们的潜力不仅对探索性查询的优化,而且对大批量的多查询优化标准查询。[4] |
地址的问题,找到有效的完成本地测试的一个重要类约束,在实践中是非常普遍的:约束可榨出的连接查询与否定的子目标。约束的谓词远程关系不发生不止一次,我们现在完成本地测试插入和删除下当地的关系。这些测试可以表示为安全,没有递归数据日志查询当地的关系。这些结果也适用于其他与否定不连接的约束。[5] |
MapReduce编程模型和一个关联的实现进行处理并生成大型数据集,适合各种各样的现实任务。用户指定计算的map和reduce函数,和底层运行时系统自动对机器的跨大规模集群计算,处理机器故障,和时间表跨机器通信有效利用网络和磁盘。程序员找到系统易于使用:超过一万个不同的MapReduce程序内部实现了谷歌在过去的四年里,平均十万MapReduce工作每一天,谷歌的集群上执行处理共有20多个宠物每天字节的数据。[6]在类关系数据库的完整性约束,称为条件函数依赖(差价合约),并研究他们的应用程序在数据清洗。相比传统的功能依赖关系(FDs),主要用于开发模式设计,差价合约瞄准捕获数据的一致性语义相关的执行绑定值。我们研究静态分析的差价合约的一致性问题确定,是否存在一个非空的数据库,满足给定的差价合约和含义的问题,来决定是否需要一套差价合约CFD。 |
我们表明,在任何一组过渡FDs是非常一致的,一致性问题是np完全的差价合约,但这是在PTIME数据库模式是预定义的或没有属性有一个有限的领域参与了差价合约。差价合约的影响分析,我们提供一个推理系统类似于对FDs阿姆斯特朗的公理,并证明相反的含义问题是coNP-complete差价合约他们传统的线性时间复杂度。我们还提出了一个计算算法的最小覆盖一组差价合约。 |
允许数据绑定,因为差价合约可能身体大,在某些情况下差价合约复杂约束违反的检测。违反我们开发的技术检测CFD在SQL以及小说的技术检查多个约束的一个查询。我们还提供增量的方法以应对检查差价合约修改数据库。我们通过实验验证我们CFD-based不一致性检测方法的有效性。这项工作不仅收益率差价合约的约束理论,也是一个一步一个实用的基于约束的方法改善数据质量[7]。 |
自上而下加入枚举算法是最优的连接图。我们提出性能结果表明最优的组合枚举等搜索策略和收益算法更快比以前文献中描述。虽然我们的算法,列举了自顶向下的搜索空间,它不依赖于转换,从而保留了传统动态规划的体系结构。因此,这项工作提供了一个现有的自底向上的迁移路径优化器利用由上而下的搜索没有彻底改变范式转换。[8] |
该方法 |
货物在我们建议的系统中,为了减少数据,例如,计数器指针基本关系和标签。虽然这些可以纳入我们的解决方案,他们不屈服的/最优增量探测算法。也有大量的工作在分布式数据查询处理和多查询优化。前者通常旨在生成分布式查询计划,以减少数据装运或响应时间和错误扣除。 |
该方法的描述: |
我们的方法所涉及的步骤如下: |
步骤1:数据碎片 |
关系R D模式,划分为若干个片段,垂直方向或水平方向振动。在某些应用程序一个想分区D (D1,。。。,Dn)水平分区和在某些情况下它可能是垂直的。这个过程主要是由于降低沟通成本。 |
步骤2:CFD违规检测 |
一个算法检测垂直和水平分区违反差价合约。利用索引结构,增量算法用于检测违反在垂直分区。起初,它认为一个更新一个CFD。然后将算法扩展到多个差价合约和批量更新。 |
步骤3:分区优化 |
减少数据装运错误检测在垂直分区。这个想法是为了识别和最大需求,当多个股票指数之间的差价合约差价合约货物相同的元组,只发送数据的一个副本。构建最优指标的问题是np完全,但提供了一个有效的启发式算法。它还提供了一个增量水平分区的检测算法。该算法也是最优的,至于它的垂直。一个元组可能大。降低其运输成本,一个自然的想法是整个元组进行编码,然后将编码的元组而不是元组。 |
在这个上面图中显示的总体体系结构的分布式数据。MD5(消息摘要算法5)是一种广泛使用的加密哈希函数和一个128位的哈希值。我们在我们的实现中使用MD5进一步降低沟通成本,通过发送一个128 - bitmd5代码而不是一个完整的元组。 |
结论 |
对分布式数据增量CFD违规检测,从算法的复杂度。我们已经表明,问题是np完全但是是有界的。我们也开发了最优增量违反检测算法对数据分区的垂直或水平,以及优化方法。我们的实验结果证实这些产生一个有前途的解决方案在分布式数据捕获错误。有自然更要做。首先,我们正在尝试真实数据集从不同的应用程序,发现当增量检测是最有效的。其次,我们还打算扩展算法的数据分区的垂直和水平。第三,我们计划开发增量违反MapReduce算法检测。第四,我们将我们的方法扩展到支持约束的定义相似谓词匹配(例如,依赖性的记录匹配)超越平等比较,基于散列的指标可能不工作,需要探索更健壮的索引技术。第五,再次使用Hadoop Map减少压缩数据在云中。 |
数据乍一看 |
|
|
图1 |
图2 |
|
引用 |
- s . Agrawal s . Deb和r . Rastogi k . v . m . Naidu“高效的分布式约束违反,检测”Proc。ICDE2007年,伊斯坦布尔,土耳其,。
- j·贝利,g .盾、m . Mohania和x。王,“增量视图维护的基础关系标记在分布式数据库中,“Distrib。Parall。数据库》第六卷,没有。3,第309 - 287页,1998年7月。
- l . f . Mackert和g·m·洛曼,”R *为分布式查询优化器验证和性能评估,”Proc。VLDB1986年日本京都。
- Kementsietsidis f .乃文,d . Craen, s . Vansummeren”在联邦scientificdatabases探索性查询的可伸缩的多查询优化,”Proc。VLDB2008年,奥克兰,新西兰。
- n . Huyn“维护全球分布式数据库完整性约束,”约束,卷2,不。¾,377 - 399年,1997页。
- J。迪恩和美国格玛沃特,”MapReduce:简化数据处理大型集群”Proc。OSDI,2004年。
- w .粉丝,f .基尔特•贾x, a . Kementsietsidis”捕捉数据不一致性条件函数依赖,”ACM反式。数据库系统。,33卷,不。2、第六条,2008年6月。
- d . DeHaan和f·w·Tompa“最佳自上而下加入枚举,”Proc。ACM SIGMOD美国,纽约,纽约,2007年。
|