所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

详细调查策略开发有效发现匹配的依赖性

R.Santhya1,S.Latha1,Prof.S.Balamurugan1,S.Charanyaa2
  1. 部门,Kalaignar卡鲁纳尼迪理工学院,哥印拜陀,TamilNadu、印度
  2. 高级软件工程师大型机技术前,Larsen & Tubro (L&T)信息技术,钦奈,印度TamilNadu
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

本文详细介绍各种方法的文献有效发现匹配的依赖性。匹配的概念依赖(MDs)最近提出了目标识别用于指定匹配规则。类似条件的函数依赖,MDs也可以应用于各种数据质量检测违反完整性约束等应用程序。发现问题的相似性约束匹配依赖性考虑从一个给定的数据库实例。这个调查将推动很多研究领域的信息挖掘。

关键字

数据匿名化、匹配的依赖关系(MDs)对象,相似性约束、信息挖掘。

介绍

需要发布敏感数据在最近几年公共变得奢侈。近期已出现大幅上升,保护数据库中的数据质量社区由于大量的?脏?数据来源于不同的。这些数据通常包含重复、矛盾和冲突,由于各种错误的男性和机器。除了成本的处理大量的数据,手动检测和去除?脏?数据肯定生疏了,因为人类提出清洗方法可能再次介绍不一致。因此,数据依赖关系,已广泛应用于关系数据库的设计建立完整性约束。因此保护个人隐私和保证社会网络数据的效用成为一个具有挑战性和有趣的研究课题。在本文中,我们做了一个调查在匹配的依赖和可能的解决方案提出了文学和效率是一样的。

高效的发现相似性约束匹配的依赖关系

匹配的依赖关系概念是提供一定的物体识别的匹配规则。MDs工作条件函数依赖和它应用于各种应用程序识别等任何违反完整性约束。在数据库社区最受欢迎的,重要的是给数据质量,因为大量的数据?脏?各种资源的数据这些类型的脏数据包含重复、冲突、矛盾,因为人类和机制和引入的误差数据的大量手工将检测和去除的脏数据只是练习,因为人类也提出了反复清洗方法也引入了不一致。所以数据依赖关系用于关系数据库设计结构完整性约束。这将用于查找给定数据的不一致性。
发现大量的数据库实例匹配的依赖关系,如果我们设置属性的相似度阈值。传统的FD是MDs的特殊情况。MDs的门槛的设置并不是每次都有用。
信心的MDs是用于实现检测精度高,如果用户想要召回对象标识。然后MDs使用支持高所以MDs既包含支持和信心。
贡献:首先介绍了支持和信心措施对于MDs的效用评价,然后创建精确的算法用于寻找各种相似性阈值属性设置这些算法是旅行的所有数据而计算,并提出了近似的解决方案,它使用的一些数据。
使用的传统数据依赖关系模式设计。这些都是一次又一次重新审视新应用隐私保护。条件函数依赖是一个扩展的FD用于数据清理。使FDs。这将是主要的差价合约有效期为一个元组的条件。规范所有FDs的封面。由于固有的硬度发现问题。一系列的策略用来提高效率。发现的问题发现FDs不采取相似度阈值。一旦确定了X和Y属性的依赖关系比这将意味着每个属性的等式约束。所以现有的技术不提高相似度阈值的效率。
有不同的方法措施的依赖关系。在FDs的措施,它可能抓住关系实例。在最小数量关系的元组被删除实例。所以最平等的函数定义的措施FDs这些并不适用于MDs与相似性度量。
匹配的依赖关系:传统的FDs使用股票操作符=识别依赖关系,但它是不可能确定匹配的文本值在现实世界的应用程序。MDs是基于匹配质量。MDs使用匹配操作符声明符用约束的相似之处,直到如编辑距离。象征,文本值。
措施:评估匹配的依赖关系我们可以采用支持和信心,但它是不值得对FDs措施。然而上述相似性约束考虑匹配的平等的所有元组t1和t2 r .同时评估MDs的措施。预先计算出一双识破元组匹配离线并将结果存储以便重用。
MDs的相似度阈值的确定基于统计分布的问题非常新,它不同于FDs发现,X和Y的依赖性是FD,它意味着相似性阈值使用MD语法.Matching相似性阈值设置不同于FDs .Statistical分布处理的各种关系,对MDs相似性阈值是正确地发现和满足的支持和信心。
?医学博士发现匹配的依赖与最低的支持和信心,Y是什么?匹配的质量要求是什么?这两个由应用程序得到解决。初步的问题吗?
Purning策略:原算法必须旅行所有的统计分布和候选人在Ct阈值模式。给予支持和信心确定相似度阈值之间的关系,避免检查。
这个实验的结果证明了修剪和近似技术可以提高MDs的效率。统计分布将会增加时间成本,但每股收益可以通过修剪候选人降低时间成本。
两种不同MDs涵盖很多不同的依赖关系将导致生成MDs组的问题。未来的工作是更令人兴奋的MDa的应用程序被期望发现相似性约束等小说依赖性度量包含依赖、条件包含依赖和多值依赖关系。

在生成算法表条件函数依赖

在本文中作者描述画面更好的模式,基于支持、信心和吝啬。本文的问题是产生一个最佳的画面对于一个给定的FD是NP完全可以在多项式时间近似使用贪婪算法。
在表一代问题,实例是输入的关系问题和FDs不应该持有完全给定的数据和FDs知道数据在一些模式。这些模式给出的输入,我们会忽视这样的模式和假设应该首先让空表。然后我们会发现吝啬的组模式。这将给有意义的画面。
贪婪算法,设置的候选模式? P”元素,当地信心的考虑消除? P”元素和发现的模式涵盖所有可能的设置。包括至少? N元组的? R。这将产生表statisfy全球支持阈值。这些最小尺寸表将满足全球支持和当地的信心。这贪婪算法计算所有候选模式的支持和信心。
数据质量和无证语义问题在现实世界中很受欢迎。有许多工具引入了差价合约等来解决这个问题。CFD捕捉数据的语义和识别问题。完全意识到通过定义本文差价合约表模式,基于一些属性如支持、信心和吝啬,也研究最优表的自动生成的复杂性和提供的近似算法

文本加入RDBMS WEB数据集成

在本文中,作者描述了web服务的问题,数据集成挑战。有很多全球标识符是在数据库中。所以相同的实体可能代表不同的文本格式。这些相同的实体是指匹配字符串的数据集成
摘要余弦相似性度量在网络资源使用的字符串匹配。数据集成的异构网络资源是主要的重要的应用程序。这些数据是文本字符串从网上获得的来源。这些都是给出了语义和性能相关的挑战。识别这些集成的问题,一个需要匹配的多个文本描述。
吗?错误的信息
吗?缩写、不完整或丢失信息
吗?不同的信息安排?。

基于压缩的评价部分决定

在本文中,作者决定部分问题的决心和基于压缩的方法用来评估上面的问题。这被视为概括FD和关联规则。它将扩展措施用于评价的支持和信心。
部分决定是函数依赖的概括。它可以表示为X - > dY。d是数量。x的集合称为lh,称为RHS和Y。部分用于测定X - > dY和pdx - > dY。
这个计划的未来的工作是与其他策略,如遗传算法和扩展的组合搜索算法,基于新的压缩的措施用来评估部分的决心,这是用于搜索。这部分的决心是一种有用的知识发现(KDD)因为它是更具表达性的其他措施,部分决心争取民主变革运动的基础功能。这将避免过拟合的数据。

结论和未来的工作

本文详细的对各种方法的文献有效发现匹配的依赖性。匹配的概念依赖(MDs)最近提出了目标识别用于指定匹配规则。类似于函数依赖(有条件),MDs也可以应用于各种数据质量检测违反完整性约束等应用程序。发现问题的相似性约束匹配依赖性考虑从一个给定的数据库实例。这个调查将推动很多研究领域的信息挖掘。

引用







































































全球技术峰会