所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

某些调查方法为高效开发发现匹配的依赖性

R.Santhya1,S.Latha1,Prof.S.Balamurugan1,S.Charanyaa2
  1. 部门,Kalaignar卡鲁纳尼迪理工学院,哥印拜陀,TamilNadu、印度
  2. 高级软件工程师大型机技术前,Larsen & Tubro (L&T)信息技术,钦奈,印度TamilNadu
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

本文详细介绍各种方法的文献有效发现匹配的依赖性。匹配的概念依赖(MDs)最近提出了目标识别用于指定匹配规则。类似条件的函数依赖,MDs也可以应用于各种数据质量检测违反完整性约束等应用程序。发现问题的相似性约束匹配依赖性考虑从一个给定的数据库实例。这个调查将推动很多研究领域的信息挖掘。

关键字

数据匿名化、匹配的依赖关系(MDs)对象,相似性约束、信息挖掘。

介绍

需要发布敏感数据在最近几年公共变得奢侈。近期已出现大幅上升,保护数据库中的数据质量社区由于大量的一个¢€•dirtyA¢€–数据源自不同。这些数据通常包含重复、矛盾和冲突,由于各种错误的男性和机器。除了成本的处理大量的数据,手动检测和删除一个¢€•dirtyA¢€–数据肯定的做法,因为人类提出清洗方法可能再次介绍不一致。因此,数据依赖关系,已广泛应用于关系数据库的设计建立完整性约束。因此保护个人隐私和保证社会networ效用数据成为一个具有挑战性和有趣的研究课题。在本文中,我们做了一个调查在匹配的依赖和可能的解决方案提出了文学和效率是一样的。

在大型数据库中挖掘关联规则集之间的物品

本文作者提出了一个高效的算法,生成数据库中的所有项中表示关联规则。作者还评论说,过去的交易数据分析的方法来增加或增加数据质量。篮子里数据是数据不包含每个产品的细节被客户购买,而不是它包含的信息购买经过一段时间特别的质量数据。购买的商品篮子数据存储的信息的基础上,每个事务。基于数据的质量增量可以做出一些决定。提高数据质量,应注意购买物品。这个数据库系统的向下流的原因是它不会给用户所需要的功能是愿意承担信息上的优势。在这篇文章中,作者介绍了开采的问题,是一个巨大的篮子的集合数据类型事务的项集之间的关联规则与最小的信心。作者将规则挖掘问题分解为两个问题
1)找到minsupport项目的组合,它上面有部分事务支持阈值。这也可以称为大项目和重置所有不满足阈值的组合表示是小的项集。
2)假设Y是大型项目集,如果itemset Y很大,那么Y的每个子集也大,因此我们使用第一个问题的结果。让C是一个信心的因素,如果比例大于C,那么规则是满意信心因子C。所有的规则来源于必须满足约束条件的支持,因为Y满足约束条件的支持。模板算法寻找大型项目集。

社区依赖预测

在本文中,作者介绍了社区依赖(ND)的概念,明确规律像¢€•有类似规模和收入的家庭,往往类似的汽车,incomeA¢€–。合理,确定这个东西将用于预测的目的。作者也实现和测试矿业NDs的算法。在P-Neighbourhood方法中,为了确定未知值,发现NDs是有用的。

数据质量的概念、方法和技术

在本文中,作者提供了一个系统的介绍数组的数据质量问题。它描述了数据质量的参数细节如准确性、完整性和一致性,信息的重要性像联邦数据类型的数据,网络数据或时间数据,不同的数据类别分类基于频率技术,从核心数据质量的研究方法,相关领域,如数据挖掘、统计数据分析和机器学习,作者总结了书比较关键的工具和实际方法解决质量问题。

数据清洗和查询回答与匹配的依赖性和匹配功能

在这篇文章中,作者说,MDs adeclarative规则提出了进行数据清洗和实体解析。质量约束也有关,这是declerative在成熟和基于精确模型理论的语义。它扮演一个主数据库与古典完整性约束。本文作者研究了他们的相同与相似的交互关系域内弯引入偏序控制的实例。它允许进行比较的基础上内容的信息和应用于一组查询的答案。同时考虑所有的概念,作者定义了类清洁实例提供的肮脏的实例。肮脏的实例的目的和容许实例执行后可以获得匹配的依赖性。追逐像用于定义轮流执行MDs的干净的实例。这个追逐的过程将提高信息内容属于统治秩序。肮脏的数据库发布清洁回答查询的概念,作为一对决定由较低和一个上界形式的信息内容查询的答案。作者还研究了单调查询的内涵对统治秩序,如何放松查询到一个单调提供额外的信息在比较原始的一个回答。引入支配单调关系查询语言使用的晶格理论结构域,作者提出一个开放的问题探索与查询数据库的连接在半序域不完全或部分信息与查询松弛的共同点和相似性关系基于关系的语言。

自适应的名字匹配的信息集成

本文作者指出,确定大约重复的数据库记录将引用同一个实体是信息集成所必需的。然后进行比较,结合作者所描述的方法,也学习文本相似性措施名称匹配。

依赖推理的可行性和性能研究

本文描述的作者推断的效用函数依赖。而需要一个工具来援助指定逻辑依赖关系的数据库设计进展的问题发生在条件自动数据库设计。本文作者的结论,对实际的例子关系的频繁的实现依赖推理函数内弯会导致可接受的响应时间。

条件函数依赖的数据清洗

本文作者提到最近satitcs说脏数据成本美国企业每年数十亿美元也是计算数据的清理,一个劳动密集和复杂的过程占30% - -80%的一个数据仓库dw项目的开发时间。这些突出的原因一定是打扫的工具automaticallydetecting和删除的数据不一致和错误的数据。本文作者介绍了差价合约和可以直接显示,差价合约语义数据基础数据清洗。为了标识不一致,违反了差价合约作者开发的基于SQL的技术。修复和一致的查询答案的两个主题主要集中在这里。修复用于查找其他数据库是一致的,悄悄地从确切的或原始数据库。

没有额外的复杂性增加差价合约的表现性

在本文中,作者提出了一个扩展的差价合约延长差价合约。在差价合约,我们不能能够检测不一致,价格上涨但eCFDs而言,它能够捕捉在实践中出现的矛盾。eCFDs指定的模式在分离和inequlity语义相关的值。定义的eCFD可以考虑一个关系模式定义在有限的一组属性和为每个属性、域来标示。批量检测算法用于发现违反eCFD。除此之外增量批量检测和等检测算法检测也发达。这两个算法会产生SQL查询发现违规行为。BATCHDETECT生成SQL查询和更新语句detectin模式约束违反。类似批量检测算法,公司检测还生成SQL查询找到违反模式约束的变化,还维护辅助关系为了重用以前的计算。本公司检测算法旨在减少不必要的重新计算进行寻找侵犯。作者还建议把我们的未来的工作发展算法消除eCFD侵犯和维修数据和找到有效的方法,发现eCFDs自动从数据样本。

延长DEPENCIES有条件

在本文中,作者介绍了一类条件包含依赖(CINDs)是传统的扩展包含依赖项(第1)和通过实施结合相关的数据值。在这篇文章中,作者表明,该CINDs不仅用于清洗数据,也包括所有的上下文模式匹配。本文的第一个贡献是对CINDs的概念。CIND被定义为一对,由印第安纳州和模式tablean tablean强制结合语义相关的数据值。
第二个贡献是关于CINDs向推理技术。在这方面,首先必须检查CINDs一致没有任何冲突。其他与CINDs是隐含的问题有关的决策问题,用来决定是否一套CINDs需要另一个CINDs。传统的含义是PSPACE-complete第1。第三个贡献是关于调查CINDs之间的交互和差价合约。如果在一起然后theconsistency CINDs和差价合约问题也是本文所示。第四个贡献包含一组算法用于检查差价合约和CINDs的一致性。
作者得出结论,可能导致CINDs连同差价合约有前途的工具清洗数据,寻找质量模式匹配。作者提出他的未来工作检查如果可以获得更好的复杂性结果考虑像acyclity CINDs添加假设。

寻找在多个抽象级别的依赖性

本文介绍了卷起依赖的概念(路德),这是一个扩展函数依赖的泛化层次结构。本文解决的问题是,对于一个给定的多个属性关系表,表中的每个属性将从指定的域值。列出的域值是泛化。问题是确定卷起依赖项areundergone高的信心。卷起的依赖(路德)是一种意义在两个广义模式相同的底层关系模式。本文作者解决RUDMINE问题发现rup的支持和信心超过某些指定的阈值。也表明,问题是np困难模式中大小,但多项式元组的数量。作者进行他的未来工作使用路德的多维数据库设计。

发现数据质量规则

本文作者认为脏数据来说,是一个严重的问题导致业务错误决策、日常运营不足,还浪费时间和金钱,脏数据域约束和业务规则内弯时将出现在需要保护的数据的一致性和准确性。
在本文中,作者提出一种新的数据驱动的工具,可以利用在一个特定的组织数据质量管理流程提出各种可能的规则和寻找适用和不适用的记录。作者关注的发现依赖上下文规则,因为数据质量规则上下文。作者提出了一种数据驱动的工具,阈值确定了差价合约在提供数据实例是有用的数据清洗和对执行语义数据不一致。一个搜索算法的近似条件规则和肮脏的找到这些规则的例外。

异构数据库的集成不常见的领域使用基于文本相似度查询

本文作者提到在许多数据库,它包含一个¢€•名称constraintsA¢€–如个人姓名、地名等前面的工作,它是假定本地内容可以对齐到一个适当的全球领域标准化的帮助下。但在某些情况下,这一假设并不成立。识别时,如果两个名字常数一样,那么它需要详细信息的世界。本文作者拒绝了全球领域的假设可以很容易地建立和替换的假设分配自然语言文本中提供的名称,而不是别人。作者提出的逻辑称为旋转原因明确的相似性测量地方名字使用向量空间模型。最近数据集成系统使用特定于域的规则规范化规范化版本的实体名称和使用这些名称作为键。
本文作者表明,旋转精度的相似性连接更好而比较手工编写集成方案基于归一化。作者提出了未来的工作来处理分布式的方式旋转。

提高数据质量

本文作者提出了一个框架,用于提高数据的质量基于差价合约。他表明,这个问题对于识别最优维修和逐步发现最优维修都是NPComplete,和启发式算法的开发问题。为了提高数据的准确性,提出了一种统计方法,保证找到一个以上的修复一个预定义的准确率高的信心。
作者提出进一步的作品作为高效清洁进行现实生活中的数据一致性的差价合约和包含依赖关系,研究了有效的方法从数据自动识别有用的差价合约和探索条件约束超出差价合约。

结论和未来的工作

本文详细的对各种方法的文献有效发现匹配的依赖性。匹配的概念依赖(MDs)最近提出了目标识别用于指定匹配规则。类似于函数依赖(有条件),MDs也可以应用于各种数据质量检测违反完整性约束等应用程序。发现问题的相似性约束匹配依赖性考虑从一个给定的数据库实例。这个调查将推动很多研究领域的信息挖掘。

引用







































































传记
R.Santhyaand S.Latha are currently pursuing their B.Tech. degree in Information Technology at KalaignarKarunanidhi Institute of Technology, Coimbatore, Tamil Nadu, India. Their areas of research interests include Network Security, Cloud Computing and Database Security.
教授。Balamurugan获得B。科技信息技术学位P.S.G.技术学院,哥印拜陀印度泰米尔纳德邦和M。安娜大学科技信息技术学位,印度泰米尔纳德邦,分别。他目前正在对他的博士学位P.S.G.学院信息技术的技术,印度泰米尔纳德邦,。目前他拥有值得称赞的65篇论文国际期刊和IEEE /爱思唯尔国际会议。他目前正在为信息技术系的助理教授,Kalaignar卡鲁纳尼迪理工学院,哥印拜陀,泰米尔纳德邦,印度安娜大学附属TamilNadu,印度。他在学校是状态等级持有人。他是大学一流M.Tech持有人。印度安娜大学学期考试Tamilnadu。他担任联合秘书协会信息技术部,PSG技术学院Tamilnadu、印度哥印拜陀。 He is the recipient of gold medal and certificate of merit for best journal publication by his host institution consecutively for 3 years. Some of his professional activities include invited Session Chair Person for two Conferences. He has guided 16 B.Tech projects and 2 M.Tech. projects. He has won a best paper award in International Conference. His areas of research interest accumulate in the areas of Data Privacy, Database Security, Object Modeling Techniques, and Cloud Computing. He is a life member of ISTE,CSI. He has authored a chapter in an International Book "Information Processing" published by I.K. International Publishing House Pvt. Ltd, New Delhi, India, 978-81-906942-4-7. He is the author of 3 books titled "Principles of Social Network Data Security", ISBN: 978-3-659-61207-7, "Principles of Scheduling in Cloud Computing" ISBN: 978-3-639-66950-3, and "Principles of Database Security", ISBN: 978-3-639-76030- 9.
年代。Charanyaa获得她的B。科技信息技术学位和她的M。科技信息技术学位安娜大学钦奈,印度泰米尔纳德邦,。她是她B.Tech金牌得主。学位项目。她有她的信贷27出版物在各种国际期刊和会议。她的一些杰出的成就在学校层面包括学校一流持有人在10和12年级。她工作Larsen &涡轮信息技术作为软件工程师在钦奈3年,她被提升为高级软件工程师工作2年。她在不同的垂直和在很多地方包括丹麦,Amsderdam处理通用的客户。 She is also the recipient of best team player award for the year 2012 by L&T. Her areas of research interest accumulate in the areas of Database Security, Privacy Preserving Database, Object Modeling Techniques, and Cloud Computing. She is the author of 3 books titled "Principles of Social Network Data Security", ISBN: 978-3-659-61207-7, "Principles of Scheduling in Cloud Computing" ISBN: 978-3-639-66950-3, and "Principles of Database Security", ISBN: 978-3-639-76030-9.
全球技术峰会