所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

进一步调查策略为高效开发发现匹配的依赖性

R.Santhya1,S.Latha2,Prof.S.Balamurugan3,S.Charanyaa4
  1. 部门,Kalaignar卡鲁纳尼迪理工学院,哥印拜陀,TamilNadu、印度1、2、3
  2. 高级软件工程师大型机技术前,Larsen & Tubro (L&T)信息技术,钦奈,印度TamilNadu4
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

本文详细介绍各种方法的文献有效发现匹配的依赖性。匹配的概念依赖(MDs)最近提出了目标识别用于指定匹配规则。类似条件的函数依赖,MDs也可以应用于各种数据质量检测违反完整性约束等应用程序。发现问题的相似性约束匹配依赖性考虑从一个给定的数据库实例。这个调查将推动很多研究领域的信息挖掘。

关键字

数据匿名化、匹配的依赖关系(MDs)对象,相似性约束、信息挖掘。

介绍

需要发布敏感数据在最近几年公共变得奢侈。近期已出现大幅上升,保护数据库中的数据质量社区由于大量的?脏?数据来源于不同的。这些数据通常包含重复、矛盾和冲突,由于各种错误的男性和机器。除了成本的处理大量的数据,手动检测和去除?脏?数据肯定生疏了,因为人类提出清洗方法可能再次介绍不一致。因此,数据依赖关系,已广泛应用于关系数据库的设计建立完整性约束。因此保护个人隐私和保证社会网络数据的效用成为一个具有挑战性和有趣的研究课题。在本文中,我们做了一个调查在匹配的依赖和可能的解决方案提出了文学和效率是一样的。

二世。发现匹配的依赖关系

对于识别滥用完整性约束和识别重复的对象,这些数据质量的应用程序已被建议作为匹配的依赖关系(MDs)。作者研究了识别数据库实例的问题。首先,他们定义的措施,支持和信心为了评估MDs的使用所提供的数据库实例。MDs的发现与特殊使用要求的支持和信心也进行了研究。最后,建议方法的效率是评价实验。

三世。微分依赖性:推理和发现

在本文中,作者提出了一种新的算法被称为微分(DDs)的依赖关系,称为微分函数指定限制不同。中各种数据的数值或文本值,不同语义的重要性是最近发现声明依赖性。DDs显示,如果两个元组属性X的距离接受与特定微分函数Y。
在这篇文章中,作者解决各种理论问题的微分依赖性。然后作者调查的问题如何发现DDs和微分键从一个数据集提供。作者展示了发现性能和DDS在各种实际应用的有效性。

四、数据依赖关系在数据空间中

本文作者共同定义依赖关系称为比较依赖(CDs)指定的限制类似属性的数据依赖关系。这个cd整体覆盖了一个巨大的语义类的依赖关系在数据库包括FDs,度量FDs, MDs。因为,dataspaces称为异构数据的验证问题是找到一个依赖是否保存在数据实例。

诉利用匹配依赖关联数据应用程序引导用户的反馈

本文作者提出了一种新的方法来管理集成的质量和用户的反馈合并实体内部应用程序消费相关公开数据。
有关开放数据缓解大量的结构化数据的发布使得建立一个全球网络数据空间。
基于域特定匹配依赖这个词叫做效用测量用于定义数据质量的空间包含多个数据集有关。
本文作者提出了一个实用程序驱动方法对于识别身份决议从用户的链接。对本文贡献如下,
1)利用匹配为合并实体的应用程序依赖消费关联数据
2)等级身份的策略解决基于近似使用预期的用户反馈的链接。
3)实验评估建议的方法在现实世界和合成数据集。
作者提出(VPI-rules)排名确定身份决议dataspace链接根据潜在的好处。作者还提出他的未来努力扩展该方法与其他类型的数据质量约束可比和顺序依赖关系。
作者说,最近有很多技术和对保存的数据挖掘算法。其中一个方法是K-anonymity应该至少k - 1 tupple。另一个大案子关于释放数据是背景知识将使数据不安全。作者还设计了算法较低的信息损失。收集信息是一个大的任务组织关注这样的事情。不同的算法和决策树,最近邻方法等。用于知识发现的限制。近年来,匿名化算法已经广泛众所周知的泛化和Bucketization和匿名化技术。泛化是一个原理,提供了安全,也会增加反向保护的水平将降低这个算法利用水平的数据存储在一个普通的名字。可以分裂属性的记录。首先,标识符用于唯一地标识属性名,安全号码等。其次,敏感属性如电话号码,邮政编码等广义。 If this is been identified by the intruder then it will result in physical and emotional problems. Thirdly, Quasi Identifier (QI) is an identifier, when this data is been released, the possibility of getting the original data is high. Some of the encryption and decryption techniques with keys can be used to prevent the data. The disclosure of data to a certain level is not a problem but beyond the boundary level will leads to proximity breach.
跨属性相关性FFD也能带来的漏洞。没有现有的算法避免基于FFD隐私攻击。作者还FFD隐私攻击和形式化定义隐私模型(d, l)——推理对抗基于FD的攻击。记录链接问题也考虑可以把准标识符与多样化的外部来源获得的信息重新发布的身份的个人数据。对记录链接问题的最早的k -匿名原则每个记录是区别至少k - 1从其他记录关于他们的气和另一个改进的原则。算法? l-diversity提出,但它也有一些敏感数据。泛化是用来实现kanonymity和l-diversity分成组。元组在同一组的广义气值是相同的,这样他们的互相问候气值。这两个原则k-anonymity ldiversity见证了建议和t-closeness一样,这些原则的(l, k)安全也解决这个对手知识没有一个认为FFD。国内作者的研究与FFD隐私发布微数据的问题与FFD敌对的了解。他们定义如下首先,FFD定义。 Based on the impact of FFDs to privacy we distinguish ?safe? FFDs that cannot able any FFD – based attack from the ?unsafe? ones that can. Second, (d,l) – inference model to defend against the FFD - based attack. Thirdly, three novel grouping strategies to group sensitive values are explained. For each strategy, they analyze the amount of information loss by tupple suppression. Fourth, the study of the impact of multiple un-safe FFDs to anonymization is defined. We define efficient anonymization algorithms for multiple un-safe FFDs and measure both time performance and information loss of anonymization algorithm empirically. Lastly they have defined them by an expensive set of experiments; their results show that the anonymization of the microdata with low information loss is found when FFDs are available. The author also extended their work as follows by only considering numerical data, extended to cover categorical data and re-model their privacy frame work accordingly. Intersection grouping (IG) strategy will produce large amount of information loss which partition the sensitive values into groups that intersect in a chain. So, they proposed two strategy disjoint grouping (DG) which partitions the sensitive values into groups that not overlap and containment grouping (CG) which partition the sensitive values into groups that follow a strict containment relationship. Only they considered here about the single FFD.
他们精心设计的多个FFDs的推理和分析,有些FFDs可以是一个代表。通过这些知识,他们开发了一个匿名化算法对多个安全FFDs和测量性能和信息损失经验的匿名化算法。应用场景包括两个阶段的数据收集和发布模型。首先,在数据收集阶段收集的数据记录的所有者的出版商。在第二阶段即出版阶段收集的数据提供给第三方服务提供商或公众的信赖这些情绪和数据所有者的知识。在自顶向下方法中,所有独特的敏感值的集合不安全的FFD被发现。然后我们估计删除元组的数量,如果它不能被进一步分为团体保持不变。否则值峰组以来,因为它减少了通过抑制信息丢失。在自底向上方法中,敏感的属性是峰分成多个组,将峰集团合并成不相交的集,直到集不能合并的帮助下进一步搞笑,DG和CG。两种方法应满足(d, l)推理。 In this paper the author studied about the privacy publishing of data that contains FFD and also formally defined the privacy model (d, l)-inference to prevent the disclosure that caused by FFDs .Finally they developed an adequate algorithm to anonymize the data with low information loss.
保护宏观数据和微观数据免受未经授权的访问是一个长期的目标数据库的安全。几种技术和机制相结合为这个问题。作者的处理限制披露规则通过隐藏一些敏感问题的频繁项集足够频繁,发现他们是最初的一步协会/修正规则或序列模式挖掘。高敏感数据是确定的低敏感数据叫什么?影响问题?。他们的问题是减少支持给定阈值的规则,称为卫生处理。本文作者解释和证明,确定一个最佳的卫生处理的数据库是np困难的。要解决这个问题的启发式方法是使用哪些项目集基于他们的支持,然后试图把他们藏在一个时尚。为了计算效率的启发式算法在另一个称为循环算法也需要开发项目将被隐藏。
作者(年代)提出了一项提议,将原始数据集转换成一些不真实的数据集,这样任何原始数据集是净能够重建一个未经授权的地方让偷一些未经授权的也偷未实现数据集的一部分,所以会有低的概率找到或相关的原始数据。在这个工作新的隐私保护方法的特性1 d3(迭代dichotomister 3)选择测试属性的基础上,详细的测试结果得到的决策树算法。这个ID3将只支持离散值属性。支持连续值属性C5.0算法将基于字段的信息提供最大信息增益。

VI。近似使用匹配的导游

在本文中,作者描述了字符串匹配问题的问题。这是一个非常重要的问题在日益增长的信息检索和计算生物学等领域。在本文的实验中计算给出了不同的算法。
字符串匹配允许错误也称为近似串匹配,主要目标是执行在一个文本字符串匹配,他们都是损坏的。
问题是发现文本的位置,允许一定数量的比赛中的错误。有的错误是发生在不同的应用程序。
在这个调查提出的近似字符串匹配,专注于在线搜索。这将解释问题及其相关性,其统计行为,历史和当前的发展和算法的核心思想和复杂性。
取决于类型的错误和问题的解决方案的范围从非完全多项式线性时间。在第一次引用我们关注问题出现在许多不同领域的这些时间我们主要集中在计算生物学的问题,信号处理和文本检索。
? N 'number字符串匹配的应用程序增加每一天。因此找到解决大多数问题的基于近似匹配字符串实例的笔迹识别,入侵检测和病毒.Image压缩、数据挖掘、光学字符识别,文件比较和屏幕更新,等等。
理解所有的应用程序开发需要的重要的概念,所以基本知识在数据结构和算法的设计与分析,基本算法和形式语言文本。摘要动态规划算法是第一个算法来解决这个问题,它是重新发现了过去,在不同的地区,该算法计算编辑距离和最近转化为一个搜索算法。这不是很有效,它是灵活的采用不同的距离函数。
下一个是基于自动化算法。这也是旧区这是最好的最坏情况时间算法和有一个时间和空间指数M和K。
第三个是基于并行的并行算法的计算机工作位。这是一个新的和活跃区。主要的思想是使用位其他算法并行化。所以的结果,这是实际的观点,将作品非常有效。该算法首先找到的元素属于其他部分,并行的工作解决问题的非确定性的自动化和并行化的工作动态规划指标这两个趋势是用于算法。
第四个算法滤波算法只是清新非常活跃。该算法过滤文本、非常快抛弃不匹配的文本区域。本文的主要目标是展示和解释现有的算法。的近似字符串匹配是一个非常活跃的领域。

七世。微分依赖推理和发现

本文作者描述了语义相似性和不同的重要性,并宣布的依赖关系在各种类型的数据,如数字或文本值,作者提出新颖的微分依赖性称为微分函数指定约束的区别。
本文首先解决微分依赖关系的几个问题包括differentialfunction包容顺序关系,意味着dds,关闭一个微分函数,一个良好的和完整的推理系统对dds和最小覆盖之后,调查的一个实际问题,因为硬度。我们开发发现效率。最后这些示范发现dds在几个应用程序的有效性。

八世。有效的高维数据集的聚类与应用程序引用匹配

在本文中,作者描述了包括聚类大型数据集的问题。在计算上是非常昂贵。集群数据库时设置的技术
吗?有限数量的集群
吗?较低的特征维数
吗?少量的数据点
本文作者提出了集群的新技术的大型高维数据集。使用廉价的基本思想,近似距离措施把数据分成子集的树冠。用于解决大型集群问题的分布不可能成为现实。使用这个的树冠输出将会更加准确。这将用于许多领域和使用各种技术贪婪凝结的集群,Kmeans等等,。这将减少计算时间。
无监督聚类应用于许多几个重要问题。执行集群的基本思想两个方面。首先将数据分成子集称为树冠,昂贵的点之间的距离测量是将发生在一个正常的树冠。快速使用粗糙相似措施形成的树冠,然后利用相似措施形成小集群获得如此之高的速度和精度。在未来的工作中,我们正在运行该算法在全套和期望减少了计算五个数量级。

第九。结论和未来的工作

本文详细的对各种方法的文献有效发现匹配的依赖性。匹配的概念依赖(MDs)最近提出了目标识别用于指定匹配规则。类似于函数依赖(有条件),MDs也可以应用于各种数据质量检测违反完整性约束等应用程序。发现问题的相似性约束匹配依赖性考虑从一个给定的数据库实例。这个调查将推动很多研究领域的信息挖掘。

引用







































































全球技术峰会