所有提交的EM系统将被重定向到网上投稿系统.作者被要求将文章直接提交给网上投稿系统各自的日志。

为有效发现匹配依赖项而开发的策略的进一步研究

R.Santhya1, S.Latha2, Prof.S.Balamurugan3., S.Charanyaa4
  1. 印度泰米尔纳德邦哥印拜陀,Kalaignar Karunanidhi理工学院IT系1,2,3
  2. 高级软件工程师大型机技术前,Larsen & Tubro (L&T)信息技术,金奈,泰米尔纳德邦,印度4
有关文章载于Pubmed谷歌学者

更多相关文章请访问国际计算机与通信工程创新研究杂志

摘要

本文详细介绍了文献中流行的有效发现匹配依赖项的各种方法。匹配依赖关系(MDs)的概念最近被提出用于指定对象识别的匹配规则。与条件的功能依赖类似,MDs也可以应用于各种数据质量应用程序,例如检测完整性约束的违反。考虑了从给定的数据库实例中发现匹配依赖项的相似约束的问题。这次调查将促进信息挖掘领域的大量研究。

关键字

数据匿名化,匹配依赖关系,对象,相似约束,信息挖掘。

介绍

近年来,向公众公布敏感数据的需求急剧增长。最近几天,在数据库社区中,由于大量的“脏”数据,数据质量的保存急剧上升。数据源于不同。由于人与机器的各种错误,这些数据经常包含重复、不一致和冲突。除了处理海量数据的成本,手动检测和删除“脏”?数据肯定是不实际的,因为人类提出的清洗方法可能会再次引入不一致。因此,数据依赖关系在关系数据库设计中被广泛应用,以建立完整性约束。因此,保护个人隐私和确保社交网络数据的效用也成为一个具有挑战性和有趣的研究课题。本文从匹配依赖关系和文献中提出的可能解决方案以及匹配依赖关系的有效性对攻击进行了研究。

2发现匹配依赖项

为了识别完整性约束的滥用和重复对象的识别,这些数据质量应用程序被提出作为匹配依赖项(MDs)。研究了数据库实例的识别问题。首先,他们定义了度量、支持度和置信度,以评估所提供的数据库实例中MDs的使用情况。研究了对支持度和置信度有特殊使用要求的MDs的发现问题。最后,通过实验验证了所提方法的有效性。

3差异依赖:推理和发现

在本文中,作者提出了一种新的算法,称为微分依赖(DDs),它指定了差分函数的限制。在各种类型的数据(如数值或文本值)中,最近发现了差异语义在声明依赖关系方面的重要性。DDs表示,如果两个元组在属性X上有距离,接受Y上的特定微分函数。
在这篇文章中,作者解决了微分依赖的各种理论问题。然后,作者研究了如何从提供的数据集中发现dd和差分键的问题。作者在各种实际应用中演示了DDS的发现性能和有效性。

四、数据空间中的数据依赖关系

在本文中,作者定义了称为可比依赖项(cd)的通用依赖项,它指定了数据依赖项的可比属性的约束。这个cd总体上涵盖了数据库中大量依赖项的语义,包括fd、度量fd、MDs。因为,对于数据空间中的异构数据,所谓的验证问题是寻找一个依赖项是否在一个数据实例中成立。

五、在链接数据应用程序中利用匹配依赖来引导用户反馈

在本文中,作者提出了一种新的管理集成质量和用户反馈的方法,用于在使用链接开放数据的应用程序中合并实体。
链接开放数据简化了大量结构化数据的发布,从而可以在web上创建一个全局数据空间。
基于领域特定的匹配依赖关系,称为效用度量的术语用于定义包含多个关联数据集的数据空间的质量。
在本文中,作者提出了一种实用程序驱动的方法来识别用户的身份解析链接。对本文的贡献如下:
1)在使用链接数据的应用程序中利用匹配依赖来合并实体
2)基于预期用户反馈的近似使用对身份解析链接进行排名的策略。
3)在真实世界和合成数据集上对所提出的方法进行了实验评估。
作者提出(VPI-rules)根据对数据空间的潜在好处对不确定的身份解析链接进行排序。作者还提出了他未来的工作,即将所提出的方法扩展到其他类型的数据质量约束,如可比性和顺序依赖关系。
作者说,最近有很多技术和算法用于数据挖掘的保存。其中一种方法是k-匿名,它应该至少有k-1个元组。关于发布数据的另一个主要缺点是,背景知识将使数据不安全。作者还设计了低信息损失的算法。收集信息是组织关注这些事情的一项大任务。针对知识发现的局限性,采用了决策树法、最近邻法等不同算法。近年来,匿名化算法已经为大家所熟知,其中的匿名化技术有概化和桶化。泛化是一种提供安全性并增加保护级别的原则,它将相反地降低该算法的使用水平,其中数据存储在一个公共名称中。记录中的属性可以被分割。首先,标识符,用于唯一地标识属性,如名称、安全号码等。其次,对电话号码、邮政编码等敏感属性进行了归纳; If this is been identified by the intruder then it will result in physical and emotional problems. Thirdly, Quasi Identifier (QI) is an identifier, when this data is been released, the possibility of getting the original data is high. Some of the encryption and decryption techniques with keys can be used to prevent the data. The disclosure of data to a certain level is not a problem but beyond the boundary level will leads to proximity breach.
FFD的交叉属性关联也会带来脆弱性。目前还没有针对FFD隐私攻击的算法。作者将FFD隐私攻击形式化,并定义了隐私模型(d, l) -推理来对抗基于FD的攻击。同时考虑了记录关联问题,将准标识符与从不同外部来源获得的信息结合起来,对已发布数据中的个体进行重新识别。针对记录链接问题,最早的原则k-匿名,其中每个记录与其他记录的QI至少k-1不可区分,以及另一个改进的原则。本文提出了l-分集算法,但该算法含有一些敏感数据。泛化算法用于实现组的匿名性和l-多样性。对于同一组中的元组,它们的QI值被一般化为相同,以便它们之间的QI值无法区分。这两个原则k-匿名性和l -多样性已经见证了t-接近性,(l, k)安全等提议,所有这些原则都解决了这种对手知识,没有人考虑FFD。作者研究了用FFD发布微数据的隐私问题,FFD表示为对抗性知道。首先,他们定义了FFD。 Based on the impact of FFDs to privacy we distinguish ?safe? FFDs that cannot able any FFD – based attack from the ?unsafe? ones that can. Second, (d,l) – inference model to defend against the FFD - based attack. Thirdly, three novel grouping strategies to group sensitive values are explained. For each strategy, they analyze the amount of information loss by tupple suppression. Fourth, the study of the impact of multiple un-safe FFDs to anonymization is defined. We define efficient anonymization algorithms for multiple un-safe FFDs and measure both time performance and information loss of anonymization algorithm empirically. Lastly they have defined them by an expensive set of experiments; their results show that the anonymization of the microdata with low information loss is found when FFDs are available. The author also extended their work as follows by only considering numerical data, extended to cover categorical data and re-model their privacy frame work accordingly. Intersection grouping (IG) strategy will produce large amount of information loss which partition the sensitive values into groups that intersect in a chain. So, they proposed two strategy disjoint grouping (DG) which partitions the sensitive values into groups that not overlap and containment grouping (CG) which partition the sensitive values into groups that follow a strict containment relationship. Only they considered here about the single FFD.
他们详细阐述了多个ffd的推理,并分析了一些ffd可以代表其他ffd。根据这些知识,他们开发了一种针对多个不安全ffd的匿名化算法,并对算法的匿名化性能和信息损失进行了实证测量。应用场景包括两个阶段的数据采集和发布模型。首先,在数据收集阶段,数据由发布者从记录的所有者那里收集。在第二阶段,即发布阶段,通过信任第三方服务提供商或公众,在数据所有者知情的情况下,将收集到的数据提供给他们。在自顶向下的方法中,所有唯一的敏感值都在不安全的FFD中。然后我们估计删除的元组的数量,如果它不能进一步分成组,那么它保持不变。否则,由于抑制减少了信息损失,将值分成组。在自底向上的方法中,将敏感属性分成多个组,并通过IG、DG和CG将分离出来的组组合成不相连的集,直到集无法再合并为止。这两种方法都应满足(d, l)推理。 In this paper the author studied about the privacy publishing of data that contains FFD and also formally defined the privacy model (d, l)-inference to prevent the disclosure that caused by FFDs .Finally they developed an adequate algorithm to anonymize the data with low information loss.
保护宏观数据和微观数据不受未经授权的访问一直是数据库安全的目标。结合了几种技术和机制来解决这个问题。作者通过隐藏一些足够频繁的频繁项集来解决限制披露敏感规则的问题,找到这些频繁项集是关联/修正规则或顺序模式挖掘的第一步。高敏感数据是由低敏感数据识别出来的,称为影响问题。他们的问题是在给定的阈值中减少规则的支持,这被称为消毒。在本文中,作者解释并证明了确定数据库的最佳消毒是np困难的。为了克服这个问题,使用了启发式方法,它根据支持度对项目集进行排序,然后尝试以一个接一个的方式隐藏所有项目集。为了计算启发式算法的效率,提出了一种同样需要隐藏项集的循环算法。
作者提出了一种方案,将原始数据集转换为一些不真实的数据集,任何原始数据集都可以重构一个未授权的部分,窃取一些未授权的部分,窃取一部分未实现的数据集,因此发现原始数据或与原始数据关联的概率很低。本文提出了一种新的隐私保护方法1D3(迭代二分类3),该方法根据决策树算法测试结果获得的细节来选择测试属性。这个ID3只支持离散值属性。支持连续值属性C5.0算法,该算法基于字段对信息进行分割,提供了最大的信息增益。

六、使用匹配的导览近似

在本文中,作者描述了字符串匹配问题。这是信息检索和计算生物学等新兴领域中非常重要的问题。本文给出了不同算法的实验计算结果。
允许错误的字符串匹配也称为近似字符串匹配。其主要目标是在两个字符串都已损坏的文本中执行字符串匹配。
问题是找到文本的位置,并允许在匹配中出现有限数量的错误。不同的应用程序会出现不同的错误。
在本研究中,作者提出了近似字符串匹配,并着重于在线搜索。这些将解释问题和它的相关性,它的统计行为,历史和当前的发展,以及算法和复杂性的中心思想。
该问题取决于错误的类型和解决方案的范围,从线性时间到np完全。在最初的参考文献中,我们关注的问题出现在许多不同的领域,那些时候我们主要关注的问题是计算生物学,信号处理和文本检索。
字符串匹配的应用数量每天都在增加。因此基于近似匹配字符串来解决大多数问题,例如手写识别,入侵检测和病毒,图像压缩,数据挖掘,光学字符识别,文件比较和屏幕更新等等。
要理解所有应用程序的开发,就必须有数据结构和算法设计与分析的基本知识,基本的文本算法和形式语言。本文提出的动态规划算法是解决这一问题的第一个算法,该算法在过去被重新发现,在不同的区域,该算法计算编辑距离,后来被转换为搜索算法,这种算法效率不高,采用不同的距离函数是一种灵活的算法。
其次是基于自动化的算法。这也是老领域这是最佳最坏情况时间算法在M和K上有一个时间和空间指数。
第三种是位并行算法,它基于计算机在处理位时的并行性。这是一个新的、活跃的领域。其主要思想是使用比特使其他算法并行化。该算法首先找出属于其他部分的元素,并行性是解决问题的非确定性自动化的工作,并行性是动态规划度量的工作,这两种趋势在该算法中得到了应用。
第四种算法是过滤算法,简单新鲜,很活跃。该算法对文本进行过滤,快速丢弃不匹配的文本区域。本文的主要目的是介绍和解释现有算法的思想。近似字符串匹配是一个非常活跃的领域。

7差异依赖推理和发现

在本文中,作者描述了相似和不相似等语义的重要性,并声明了不同类型数据(如数值或文本值)之间的依赖关系。作者提出了新的微分依赖关系,指定了对差异的约束,称为微分函数。
本文首先讨论了微分函数的包容序关系、微分函数的蕴涵、微分函数的闭包、健全完备的推理系统和微分函数的最小覆盖等微分依赖关系的几个问题,然后研究了一个由于困难而存在的实际问题。我们提高了发现效率。最后通过实例验证了dds在几种应用中的有效性。

8高维数据集的高效聚类与引用匹配

在本文中,作者描述了这个问题涉及到大数据集的聚类。这在计算上非常昂贵。当数据库集有任何一种情况时的集群技术
?有限数量的集群
?低特征维数
?少量的数据点
本文提出了一种新的大型高维数据集聚类技术。基本的想法是使用一种廉价的近似距离测量方法,将数据划分为我们称之为冠层的子集。用冠层来解决不可能实现的大型聚类问题。使用这个遮罩输出会更准确。这将用于许多领域,并使用各种技术贪婪凝聚聚类,Kmeans等。这将减少计算时间。
无监督聚类应用于许多重要问题。以两种方式执行集群的基本思想。首先将数据划分为称为冠层的子集,昂贵的距离测量是在正常冠层中发生的点之间进行的。利用粗糙相似度量快速形成冠层,然后利用相似度量形成较小的聚类,从而获得了较高的速度和精度。在未来的工作中,我们将在全集上运行该算法,并期望将计算量减少5个数量级。

9结论及未来工作

本文详细介绍了文献中流行的各种有效发现匹配依赖项的方法。匹配依赖关系(MDs)的概念最近被提出用于指定对象识别的匹配规则。与功能依赖关系(带条件)类似,MDs也可以应用于各种数据质量应用程序,例如检测完整性约束的违反。考虑了从给定的数据库实例中发现匹配依赖项的相似约束的问题。这次调查将促进信息挖掘领域的大量研究。

参考文献







































































全球科技峰会