在线刊号(2320-9801)印刷刊号(2320-9798)
R.Santhya1, S.Latha2, Prof.S.Balamurugan3., S.Charanyaa4
|
有关文章载于Pubmed,谷歌学者 |
更多相关文章请访问国际计算机与通信工程创新研究杂志
本文详细介绍了文献中流行的有效发现匹配依赖项的各种方法。匹配依赖关系(MDs)的概念最近被提出用于指定对象识别的匹配规则。与条件的功能依赖类似,MDs也可以应用于各种数据质量应用程序,例如检测完整性约束的违反。考虑了从给定的数据库实例中发现匹配依赖项的相似约束的问题。这次调查将促进信息挖掘领域的大量研究。
关键字 |
数据匿名化,匹配依赖关系,对象,相似约束,信息挖掘。 |
介绍 |
近年来,向公众公布敏感数据的需求急剧增长。最近几天,由于大量的âÂ′ dirtyâÂ′Â数据起源于不同的数据库社区,数据质量的保存急剧上升。由于人与机器的各种错误,这些数据经常包含重复、不一致和冲突。除了处理大量数据的成本外,人工检测和删除âÂ′ dirtyâÂ′Â数据肯定是不现实的,因为人工提出的清理方法可能会再次引入不一致。因此,数据依赖关系在关系数据库设计中被广泛应用,以建立完整性约束。因此,保护个人隐私和确保社交网络数据的效用也成为一个具有挑战性和有趣的研究课题。本文从匹配依赖关系和文献中提出的可能解决方案以及匹配依赖关系的有效性对攻击进行了研究。 |
2函数依赖关系的近似推断 |
在本文中,作者描述了FD推理问题。FD推论问题指出,在这个给定的关系中âÂ′Â′找到FD的集合,并且它等价于r中所有FD的集合。因此,采用近似依赖推理来测量关系中的误差。如果依赖项成立,这些错误值为0,如果依赖项不成立,这些错误值为1。 |
在数据库设计过程中,完整性约束条件定义了允许的数据库状态。这些依赖关系存在于好几类依赖关系中,所以函数依赖关系是该类关系中最重要的一类。本文只考虑了FD,称其为依赖关系。 |
本文考虑了另一种近似依赖推理。这里的结果不需要精确。这篇论文包含了两种不同类型的结果。推导给定关系中函数依赖关系的问题ÃⅱÂ′Â 1 r′.首先展示了依赖关系的三种度量。其次演示了输出多项式算法的任意精度。其中包含了保持给定关系的FD集合。结果表明,在依赖推理问题中,近似技术可以取得良好的结果。 |
3度量函数依赖关系 |
在论文中,作者描述了在合并来自不同来源的数据时的度量函数依赖问题,然后将在数据格式上有一个小的差异。这将导致传统的fd被违反,没有任何语义 |
fd定义属性之间的功能关系。在FD中,键关系是非常特殊的一类FD,它们将在处理设计时提供数据库规范化。条件函数依赖和近似可能不能给出准确的结果,同时缺乏固有的鲁棒性。为了克服这些问题,引入了mfd来捕捉数据中的微小变化。 |
本文给出了在一般度量和欧几里得距离空间中验证mfd的精确算法。 |
Dom(x)是一个属性的域,其中x是属性的序列x =A1,A2......Ak,那么Dom(x) = Dom(A1) * Dom(A2) *.....* dom (Ak)。 |
本文研究的是数据失效和错误的鲁棒性问题。所以我们引入度量FD。计算结果合理、逼真。 |
四、关系数据库中函数和函数依赖关系的发现 |
本文在划分数学理论的基础上,研究了在给定关系数据库中近似函数依赖的基本、有效方法,利用分层算法可以找到最小的非平凡函数依赖。FD定义了关系中数据库属性之间的关系。它指出属性值是由其他一些属性值唯一标识的 |
本文提出了一种新的发现函数依赖和近似函数依赖的算法方法。该方法基于对关系中的行标识号进行划分,并进行广度优先或级别搜索,从而有效地评估分区和依赖关系 |
五、有效利用数据语义,提高数据质量 |
在本文中,作者阐述了数据质量问题。这是近年来日益严重的问题。的发现许多¢数据qualityA¢或一个¢数据misinterpretationA¢问题即数据语义的问题考虑。提出了用于知识存储和知识处理的COIN(contetext and INterchange)技术。 |
COIN是一种基于知识的中介技术,可以有效地利用异构数据库。此COIN不仅用于中介,还用于包装技术和中间件服务。包装是物理和逻辑网关,通过网络提供对不同源的统一访问。 |
本文提出了理解持有产权问题的框架,利用COIN技术对捕获知识进行存储和应用,未来的工作是收集数据并确定公司持有产权知识的类型。其次,探讨了企业产权知识的获取、存储、维护和应用的COIN技术。 |
六、自动发现相关性和软函数依赖性 |
本文介绍了一种有效的列间关联自动发现和软FD工具。通过候选对搜索可能存在有用依赖关系的列,通过灵活的启发式集合对无希望的候选进行剪枝。cord可以用作数据挖掘工具,生成依赖关系图,因此我们主要关注在查询优化中的使用。这种方法相对容易实现。cord可以与查询反馈系统(如LEO学习优化等)一起使用。 |
7使用分区有效地发现函数和近似依赖关系 |
在本文中,作者提出了一种基于对行集的属性值进行划分来查找函数依赖项的新方法。这些分区使得非常简单和高效,行很容易被识别。实验结果表明,该算法在实际应用中是有效的。运行时间比之前发布的结果提高了几个数量级。这些也适用于更大的数据库。 |
8一种发现函数和近似依赖关系的有效算法 |
在本文中,作者定义了函数依赖性的发现。它是一种重要的数据库分析技术,是一种从大型数据库中查找函数依赖关系的有效算法。Tane是基于行划分的,这将使FD的有效性。这种分区将使FD的发现更加容易和有效。对于基准数据库,运行时间比前一篇论文提高了几个数量级。因此,该算法也适用于大型数据集。 |
9一种从关系推断函数依赖关系的算法 |
在本文中,作者描述了依赖推理问题。它用于查找将保存在给定数据库关系中的FD集。这个问题是指数级的,在属性的数量和数据库的应用设计上,在查询优化上,在人工智能上,所以我们开发了两个算法,一个是减少计算超图的横断面的问题。另一种是基于属性集关系的反复排序。 |
十、结论和未来工作 |
本文详细介绍了文献中流行的各种有效发现匹配依赖项的方法。匹配依赖关系(MDs)的概念最近被提出用于指定对象识别的匹配规则。与功能依赖关系(带条件)类似,MDs也可以应用于各种数据质量应用程序,例如检测完整性约束的违反。考虑了从给定的数据库实例中发现匹配依赖项的相似约束的问题。这次调查将促进信息挖掘领域的大量研究。 |
参考文献 |
|