所有提交的EM系统将被重定向到网上投稿系统.作者被要求将文章直接提交给网上投稿系统各自的日志。

为有效发现依赖关系而开发的策略:最先进的调查

R.Santhya1, S.Latha2, Prof.S.Balamurugan3., S.Charanyaa4
  1. 印度泰米尔纳德邦哥印拜陀,Kalaignar Karunanidhi理工学院IT系
  2. 印度泰米尔纳德邦哥印拜陀,Kalaignar Karunanidhi理工学院IT系
  3. 印度泰米尔纳德邦哥印拜陀,Kalaignar Karunanidhi理工学院IT系
  4. 高级软件工程师大型机技术前,Larsen & Tubro (L&T)信息技术,金奈,泰米尔纳德邦,印度
有关文章载于Pubmed,谷歌学者

更多相关文章请访问国际计算机与通信工程创新研究杂志

摘要

本文详细介绍了文献中流行的有效发现匹配依赖项的各种方法。匹配依赖关系(MDs)的概念最近被提出用于指定对象识别的匹配规则。与条件的功能依赖类似,MDs也可以应用于各种数据质量应用程序,例如检测完整性约束的违反。考虑了从给定的数据库实例中发现匹配依赖项的相似约束的问题。这次调查将促进信息挖掘领域的大量研究。

关键字

数据匿名化,匹配依赖关系,对象,相似约束,信息挖掘。

介绍

近年来,向公众公布敏感数据的需求急剧增长。最近几天,由于大量的âÂ′ dirtyâÂ′Â数据起源于不同的数据库社区,数据质量的保存急剧上升。由于人与机器的各种错误,这些数据经常包含重复、不一致和冲突。除了处理大量数据的成本外,人工检测和删除âÂ′ dirtyâÂ′Â数据肯定是不现实的,因为人工提出的清理方法可能会再次引入不一致。因此,数据依赖关系在关系数据库设计中被广泛应用,以建立完整性约束。因此,保护个人隐私和确保社交网络数据的效用也成为一个具有挑战性和有趣的研究课题。本文从匹配依赖关系和文献中提出的可能解决方案以及匹配依赖关系的有效性对攻击进行了研究。

2函数依赖关系的近似推断

在本文中,作者描述了FD推理问题。FD推论问题指出,在这个给定的关系中âÂ′Â′找到FD的集合,并且它等价于r中所有FD的集合。因此,采用近似依赖推理来测量关系中的误差。如果依赖项成立,这些错误值为0,如果依赖项不成立,这些错误值为1。
在数据库设计过程中,完整性约束条件定义了允许的数据库状态。这些依赖关系存在于好几类依赖关系中,所以函数依赖关系是该类关系中最重要的一类。本文只考虑了FD,称其为依赖关系。
本文考虑了另一种近似依赖推理。这里的结果不需要精确。这篇论文包含了两种不同类型的结果。推导给定关系中函数依赖关系的问题ÃⅱÂ′Â 1 r′.首先展示了依赖关系的三种度量。其次演示了输出多项式算法的任意精度。其中包含了保持给定关系的FD集合。结果表明,在依赖推理问题中,近似技术可以取得良好的结果。

3度量函数依赖关系

在论文中,作者描述了在合并来自不同来源的数据时的度量函数依赖问题,然后将在数据格式上有一个小的差异。这将导致传统的fd被违反,没有任何语义
fd定义属性之间的功能关系。在FD中,键关系是非常特殊的一类FD,它们将在处理设计时提供数据库规范化。条件函数依赖和近似可能不能给出准确的结果,同时缺乏固有的鲁棒性。为了克服这些问题,引入了mfd来捕捉数据中的微小变化。
本文给出了在一般度量和欧几里得距离空间中验证mfd的精确算法。
Dom(x)是一个属性的域,其中x是属性的序列x =A1,A2......Ak,那么Dom(x) = Dom(A1) * Dom(A2) *.....* dom (Ak)。
本文研究的是数据失效和错误的鲁棒性问题。所以我们引入度量FD。计算结果合理、逼真。

四、关系数据库中函数和函数依赖关系的发现

本文在划分数学理论的基础上,研究了在给定关系数据库中近似函数依赖的基本、有效方法,利用分层算法可以找到最小的非平凡函数依赖。FD定义了关系中数据库属性之间的关系。它指出属性值是由其他一些属性值唯一标识的
本文提出了一种新的发现函数依赖和近似函数依赖的算法方法。该方法基于对关系中的行标识号进行划分,并进行广度优先或级别搜索,从而有效地评估分区和依赖关系

五、有效利用数据语义,提高数据质量

在本文中,作者阐述了数据质量问题。这是近年来日益严重的问题。的发现许多¢€•数据qualityA¢€–或一个¢€•数据misinterpretationA¢€–问题即数据语义的问题考虑。提出了用于知识存储和知识处理的COIN(contetext and INterchange)技术。
COIN是一种基于知识的中介技术,可以有效地利用异构数据库。此COIN不仅用于中介,还用于包装技术和中间件服务。包装是物理和逻辑网关,通过网络提供对不同源的统一访问。
本文提出了理解持有产权问题的框架,利用COIN技术对捕获知识进行存储和应用,未来的工作是收集数据并确定公司持有产权知识的类型。其次,探讨了企业产权知识的获取、存储、维护和应用的COIN技术。

六、自动发现相关性和软函数依赖性

本文介绍了一种有效的列间关联自动发现和软FD工具。通过候选对搜索可能存在有用依赖关系的列,通过灵活的启发式集合对无希望的候选进行剪枝。cord可以用作数据挖掘工具,生成依赖关系图,因此我们主要关注在查询优化中的使用。这种方法相对容易实现。cord可以与查询反馈系统(如LEO学习优化等)一起使用。

7使用分区有效地发现函数和近似依赖关系

在本文中,作者提出了一种基于对行集的属性值进行划分来查找函数依赖项的新方法。这些分区使得非常简单和高效,行很容易被识别。实验结果表明,该算法在实际应用中是有效的。运行时间比之前发布的结果提高了几个数量级。这些也适用于更大的数据库。

8一种发现函数和近似依赖关系的有效算法

在本文中,作者定义了函数依赖性的发现。它是一种重要的数据库分析技术,是一种从大型数据库中查找函数依赖关系的有效算法。Tane是基于行划分的,这将使FD的有效性。这种分区将使FD的发现更加容易和有效。对于基准数据库,运行时间比前一篇论文提高了几个数量级。因此,该算法也适用于大型数据集。

9一种从关系推断函数依赖关系的算法

在本文中,作者描述了依赖推理问题。它用于查找将保存在给定数据库关系中的FD集。这个问题是指数级的,在属性的数量和数据库的应用设计上,在查询优化上,在人工智能上,所以我们开发了两个算法,一个是减少计算超图的横断面的问题。另一种是基于属性集关系的反复排序。

十、结论和未来工作

本文详细介绍了文献中流行的各种有效发现匹配依赖项的方法。匹配依赖关系(MDs)的概念最近被提出用于指定对象识别的匹配规则。与功能依赖关系(带条件)类似,MDs也可以应用于各种数据质量应用程序,例如检测完整性约束的违反。考虑了从给定的数据库实例中发现匹配依赖项的相似约束的问题。这次调查将促进信息挖掘领域的大量研究。

参考文献

  1. 宋绍旭,陈磊,“基于相似约束的匹配依赖项的高效发现”,数据与知识工程,2013。
  2. S. Abiteboul, R. Hull, V. Vianu,数据库基础,Addison-Wesley, 1995。
  3. R. Agrawal, T. Imielinski, A.N. Swami,大型数据库中项目集之间的关联规则挖掘,SIGMOD会议,1993,第207-216页。
  4. R. Bassée, J. Wijsen,邻域依赖预测,PAKDD, 2001,第562-567页。C. Batini, M. Scannapieco,数据质量:概念、方法和技术,以数据为中心的系统和应用,施普林格,2006。
  5. L.E. Bertossi, S. Kolahi, L.V.S. Lakshmanan,基于匹配依赖和匹配函数的数据清洗和查询应答,ICDT, 2011, pp. 268-279。
  6. M. Bilenko, R.J. Mooney, W.W. Cohen, P. Ravikumar, S.E. Fienberg,信息集成中的自适应名称匹配,IEEE智能系统18(5)(2003)16-23。
  7. 杜德华,刘志刚,依赖推理的可行性和性能研究,中文信息学报,1989,pp. 635-641。
  8. 范伟,范伟杰,贾晓霞,基于条件函数依赖的数据清理方法,计算机工程学报,2007,pp. 746-755。
  9. L. Bravo, W. Fan, F. Geerts, S. Ma,在不增加额外复杂性的情况下增加条件函数依赖的表达性,ICDE, 2008, pp. 516-525。
  10. 范文伟,马世峰,陈建民,《条件依赖关系的扩展》,《计算机工程》,2007,第2期。
  11. T. Calders, R.T. Ng, J. Wijsen,在多个抽象级别上搜索依赖关系,ACM数据库系统学报27(3)(2002)229-260。
  12. 蒋志强,刘志强,《数据质量规则的发现》,计算机科学进展(1)(2008)1166-1177。
  13. W.W. Cohen,基于文本相似性查询的无公共域异构数据库集成,SIGMOD会议,1998,pp. 201-212。丛国强,范文伟,贾晓霞,马生,数据质量的一致性与准确性,计算机工程,2007,pp. 315-326。
  14. A.K. Elmagarmid, P.G. Ipeirotis, V.S. Verykios,重复记录检测:调查,IEEE知识与数据工程学报19(1)(2007)1 - 16。
  15. 范伟,《数据质量的相关性研究》,《计算机科学》,2008,第159-170页。
  16. 范文文,贾晓霞,李建军,马胜,记录匹配的动态约束,VLDB学报(2010)1-26。
  17. 范文伟,熊明明,条件函数依赖的发现,计算机工程学报,2009,pp. 1231-1234。
  18. 范文文,李建军,贾晓霞,马世生,记录匹配规则的推理,计算机工程,2009。
  19. 范伟,李建军,唐楠,于伟,记录匹配与数据修复的交互作用,计算机工程学报,2011,pp. 469-480。
  20. 范文伟,胡玉玉,刘建军,吴玉玉,带条件的传播函数依赖,物理学报1(1)(2008)391-407。
  21. P.A. Flach, I. Savnik,数据库依赖发现:机器学习方法,人工智能通信12(3)(1999)139-160。
  22. J. Gardezi, L.E. Bertossi, I. Kiringa,匹配任意属性值的依赖关系:语义、查询应答和完整性约束,LID, 2011, pp. 23-30。
  23. C. Giannella, E.L. Robertson,关于函数依赖的近似度量,信息系统29(6)(2004)483-507。
  24. L. Golab, H.J. Karloff, F. Korn, A. Saha, D. Srivastava,顺序依赖,ppvdb 2(1)(2009) 574-585。
  25. L. Golab, H.J. Karloff, F. Korn, D. Srivastava, B. Yu,关于生成条件函数依赖的近最优场景,PVLDB 1(1)(2008) 376-390。
  26. L. Gravano, P.G. Ipeirotis, N. Koudas, D. Srivastava,文本加入rdbms用于web数据集成,WWW, 2003,第90-101页。
  27. Y. Huhtala, J. Kärkkäinen, P. Porkka, H. Toivonen,使用分区有效地发现函数和近似依赖,ICDE, 1998, pp. 392-401。
  28. Y. Huhtala, J. Kärkkäinen, P. Porkka, H. Toivonen, Tane:发现函数和近似依赖的有效算法,计算机
  29. I.F. Ilyas, V. Markl, P.J. Haas, P. Brown, A. Aboulnaga,绳:相关性和软函数依赖的自动发现,SIGMOD会议,2004,pp. 647-658。
  30. R.S. King, J.J. Legendre,关系数据库中函数和近似函数依赖的发现,JAMDS 7(1)(2003) 49-59。
  31. J. Kivinen, H. Mannila,函数依赖关系的近似推断,理论计算机科学149(1)(1995)129 - 149。
  32. N. Koudas, A. Saha, D. Srivastava, S. Venkatasubramanian,度量函数依赖,ICDE, 2009, pp. 1275-1278。
  33. S. Kramer, B. Pfahringer,强部分决定的有效搜索,KDD, 1996,第371-374页。
  34. S.E. Madnick, H. Zhu,通过有效使用数据语义提高数据质量,数据与知识工程59(2)(2006)460-475。曼尼拉,K.-J。Räihä,关系数据库的设计,Addison-Wesley, 1992。
  35. 曼尼拉,K.-J。Räihä,从关系推断函数依赖的算法,数据与知识工程12(1)(1994)83-99。
  36. 李文杰,高维数据集的高效聚类与参考匹配,计算机工程学报,2000,pp. 169-178。
  37. G. Navarro,近似字符串匹配的导览,ACM计算调查33(1)(2001)31-88。
  38. B. Pfahringer, S. Kramer,基于压缩的部分决定的评估,KDD, 1995, pp. 234-239。
  39. T. Scheffer,寻找交易支持最优的关联规则,智能数据分析9(4)(2005)381-395。
  40. J.C. Schlimmer,有效地诱导决定:一个完整和系统的搜索算法,使用最优剪枝,ICML, 1993, pp. 284-290。
  41. 宋松,陈良,《匹配依赖关系的发现》,《管理科学》,2009,pp. 1421-1424。
  42. 宋,陈,差异依赖:推理和发现,ACM数据库系统学报36(4)(2011)。
  43. 宋山,陈林,于培生,基于数据空间的数据依赖关系研究,计算机工程学报,2011,pp. 470-481。
  44. U. ul Hassan, S. O' riain, E. Curry,利用匹配依赖在链接数据应用中引导用户反馈,第九届网络信息集成国际研讨会论文集,IIWeb '12, ACM,纽约,纽约,美国,2012,第5:1-5:6页。
  45. 王宏,刘荣,基于全功能依赖的隐私保护发布微数据,数据与知识工程,70(3)(2011)249-268。
  46. C.M. Wyss, C. Giannella, E.L. Robertson, Fastfds:一种启发式驱动的深度优先算法,用于从关系实例扩展抽象中挖掘功能依赖性,DaWaK, 2001,第101-110页。
  47. b .波梅亚,尼基塔·玛丽·阿布莱特,v .莫哈那普利亚,S。Balamurugan,â ' Â,面向对象的安全医疗数据库系统建模方法,â ' Â,在国际计算机、通信和信号处理会议(IC3SP)与IETE学生论坛和数字信息与无线通信协会,SDIWC,2011,第2-3页
  48. 杨建民,杨建民,âÂ′ -基于改进分区算法的微数据发布隐私保护算法,计算机工程学报,27 (8):pp. 318 -323, 2013年7月
  49. Balamurugan Shanmugam, Visalakshi Palaniswami, R.Santhya, R.S.Venkatesh â ' Â: A State-of-the-Art-Surveyâ ' Â,澳大利亚基础与应用科学杂志,2014年9月8日(15)。
  50. S.Balamurugan, P.Visalakshi, v.m.p abhakaran, s.c ranyaa, S.Sankaranarayanan,“云计算环境中NP-Hard工作流调度问题的解决策略”,《澳大利亚基础与应用科学杂志》,2014年10月8日,第15期。
  51. Charanyaa, S等,,基于图的数据匿名化中的攻击预防和处理策略调查。计算机与通信工程学报,2013,29(3):379 - 379。
  52. Charanyaa, S.等人,数据匿名化中保护图隐私方法的某些研究。计算机与通信工程学报,2013,26(3):357 - 357。
  53. Charanyaa, S.等人提出了一种新的协同k度l -多样性t -紧密度模型,用于基于图的数据匿名化。计算机与通信工程学报,2014,29(3):344 - 344。
  54. 图形数据匿名化中基于知识的攻击检测策略。。计算机与通信工程学报,2014,29(2):344 - 344。
  55. 夏兰杰,陈晓明,等。基于词频的数据匿名化序列生成算法。计算机与通信工程学报,2(2):3033-3040,2014。
  56. V.M.Prabhakaran,教授。Balamurugan, s.c aranyaa,“云医疗数据保护策略的若干研究”,《国际计算机与通信工程创新研究杂志》第2卷,第10期,2014年10月
  57. V.M.Prabhakaran,教授。Balamurugan, s.c aranyaa,“远程虚拟机安全终身PHR的研究”,国际计算机与通信工程创新研究杂志第2卷,第10期,2014年10月
全球科技峰会