一种基于云计算的新途径使用复制数据检测

Pritaj Yadav先生^{* 1}太太,Alka Gulati²

学者,动元素(SE)、LNCT博帕尔
助理教授(CSE) LNCT,博帕尔

通讯作者:Pritaj Yadav,先生电子邮件:(电子邮件保护)

文摘

云计算是一个新兴的实践,提供了更多的基础设施和金融的灵活性比传统的计算模型。当考虑云计算基础设施服务,安全是一个常见的问题。大型企业可能有很强的安全方法,实现由云提供商可能是也可能不是等于,但不要只是认为安全是一个问题。寻找安全功能的类型将在内部寻找解决方案。文件可能会反映,以免延误或提供容错。算法检测复制文档的关键应用数据从多个来源获得。复制文件的删除是必要的,不仅减少运行时,还提高搜索精度。今天,搜索引擎爬虫检索数十亿独一无二的URL,其中数亿是某种形式的复制。因此,在本文中,我们提出快速识别复制检测加快索引和搜索。只通过有效地呈现独特的文档,用户满意度可能会增加。

关键字

独特的文件,检测复制,复制,搜索引擎。

介绍

云计算是一个新兴的实践,提供了更多的基础设施和金融的灵活性比传统的计算模型。云计算的核心是效用“服务”由松散耦合的自修复基础设施,地理上分散的,专为用户自助服务,瞬间可伸缩响应业务需求的兴衰。这些服务是方便的在基于ip的网络,使它很容易利用它们和所有基础设施管理问题然后卸云提供商。今天的云提供商提供从访问原始计算或存储容量资源全面应用服务等领域的工资和客户关系管理。

云计算是一个新兴的概念。它有很多的名字,包括:网格计算、效用计算和按需计算。事实上,其中一个障碍的开发和采用云计算是缺乏理解它是什么和不是私人和公共部门的领导者。

“云计算”一词为核心的单个元素,计算服务是通过互联网传送的需求,从远程位置,而不是驻留在自己的桌面,笔记本电脑,移动设备,甚至一个组织的服务器上。对于一个组织来说,这将意味着,一套或变量,基于使用费用,甚至可能免费将合同与提供者提供应用程序,通过网络的计算能力和存储。简而言之,云计算是计算的基本思想将成为位置和设备独立意味着越来越不重要信息在哪里住和计算/处理在哪里发生。这使得计算任务和信息随时可用,从任何设备只要有访问互联网。云的概念也意味着,个人和组织一样,计算将日益被视为无限,而不是一个有限资源。这是因为计算是按需,可伸缩的形式,作为额外的网络带宽,存储,根据需要可以添加和计算能力,人们简单地使用和支付更多(或更少)电力能源需求的变化。出于这个原因,许多人甚至在业内称之为效用模型的计算。

云计算提供了大量的好处,包括潜在的:

快速的可伸缩性和部署能力。

提供即时计算能力和基础设施。减少维护/升级。

提高资源利用弹性、灵活性、效率。

提高规模经济。

改进的协作功能。

参与能力的收费制度,使计算变动费用,而不是一个固定的资本成本高开销降低了信息技术(IT)基础设施需要预先和支持成本。

随需应变的能力基础设施和计算能力。

友好的减少环境足迹。改进的灾难恢复能力。

在大型数据仓库、数据复制是一种不可避免的现象,数以百万计的数据聚集在很短的时间间隔数据仓库是一个过程叫做ETL代表提取、转换和加载。在提取阶段,众多从几个来源和数据到数据仓库系统在仓库后面巩固每个单独的系统格式的数据将被读取数据消费者持续的仓库。数据门户网站到处都是。互联网的巨大的增长促使数据门户网站的存在,几乎每一个主题。这些门户网站的一般利益;一些非常特定于域的。独立的焦点,绝大多数门户网站获取数据,松散称为文档,从多个来源[12]。从多个输入源获取数据通常在复制的结果。复制文件的检测在一组最近成为一个领域的极大兴趣[11]和是我们描述的重点工作。

简单地说,不仅是给定用户的性能被复制的存在,而且整个检索引擎的精度是处于危险之中。什么是一个复制的定义尚不清楚。例如,复制可以被定义为准确的语法术语,没有格式的差异。一般的想法是,如果一个文档包含大致相同的语义内容,这是一个复制是否这是一个精确的语法匹配。当搜索web文档,有人可能会认为,至少,匹配的URL是将识别精确匹配。然而,许多web站点使用动态演示,内容变化取决于该地区或其他变量。

复制被视为不道德的首要目的是欺骗同行时,监管者和/或期刊编辑小说的虚假索赔数据。鉴于每年发表大量论文,期刊的大型多样性与重叠的利益来发布和不均匀访问期刊出版内容,并不是不合理的假定这样的复制是罕见的发现[13]。最近开发的基于算法的方法系统地出版文献和识别过程的实例尽可能准确地复制/剽窃文本应该作为一个有效的威慑作者考虑这个可疑的路径。不幸的是,这些方法在现在有一个非常有限的范围,并仅局限于摘要和标题。

复制:他们来自哪里?的一个主要问题
与现有的地理空间数据库是已知包含许多复制点([7],[10],[16])。地理空间数据库包含复制的主要原因是数据库很少形成完全从头开始。构建,而是通过大量测量数据的来源。因为一些测量中表示的数据来自多个来源,我们得到了复制记录。

为什么复制是一个问题?复制值可以腐败的统计数据处理和分析的结果。例如,当不是单一的(实际)测量结果,我们彼此看到几个测量结果确认,我们可能会得到一个错误的印象,这个测量结果比实际更可靠。检测和消除复制因此保证的一个重要组成部分,提高地理空间数据的质量,所推荐的美国联邦标准[9]。

精确复制文档的识别在路透收集的主要目标桑德森[13]。方法利用正确识别320双,只有没有找到四,从而证明其有效性。在本检测方法的创建,他们发现许多其他复制文档类型如扩展文档、修正文档和模板文件。

文献调查

重叠的高效计算所有成对的web文档被认为是由Shivakumar et al。[8]。web爬虫程序的改进,web档案搜索结果的展示,可以辅助等这些信息。统计上常见的复制是在网上是如何报道。此外,统计计算上述信息的成本相对较大的子集web网页,对应的2400万左右,增加到大约150字节的文本信息。

许多组织归档万维网显示更重要的主题处理的文档收集轮之间保持不变。的一些关键问题,讨论了处理这种Sigurðsson [5]。随后,一个简单,但有效的方法
管理至少已经总结的一部分,受欢迎的网络爬虫Heritrix[6]受雇于一个附加模块的形式。他们讨论的局限性和一些工作处理复制,需要改善的结论。

西奥博尔德等。[4]证明SpotSigs提供增加签名的鲁棒性以及高效复制相比,各种先进的方法。这是证明简单的向量长度比较可能已经产生一个很好的分区条件绕过否则二次聚类算法的运行时行为的家庭,为相似度阈值的合理范围。此外,SpotSigs复制算法运行的“盒子”不需要进一步的优化,同时保持准确和高效,这是不同的其他方法基于散列。前提是有边界的有效手段的相似性等一个属性两个文档的文档或签名长度,SpotSigs匹配器可以很容易地推广向更通用的相似性度量空间中搜索。

最近,发现附近的复制和复制web文档web挖掘研究社区中已经得到普及。这个调查区段和合并范围广泛的工作相关检测附近的复制和复制文档和web文档。的检测技术
识别附近的复制和复制文件,检测算法、基于Web的工具和附近的其他研究人员复制和复制文件了相应的部分。

提高系统可用性、流行的数据复制到多个合适的位置是一个明智的选择,从附近的一个站点用户可以访问的数据被认为是由Sun DW et al . [1]。一个动态数据复制策略提出了简要的调查复制策略适合分布式计算环境。它包括:

系统可用性之间的关系。分析和建模和副本的数量。

b。评估和识别流行的数据和触发复制操作时数据通过一个动态阈值。

c。计算合适的数量的副本,以满足一个合理的系统字节数据节点之间有效速率要求,将副本在一个平衡的方式。

d。设计一个云的动态数据复制算法。实验结果证明改进后的系统的效率和有效性在云带来的建议策略。

提出技术

云使一套新的解决方案来解决长期存储问题更有效的成本。数据保护站显著受益于云计算选项,特别是因为他们提供便利的基础,负担得起的灾难恢复解决方案。这个简单的访问有助于快速实现非现场保护的新项目在更大的企业,并能使灾难恢复解决方案,中小企业(sme)不能过去。考虑到增加临界数据,所有企业都应该至少有一个灾难恢复计划关键应用程序。但很多人不这样做,主要是由于成本和复杂性问题。基于云的基础设施提供了一个有趣的灾难恢复替代解决这两个问题。

基本上复制技术是三个类型:

基于存储阵列,

基于网络的设备

基于主机的

)基于数组的复制:

复制需要类似数组在源和目标位置,使其成为可怜的选择将数据复制到云提供商,你可能不会有相同的数组的云基础设施。

b)网络基础设备:

复制需要一个设备在源和目标的位置,虽然他们是更具成本效益比基于数组的方法来实现,它们基本上遭受相同的基础设施问题,基于数组的复制:云提供商不可能或者使可用相同类型的网络设备部署在您的站点。

c)基于主机的复制:

复制,这基本上只是一个行业标准服务器上运行,是一个很好的健康,云提供商允许你请求Windows, Linux和在某些情况下甚至其他Unix服务器,当你租计算周期,允许您从服务器复制同样的类型在你的位置,他们的成本效益。

基于主机的复制有两种味道。供应商如CA (XO-soft生产线)和Steel-Eye使用基于块的复制方法,而供应商,如双花,从不失败,使用基于文件的方法。这两种方法可以用来复制整个虚拟机实时,但是基于块的方法提供一个更全面的解决方案(由于复制所有数据的能力,而不仅仅是文件)当复制物理机器的云基础设施。支持多个操作系统的解决方案,而不仅仅是窗户,还可以提供更全面的解决方案与一个共同的跨平台管理范式。可以配置为基于主机复制解决方案只是几千美元,当结合基于云的基础设施提供了一个非常低的成本灾难恢复解决方案,允许延长保护降低组织中规模较大的企业,使小型企业灾难恢复一个负担得起的选择。

这个标准指定了四个安全散列算法,sha - 1 [15], sha - 256, sha - 384和sha - 512。所有四个算法迭代的单向散列函数可以处理一条消息产生凝聚表示称为消息摘要。这些算法的决心使消息的完整性:任何改变消息,有一个非常高的概率,结果在一个不同的消息摘要。这个属性是有用的数字签名的生成和验证和消息认证码,和生成的随机数字(位)。

每个算法可以描述的两个阶段:预处理和散列计算。预处理包括填充消息,填充消息解析成位块,并将初始化的值设置为用于哈希计算。哈希计算生成一个消息安排的消息,并使用时间表,以及函数,常量和词操作迭代生成一系列的散列值。最后的散列计算生成的散列值是用来确定消息摘要。

最显著的四个算法不同的比特数所提供的安全散列的数据——这是消息摘要的长度直接相关。当一个安全散列算法结合另一个算法,可能会有需求指定的其他地方,需要使用一个安全散列算法与一定数量的安全。此外,四个算法不同的块的大小和文字期间使用散列的数据。表1给出了安全散列算法的基本属性。

提出工作

在我们的方法中,我们将迅速比较大量的文件相同的内容通过计算每个文件的哈希。因此快速识别复制检测加快索引和搜索。

实验和分析

我们提出了一个新的复制数据检测算法称为RDDA及其性能评估使用多个数据集合。如果你正在考虑合并复制和基于云计算可以提供你,无论你是一个终端用户或云供应商,寻找以下特性同步和异步复制选项,以便技术可用于解决短距离和长距离要求;理解也是否提供实时、计划或两种形式的复制。良好的集成点技术来促进数据保护操作和服务器虚拟化技术来降低博士操作的成本。

有意识的维护方法建立的写命令生产应用程序为了维护数据完整性,关键是数据写入到目标磁盘以完全相同的顺序,主要是写磁盘(这是更多的关心当使用异步复制)。

源和目标设备故障管理,将自动re-synchronize一旦生活重新建立网络连接,看看如何这样做是为了确保设备可以以最小的带宽和re-synchronized很快。集成技术,减少网络带宽的要求在正常和re-synchronization操作。支持加密数据动态和静止至少一定程度的sha - 1等价(SHA-2等价是首选)。

结论

一个新的复制数据检测算法叫做RDDA评估它的性能使用多个数据收集。大小不同,使用的文档集合的程度将文档复制,和文档的长度。随着酒吧变得更高构建弹性计算基础设施,复制技术将成为存储基础的一部分。云提供商位置很好利用这项技术来满足现有的以及不断发展的客户需求。在短期内,复制不仅使云中的数据恢复,但云中的服务器恢复。现在负担得起的,基于主机的复制方法,通过基于ip的网络可以安全地处理庞大的数据量,不要忽视什么复制的组合和云计算提供了不管你是一个终端用户或者一个云提供商。

因此,任何比赛中甚至一个单一的结果在一个潜在的复制与指示。这将导致潜在的复制在许多组织的散射,和许多假阳性潜在的匹配。本文打算援助即将到来的文档复制检测领域的研究人员使用云计算在web爬行了解可用的方法,有助于改善执行他们的进一步研究方向。

引用

太阳DW, Chang GR,高S et al .,“建模动态数据复制策略在云计算环境中提高系统可用性”。计算机科学与技术学报,27(2),第272 - 256页,2012年3月。
茱莉亚敏和Thinn清华Naing管理基于PC集群的云存储系统的数据复制”。国际期刊上云Computin服务和建筑(IJCCSA),卷。1、3号,2011年11月,31-41页。
纳撒尼尔·伯伦斯坦和詹姆斯·布莱克,“云计算标准”,IEEE 2011,页74 - 78。
西奥博尔德,M。,Siddharth, J., Paepcke, A., "SpotSigs: Robust and Efficient Near Duplicate Detection in Large Web Collections", Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval, Singapore, 2008, pp. 563-570.
SigurA一°sson, K。,"Managing duplicates across sequential crawls", proceedings of the 6thInternational Web Archiving Workshop, 2006.
莫尔,G。,Stack, M., Ranitovic, I., Avery, D., and Kimpton, M., "An Introduction to Heritrix", 4th International Web Archiving Workshop, 2004.
斯科特,L。,“Identification of GIS Attribute Error Using Exploratory Data Analysis”, Professional Geographer 46(3), 1994, pp. 378.386.
Shivakumar, N。,Garcia Molina, H., "Finding near-replicas of documents on the web",Lecture Notes in Computer Science, Springer Berlin / Heidelberg, Vol. 1590, 1999, pp. 204-212.
FGDC联邦地理数据委员会,FGDC-STD - 001 - 1998。“数字地理空间元数据内容标准”,联邦委员会地理数据,华盛顿特区,1998年6月,http://www.fgdc.gov/metadata/contstan.html。
麦凯恩,M。,and William C., “Integrating Quality Assurance into the GIS Project Life Cycle”, Proceedings of the 1998 ESRI Users Conference 1998. Http://www.dogcreek.com/html/documents.html
Shivakumar n, garica-molina h。“网上找到缩小的文件”。在车间对Web数据库(WebDB学报》98),瓦伦西亚,西班牙,1998年3月,页204¢212。
布罗德,一个。,glassman, s., manasse, s., and zweig, g. “Syntactic clustering of the web”. In Proceedings of the Sixth International World Wide Web Conference (WWW6’97), Santa Clara, CA., April, 1997, pp. 391Ã¢ÂÂ404.
桑德森,m。复制检测在路透收集。技术报告(tr - 1997 - 5)计算机科学部门的格拉斯哥大学,格拉斯哥G12 8 qq,英国,1997年。
Heintze, n。,Scalable document fingerprinting. In proceedings of the second usenix electronic Commerce Workshop Oakland, CA., Nov. 1996, pp.191Ã¢ÂÂ200.
本文档中指定的sha - 1算法是相同的sha - 1算法中指定FIPS 180 - 1。
Goodchild, M。,and Gopal, S. (Eds.), Accuracy of Spatial Databases, Taylor & Francis, London., 1989.