所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

一项调查与重复数据删除混合云

Pooja年代Dodamani1,Pradeep拿撒勒2
  1. m技术的学生,计算机科学和工程部门,NMAMIT,卡纳塔克邦,印度
  2. 助理教授,计算机科学和工程部门,NMAMIT,卡纳塔克邦,印度
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

对行业趋势的一项调查指出在使用混合云架构可以支持使用,即将到来的行业挑战通过提供有效的方式将它们的数据存储在云环境通过使用公共和私有云的结合,所以它提供了设施在私有云存储敏感数据和关键数据到公共云,巨大的储蓄。由于对数据存储的需求是日益增加和行业分析我们可以说数字数据增加一天,但冗余数据的存储是多余的,结果在大多数使用的存储不必要的相同副本。因此,重复数据删除技术介绍,从而高效地利用云存储系统。

关键字

混合云;重复数据删除;散列数据;加密。

介绍

尽管云计算的巨大人气冲天,许多公司正在他们没有发现需要在单个云环境。
私有云,哪些公司内部运行,是安全的,在局域网内访问。
•公共云在互联网和操作和运行成本更低,可伸缩的和容易使用。
直到最近,公司可以不经济和容易集成和运营与类型的架构作为一个云系统。所以现在公司合并这两个公共和私有方法,创建一个混合云,将收获的好处每个所述帕诺斯Tsirigotis,混合云供应商的共同创始人云速度和首席软件设计师。
采用混合云很容易对许多企业将内部云,只需要利用现有的公共云功能指出kantarcioglu教授。[1]
商业组织数据量正在增加公司为自己的存储和收集大量的数据在云计算中使用。根据行业企业组织战略集团分析更多的组织更喜欢将它们的数据存储在云上。因此要求组织有更多的储存和消耗更多的电力和能源管理和处理数据,越来越多的网络资源用于传输数据,更多的时间是花在复制和数据备份等功能。存储的大部分信息是重复的数据,在同一组织不同来源通常创建类似的文件或复制文件已经存在,他们可以独立工作。
如果它是可能的,它组织只会保护独特的数据备份。而不是反复拯救一切,最理想的情况是,只有保存新的或独特的内容。数据重复删除提供了基本的功能。它提供的能力,发现和消除冗余数据从一个数据集内。数据集可以跨一个应用程序或跨整个组织。
冗余数据元素可以整个文件或sub-file数据段在一个文件中。在所有情况下,重复数据删除过程的目的是存储独特的数据元素只有一次,但能够重建所有内容在其原始形式的需求,可靠性以磁盘的速度为100%。
数据重复删除是改善信息保护的基础,简化备份操作,减少备份的基础设施,缩短备份窗口,和删除从信息网络负担。[2]

文献调查

混合云架构,提供了有效的组织工作在私人和公共云架构结合采用通过提供可伸缩性。这里的一些基本概念和想法提出的作者和如何最好且容易接受这个环境是由尼尔·莱维特解释道。[1]
智能工作负载保理,为组织的客户服务使充分利用目前的公共云服务,包括他们的私人拥有的数据中心。它允许组织之间的远程和本地基础设施工作。有效核心技术用于智能工作负载保理是一个快速检测算法冗余数据元素,帮助我们考虑所有的传入请求不仅基于数据内容和数据量,回族,Guofei江,吴克群Yoshihira,海丰陈和Akhilesh Saxena。[12]
这个词云为有许多定义其中之一是提供基础设施作为服务系统的IT基础设施将部署在特定的云服务提供商,数据中心的虚拟机。的日益流行laas将帮助我们组织目前的基础设施转换成所需的混合云、私有云。OpenNebula概念是提供使用功能不会出现在任何其他云软件,佳索托马约尔,鲁本s蒙特罗和伊格纳西奥·m .略伦特,伊恩·福斯特。[13]
重复数据删除技术,主要用于减少不必要的冗余数据的存储系统将使用更多的带宽和网络。这里定义一些常见技术是发现特定文件的哈希和重复数据删除技术可以简化的过程中,大卫·吉尔。[5]
经常在现实世界中我们往往会看到两个或更多的数据在数据库中。重复的记录将分享不同的键将使重复匹配任务困难,将导致错误。错误通常发生由于缺乏标准格式,信息不完整或转录错误。通过分析重复记录检测文献调查完成。的重复检测算法检测的重复的记录和一些指标被认为将帮助我们发现类似字段的数据条目。提出了多种技术,将帮助我们提高效率,现有的工具,存在被覆盖,艾哈迈德·k·Elmagarmid Panagiotis g . Ipeirotis Vassilios Verykios。[14]
重复数据删除技术是最有效最广泛使用的但当它应用在多个用户cross-user重复数据删除技术往往有许多严重的隐私的影响。可以使用简单的机制可以使cross-user重复数据删除这将降低数据泄漏的风险和安全问题的讨论与如何确定文件和加密时发送了,丹尼Harnik Benny Pinkas,亚历山德拉•舒尔曼——法勒。[2]
收集的数据来自多个数据源被称为数据仓库存储在存储库。在ETL(提取、转换、加载)或OLTP(联机事务处理)在数据仓库中我们常常倾向于找到表中的数据的副本。因为质量的数据是非常重要的获得用户的信心,更多的钱和时间花在获得高质量的数据。数据清理脏数据的过程。在这里,他们已经讨论了一些方法和策略删除重复数据,Srivatsa maddodi, Girija诉Attigeri博士karunakar a.k.。[15]。

混合了

混合云可以使用任何技术根据不同供应商不同。关键部件在许多情况下,实现混合云的一个控制器,它将跟踪所有的私有和公共云的位置,IP地址,服务器和其他资源,能有效地运行系统。
包括一些关键组件
•编制管理和云存储配置,包括虚拟机和网络公共云资源,私人和公共云,不一定兼容或相同。
•同步元素和数据传输有效私有云和公共云平台之间交换信息。
•改变配置的存储、网络和其他资源被配置跟踪监控。[1]
在图1中,混合云提供的简单视图,一个远程公共云,本地私有云是在企业数据中心建立安全连接的显示和公共云存储数据到云由箭头表示:
黑色圆圈显示活跃的虚拟服务器映像和白色圆圈显示虚拟服务器图片已迁移通过使用安全连接。箭头指示的方向迁移。使用安全连接企业用户连接到云,可安全HTTP浏览器或虚拟专用网络(vpn)。混合云也可以包含多个公共和私有云。[3]

集成

一个或多个私有云和公共云平台的整合形成一个混合动力系统,这将是更有挑战性的集成房屋系统相比王注意到雷克斯。不同的云通常会有截然不同的api,私人,公共和遗留系统集成常常会需要定制代码,但达拉斯的Kantarcioglu说。

模型

主要有两个主要的混合云部署模型。

管理

混合云计算技术关键称为管理。系统正迅速从一个云环境迁移到多个云管理系统。之后他们必须管理所有类型的云应用平台即服务等基础设施即服务和软件即服务通过整个开发和部署生命周期。
安全
为了确保混合云,公司使用特殊的技术,如身份验证、访问控制策略和加密私有云和公共云。
这些将包括基于云安全服务的组合和管理托管设备。入侵检测系统和防火墙等方法总是在托管环境中实现专门为使用混合云架构中,乔纳森•霍格表示。因为我们不能透露敏感数据,企业需要保持限制他们外包的敏感数据或他们将不得不加密敏感数据在公共云外包之前,-kantarcioglu解释道。基于加密的方法将保护敏感数据在公共云外包处理这种加密的数据通常更昂贵和复杂。[1]

详细的观察数据重复删除

数据重复删除有多种形式。通常情况下,没有一个最好的方式来实现数据重复删除整个组织。相反,最大化收益,组织可以部署多个重复数据删除策略。了解是非常必要的备份和备份挑战,选择重复数据删除时作为解决方案。
数据重复删除主要三种形式。虽然定义各有不同,一些形式的数据重复删除,如压缩,已经存在了几十年。最近,单实例存储使得移除冗余文件从存储环境等档案。最近,我们看到的引入sub-file重复数据删除。下面将描述这三种类型的数据重复删除

数据压缩

数据压缩的方法减少文件的大小。数据压缩文件识别和删除空的空间内的作品出现的重复模式。这种形式的数据重复删除本地文件,不考虑其他文件和数据段在这些文件。数据压缩已经出现多年了,但被孤立到每个特定文件,好处是有限的,当比较数据压缩和其他形式的重复数据删除。例如,数据压缩也无法有效地识别和消除重复的文件,但会独立压缩的每个文件。

单实例存储

删除任何文件的多个副本是一个形式的重复数据删除。单实例存储(SIS)环境中能够检测并删除冗余份相同的文件。后一个文件存储在一个单实例存储系统相比,所有其他的相同文件的引用,将参考原始的单一副本。单实例存储系统比较文件的内容来确定传入的文件是相同的现有文件存储系统。内含寻址存储通常配备单实例存储功能。
在文件级重复数据删除避免存储文件是另一个文件的复制,许多文件被认为是独特的单实例存储测量中可能有大量的冗余文件或文件之间。例如,它只会带一个小元素(例如,一个新的日期插入标题幻灯片演示)单实例存储作为两大文件不同,要求他们存储没有进一步的重复数据删除。

Sub-file重复数据删除

Sub-file重复数据删除检测内部和之间冗余数据文件而不是寻找相同的文件在SIS的实现。使用sub-file重复数据删除冗余副本的数据后发现,eliminated-even存在重复的数据,在单独的文件中。这种形式的重复数据删除发现独特的组织中的数据元素和检测,当这些元素中使用其他文件。因此,sub-file重复数据删除消除了重复数据的存储在一个组织。Sub-file数据重复删除有巨大的好处即使文件并不相同,但是数据元素,已经认识到组织中的某个地方。
Sub-file重复数据删除的实现有两种形式。固定长度的sub-file重复数据删除使用任意固定长度的数据搜索文件内的重复数据。虽然设计简单,固定长度的段小姐很多机会发现冗余sub-file数据。(考虑一下这种情况:一个增加一个人的名字添加到文档的标题页面整个文档的内容将导致失败的重复数据删除工具来检测或者类似的东西)。变长实现通常不锁定任何任意线段的长度。变长数据段的大小匹配实现内天然复制文件,并大幅度提高了整体重复数据删除比率(在上面的示例中,变长文档中的重复数据删除将捕获所有重复的部分,无论发生变化)。
所以大多数组织广泛使用的数据depulication技术,也称,单实例存储、智能压缩,和容量优化的存储和数据简化。
图2显示,重复数据删除冗余数据和消除所有但保留一份副本创建逻辑指针指向文件,这样用户可以访问文件,在需要的时候。[4]指针和引用
重复数据删除系统删除冗余数据,他们发现然后创建一个引用或逻辑指针指向单一主机的数据实例。在多个用户的地方有指针存储同一个信息。[5]

数据重复删除类型

文件级重复数据删除

它通常被称为单实例存储,文件级数据重复删除比较的文件需要归档或备份已经对索引存储通过检查它的所有属性。

块级重复数据删除

块级数据重复删除操作的基础上sub-file水平。顾名思义,该文件被分为段块或块,将检查以前存储的信息和冗余。
确定冗余数据的流行的方式是通过将标识符分配给数据块的数据,通过使用散列算法为例,它生成一个惟一的ID,特定的块。特定的惟一的Id将与中央索引。以防ID已经存在,那么它代表之前,只有之前存储的数据处理和成只有一个指针引用保存到之前存储的数据。如果ID是新的和不存在,那块是独一无二的。独特的块存储和索引更新惟一的ID。
块的大小,需要检查从供应商到供应商。有些会有固定块大小,而其他一些使用可变块大小同样大小的一些也可能改变固定块大小的混乱。固定大小的块大小可能会有所不同从8 kb到64 kb,但是与它的主要区别是块越小,比它将可能有机会识别的重复数据。如果不如这显然意味着更大的减少数据存储在数据存储。唯一通过使用固定大小的块的主要问题是,如果文件被修改和重复数据删除的结果之前使用相同的检查结果比会有机会不确定相同的冗余数据段,块的文件将被移动或改变,比他们将下游变化,通过抵消剩下的比较。

可变块级别的重复数据删除

比较不同大小的数据块,可以减少碰撞的机会,所述链Orlandini。[6]

当发生重复数据删除吗?

嵌入式重复数据删除

嵌入式重复数据删除是最经济和有效的重复数据删除方法。它减少了所需的原始磁盘空间系统,自全,不减少数据集不会被写入磁盘。内联重复数据删除减少灾难恢复的时间准备,因为系统不需要等待它开始前利用整个数据集和重复的数据在远程端,这是减少。

后处理重复数据删除

后处理去耦合是指系统,软件过程的类型,过滤冗余数据从一个数据集后,已经转移到一个数据存储位置。这也称为异步重复数据删除技术,它通常被认为是在情况下经理认为这是不可行的或低效前删除重复数据在传输或数据发送给存储位置。

客户端重复数据删除

客户端重复数据删除不同于所有其他形式的重复数据删除重复数据是第一只识别之前必须通过网络发送。这肯定会创建CPU负担但同时减少网络上的负载。利用客户端重复数据删除为我们提供了很多优势,因为高水平的重复信息在虚拟环境和事实数据被发送在一个高度拥挤的IP网络。

靶向性重复数据删除

重复数据删除目标将删除冗余备份传输,它通过一个设备,源和目标之间的存在。与源重复数据删除,目标重复数据删除不减少需要传输的数据总量跨广域网或局域网备份,但它减少了所需的存储空间。

全局重复数据删除

全局数据重复删除程序的备份数据时消除冗余数据更多数量的重复数据删除设备。这种情况可能需要备份数据到多个目标重复数据删除系统或在源重复数据删除的情况下它可能需要备份到多个备份节点将自己备份多个客户端。[7]

重复数据删除发生在哪里?

一些技术问题需要在确定最优重复数据删除在组织中使用的解决方案。因素主要包括重复数据删除是否必须发生在备份目标或来源的信息。此外,你应该考虑是否合适直接重复数据删除或预定重复数据删除备份环境的架构。本节进一步描述这些特性。

基于源代码的重复数据删除

基于源的重复数据删除消除冗余数据发生的来源。这意味着数据的程序开始执行重复数据删除的备份流程,之前的数据转移到备份环境。基于源的重复数据删除将大大减少大量的备份数据,在备份过程中通过网络发送。所以将会有大量减少所需容量存储备份文件。

靶向性重复数据删除

另一个基于源代码的重复数据删除是靶向性重复数据删除。靶向性执行重复数据删除的备份存储设备。用户不需要改变他们的现任备份软件通常在这种类型的重复数据删除。在基于目标的重复数据删除要求所有备份文件复制到备份系统,所以在目标建立备份它不会为我们提供解决方案,将减少backup-client-to-target带宽要求。[4]

重复数据删除技术是如何工作的:只有独特的数据存储在一个数据库

数据重复删除比较数据即通常块或文件和消除冗余数据副本已经出现在数据集。它消除了文件并不是唯一的。这个过程包括以下步骤
一。首先将输入数据划分为块或块。
b。散列值为每个块需要计算。
c。值被用于确定相同的数据块是否已经存储。
d。替换冗余数据块的引用或指针已经在数据库中。
数据分块后,从结果创建一个索引,冗余数据可以发现和消除。只有一个副本的每一块存储。
一旦数据被分成块,结果得到指数可以创建和删除冗余数据将被发现。只有一个副本,每一个存储块。数据重复删除过程可以在许多不同的方式来实现。可以将重复数据消除b y相互简单地比较文件和删除不再需要的数据和旧。
哈希碰撞与重复数据删除潜在的问题。接收时的数据散列数字,这个数字是相对于其他已经存在的散列的索引数据。[8]Some of the algorithms can be used to find the hash numbers for example, SHA, MD[9] than its is encrypted using the AES algorithm and then data is out sourced to the cloud environment.[10]
sha - 1为安全应用创建所需的加密签名。160位的sha - 1创造的价值是独一无二的,每一块数据。
MD5——也为它创建一个128位的哈希加密的目的。哈希碰撞通常会发生在两个不同的块会产生相同的散列值。这确实非常少的机会,但sha - 1被认为是最安全的两种算法上面说。

位比较

最简单的方法比较两块数据,通过执行,位通过比较两个街区。所涉及的成本执行I / O要求阅读和比较。

自定义方法

在这里自己的哈希算法与其他方法相结合确定一些厂商使用重复数据。[11]
哈希数比较后发现已经在索引中,比那块的数据将被认为是重复的,又不需要存储。否则新得到的散列将被添加到索引数量和新的数据存储。在非常罕见的情况下可以发现,两个不同的数据块相同的散列数。哈希碰撞发生时,系统将不会存储新的数据,因为它发现,其哈希索引中已经存在。这将给虚假的结果,将导致数据丢失。所以一些数据的供应商将结合哈希算法来减少散列碰撞的概率。一些厂商还将研究元数据查找和识别数据,防止碰撞。[8]

重复数据删除技术的优点

多次重复数据删除的承诺,公司可以存储的数据/存储,比以前。
•有效地增加网络带宽,以防源端重复数据删除发生比没有副本的数据需要通过网络传播。
•绿色为环境——更少的立方英尺的空间需要将数据存储在主和偏远地区和更少的电力是必要的。
•业务流程持续畅通,确保更快复苏。
•购买和维护更少的存储将返回我们更快的回报。
•小所需的空间量保持指向备份数据,而不是存储数据复制本身。
•整体数据的存储是少成本——我们存储更少。[6]

重复数据删除的缺点

重复数据删除系统是昂贵的实现、维护和购买罗布·西姆斯说,十字路口系统公司的首席执行官。
此外,公司需要更多的数据来减少重复储蓄更多的钱,比他们通常与基本的压缩技术。执行散列算法,通过比较散列处理重复数据删除使用大量电力和能源他说。大多数公司使用重复数据删除的小电器,可以处理100字节数据根据数据链路的Orlandini,这对大型设备是不够的。
组织可以通过使用许多电器保持性能和增加容量只能使用它如果机器支持集群、数据库,使用相同的哈希表西姆斯说。尽可能多的重复数据删除系统不会提供冗余,装进箱大型设备崩溃,存储阵列,正在与用户Orlandini说暂时不可用。

安全

更广泛的重复数据删除系统变得,西姆斯说,公司将遭受如果其散列数据库发现问题。用户必须保持定期的备份数据库,他指出。不同的产品不提供相同的安全是重复数据删除技术,没有标准化,西姆斯说。
安全也威胁到技术,因为用户无法加密数据,他们不得不减少重复。加密可以防止系统准确识别和读取存储的信息重复数据删除,柯蒂斯·普雷斯顿,IT-infrastructure-services供应商。

数据完整性

通过将数据分解成块,重复数据删除删除单独的所有数据组织的边界。这就给组织带来的问题分别符合政府相关规定,要求企业保持不同类型的财务记录,他阐述了。由于数据分解成块,他指出,重组和减少—将排队安全性和完整性问题产生当一个公司需要证明数据实际存储数据,为
技术相关的行业,如医药、电信和金融服务已经采用重复数据删除,斯科特Gidley解释说,大副,数据管理,数据流量和集成供应商。然而技术可以消耗很多资源进行处理,能源,也昂贵并不适合所有的终端用户。然而重复数据删除肯定会变得同样共同特征像压缩在未来五年,如果这将是成本更低,预测大卫·罗素副总裁策略和存储技术与市场研究公司Gartner Inc。他说,——不再是新兴技术,但它是发现在早期的主流舞台。经济更引人注目的忽视。为[5]

加密如何影响数据重复删除

重复数据删除,删除冗余块,文件或数据和加密数据转化为随机的数据流的性质。如果你先加密数据是随机的,不可能重复项消除它。所以必须先减少,后加密的数据。[11]

应用程序

混合云主要是建立以适应任何环境或架构,是否可能是企业范围的网络或任何部门。公共数据存储可以从统计分析分析这是通过社交媒体、政府实体可以用来增强和分析自己的企业数据站这是内部获得最形式的浏览混合云的好处。但大数据分析和高性能计算,涉及云之间的挑战。[1]

结论

使用混合云架构的IT行业提供了许多好处使用公共和私有云,采用重复数据删除在云中存储数据将为我们提供更好的存储收益较低的成本。

确认

我想表达我诚挚的感谢NMAM理工的指导和工作人员的连续支持这项调查,最后我的朋友为他们的协调工作。

表乍一看

表的图标
表1

数据乍一看

图1 图2 图3 图4
图1 图2 图3 图4

引用