重复数据删除混合云研究综述

Pooja S Dodamani¹， Pradeep Nazareth²

印度卡纳塔克邦NMAMIT计算机科学与工程系硕士生
印度卡纳塔克邦理工学院计算机科学与工程系助理教授

摘要

一项关于行业趋势的调查指出，可以使用混合云架构来支持即将到来的行业挑战，通过使用公共云和私有云的组合提供有效的方式将数据存储在云环境中，从而提供了将敏感数据存储在私有云中，将不太关键的数据存储在公共云中，从而可以节省大量成本。由于对数据存储的需求日益增加，通过行业分析，我们可以说数字数据每天都在增加，但冗余数据的存储是多余的，这导致大多数存储被不必要地用于保存相同的副本。因此，为了有效地利用云存储系统，引入了重复数据删除技术。

关键字

混合云;重复数据删除;散列数据;加密。

介绍

尽管云计算非常流行，但许多公司仍然不满意，因为他们没有在单一的云环境中找到他们需要的东西。

•公司内部运行的私有云在局域网内是安全的和可访问的。

•公共云在互联网上运行，成本更低，可扩展且易于使用。

直到最近，公司还不能经济而容易地将这两种架构集成为一个云系统。因此，现在的公司正在合并公共和私有的方法，创建一个单一的混合云，可以获得混合云供应商cloud velocity的联合创始人和首席软件架构师Panos Tsirigotis所说的好处。

kantarcioglu教授指出，采用混合云对许多公司来说非常容易，因为他们将拥有内部云，只需要利用现有的公共云功能

随着企业在云中存储和收集大量数据供自己使用，业务组织的数据量正在增加。根据商业组织策略组，通过行业分析，更多的组织更喜欢将数据存储在云上。这就要求组织拥有更多的存储空间，并消耗更多的电力和能源来管理和处理数据，更多的网络资源被用于传输数据，更多的时间花在复制和数据备份等功能上。存储的大多数信息都是重复的数据，同一组织中的不同来源通常会创建类似的文件或重复的文件，这些文件已经存在，它们可以通过这些文件独立工作。

如果可能的话，it组织将只保护其备份中的唯一数据。理想的情况是只保存新的或唯一的内容，而不是重复保存所有内容。数据重复删除提供了这种基本功能。它提供了从数据集中发现和删除冗余数据的能力。数据集可以跨越单个应用程序，也可以跨越整个组织。

冗余数据元素可以是文件中的整个文件或子文件数据段。在所有情况下，重复数据删除过程的目标都是只存储一次唯一的数据元素，但能够按需以原始形式重新构建所有内容，在磁盘速度下具有100%的可靠性。

数据重复数据删除是提高信息保护、简化备份操作、减少备份基础设施、缩短备份窗口、减轻信息网络负担的基础。[2]

文献调查

混合云是一种架构，通过提供可采用的可伸缩性，使组织能够高效地结合使用私有云和公共云架构。在这里，Neal Leavitt解释了作者提出的一些基本概念和想法，以及如何最好和容易地采用这种环境。[1]

为组织客户提供智能工作负载分解服务，充分利用现有的公共云服务，包括其私有数据中心。它允许组织在外部基础设施和内部基础设施之间工作。用于智能工作负载分解的高效核心技术是一种快速冗余数据元素检测算法，它帮助我们根据数据内容而不仅仅是数据量来分解所有传入的请求，Zhang Hui, Guofei Jiang, Kenji Yoshihira, Haifeng Chen和Akhilesh Saxena。[12]

术语“云”有很多定义，其中之一是提供基础设施作为服务系统，其中IT基础设施将部署在特定的云服务提供商，数据中心作为虚拟机。laas的日益流行将帮助我们将组织现有的基础设施转换为所需的混合云或私有云。正在使用的OpenNebula概念将提供任何其他云软件都没有的功能，Borja Sotomayor,Rubén S. Montero和Ignacio M. Llorente, Ian Foster。[13]

重复数据删除是一种主要用于减少存储系统中冗余数据的技术，这些数据会占用更多的带宽和网络。所以这里定义了一些常见的技术，它可以为特定的文件找到哈希，这样重复数据删除的过程就可以简化了，David Geer。［5］

在现实世界中，我们往往会在数据库中看到两个或多个数据。重复的记录将共享不同的键，这将使重复的匹配任务变得困难，并将导致错误。由于缺乏标准格式、信息不完整或转录错误，通常会出现错误。本文对重复记录检测文献调查进行了深入分析。重复检测算法用于检测重复记录，还考虑了一些指标，以帮助我们检测所做的数据的相似字段输入。提出了多种技术，将帮助我们提高效率，现有的工具正在被覆盖，Ahmed K. Elmagarmid, Panagiotis G. Ipeirotis, Vassilios S. Verykios。[14]

重复数据删除是最有效、应用最广泛的技术，但当它跨多个用户应用时，跨用户重复数据删除往往会产生许多严重的隐私影响。Danny Harnik, Benny Pinkas, Alexandra Shulman- Peleg，可以使用简单的机制来启用跨用户重复数据删除，这将降低数据泄漏的风险，同时还讨论了一些安全问题，即如何准确地识别文件并在发送时加密它们。[２]

从多个数据源收集的数据存储在称为数据仓库的存储库中。在数据仓库中的ETL(提取、转换、加载)或OLTP(在线事务处理)过程中，我们经常会发现表中数据的重复副本。由于数据的质量对于获得用户的信心至关重要，因此在获得高质量的数据上花费了更多的金钱和时间。数据清洗是去除脏数据的过程。在这里，他们讨论了Srivatsa maddodi, Girija V. Attigeri, Dr karunakar a.k.[15]去除重复数据的一些方法和策略。

混合了

混合云可以根据不同的供应商使用不同的技术来构建。在许多情况下，混合云的实现都有一个控制器，该控制器将跟踪私有和公共云的所有位置、IP地址、服务器和其他可以有效运行系统的资源。

一些关键组件包括

•存储、公共云资源(包括虚拟机和网络)、私有云和公共云的编制管理器和云供应，这些资源不一定兼容或相同。

•同步元素和数据传输在私有云和公共云之间有效地交换信息。

•存储、网络和其他一些资源的配置变化被配置监视器跟踪。[1]

在图1中，提供了混合云的最简单视图，企业数据中心内显示了一个单独的外部公共云和内部私有云，公共云建立了安全连接，将数据存储在云上，如箭头所示:

黑圈显示活动的虚拟服务器映像，白圈显示使用安全连接迁移的虚拟服务器映像。箭头表示迁移方向。使用安全连接企业用户连接到云，云可以是安全的HTTP浏览器或虚拟专用网络(vpn)。混合云也可以由多个公共或/和私有云组成。[3]

集成

Rex Wang指出，一个或多个私有云和公共云集成形成一个混合系统，与集成内部部署系统相比，它将更具挑战性。UT Dallas的Kantarcioglu说，由于不同的云通常有不同的api，私有、集成公共和遗留系统通常需要定制代码。

模型

主要有两种混合云部署模型。

管理

混合云计算有一个叫做管理的技术关键。系统正在从单一云环境快速迁移到多云管理系统。然后，他们必须在整个开发和部署生命周期中管理所有类型的云应用程序，如平台即服务、基础设施即服务和软件即服务。

安全

为了确保混合云的安全，公司在私有云和公共云中使用身份验证、访问控制策略和加密等特殊技术。

这将包括基于云的安全服务和托管设备的组合。Jonathan Hogue说，一些方法，如入侵检测系统和防火墙，总是在托管环境中实现，专门用于使用混合云架构。坎塔西奥卢解释说:“由于我们不能披露敏感数据，公司将要求限制他们外包的敏感数据数量，否则他们将不得不在将敏感数据外包到公共云之前对其进行加密。”当将敏感数据外包给公共云处理时，基于加密的方法将保护敏感数据，这种加密数据的处理通常更昂贵和复杂

详细介绍数据重复删除

数据重复数据删除有多种形式。通常，在整个组织中实现数据重复删除没有一种最佳方法。相反，为了使效益最大化，组织可能会部署多个重复数据删除策略。在选择重复数据删除作为解决方案时，了解备份和备份挑战是非常重要的。

数据重复数据删除主要有三种形式。尽管定义各不相同，但某些形式的数据重复数据删除，例如压缩，已经存在了几十年。最近,单实例存储已启用从存储环境(如存档)中删除冗余文件。最近，我们看到了sub-file重复数据删除．下面将介绍这三种类型的数据重复删除

数据压缩

数据压缩是一种减小文件大小的方法。数据压缩在文件中工作，以识别和删除作为重复模式出现的空白空间。这种形式的数据重复删除是文件本地的，不考虑这些文件中的其他文件和数据段。数据压缩已经有很多年了，但是由于是孤立于每个特定文件的，因此在将数据压缩与其他形式的重复数据删除进行比较时，其优点是有限的。例如，数据压缩将不能有效地识别和消除重复文件，但将独立地压缩每个文件。

单实例存储

删除任何文件的多个副本是重复数据删除的一种形式。单实例存储(SIS)环境能够检测和删除相同文件的冗余副本。一个文件存储在单实例存储系统之后，所有其他对同一文件的引用，都会引用原始的、单一的副本。单实例存储系统会比较文件的内容，以确定传入的文件是否与存储系统中的现有文件相同。内容寻址存储通常配备单实例存储功能。

虽然文件级重复数据删除避免存储与另一个文件重复的文件，但许多被单实例存储度量认为是唯一的文件可能在文件内部或文件之间具有大量冗余。例如，对于单实例存储来说，只需要一个小元素(例如，插入到演示文稿标题幻灯片中的新日期)，就可以将两个大文件视为不同的文件，并要求存储它们，而不需要进一步重复数据删除。

Sub-file重复数据删除

子文件重复删除检测文件内部和文件之间的冗余数据，而不是像SIS实现那样查找相同的文件。使用子文件重复数据删除，可以检测并消除数据的冗余副本——即使存在重复数据，也可以在单独的文件中删除。这种形式的重复数据删除可以发现组织中惟一的数据元素，并检测这些元素何时在其他文件中使用。因此，子文件重复删除消除了整个组织中重复数据的存储。子文件数据重复删除具有巨大的好处，即使文件不完全相同，但其中的数据元素已经在组织的某个地方被识别出来。

子文件重复数据删除实现有两种形式。固定长度的子文件重复删除使用任意固定长度的数据来搜索文件中的重复数据。虽然设计简单，但固定长度的段错过了许多发现冗余子文件数据的机会。(考虑这样一种情况，一个人的名字被添加到文档的标题页—文档的整个内容将发生变化，导致重复删除工具无法检测到等价性)。变长实现通常不锁定任意段长度。变长实现将数据段大小与文件中自然发生的重复匹配，极大地提高了整体重复数据删除比率(在上面的示例中，变长重复数据删除将捕获文档中所有重复的段，无论更改发生在何处)。

因此，大多数组织广泛使用数据删除技术，也称为单实例存储、智能压缩和容量优化存储和数据缩减。

如图2所示，重复数据删除发现冗余数据，并删除所有冗余数据，只保留一个副本，创建指向文件的逻辑指针，以便用户可以在需要时访问文件。[4]指针和引用．

重复数据删除系统删除它们发现的冗余数据，然后创建一个引用或逻辑指针，指向主机保存的单个数据实例。在多个用户存储同一条信息的位置上有指针

重复数据删除类型

文件级重复数据删除

它通常称为单实例存储，文件级数据重复删除通过对照索引检查已存储的文件的所有属性来比较必须归档或备份的文件。

块级重复数据删除

块级数据重复删除是在子文件级的基础上操作的。顾名思义，文件被分解成段、块或块，将检查之前存储的信息与冗余。

确定冗余数据的流行方法是为数据块分配标识符，例如使用哈希算法-它为特定的块生成唯一的ID。特定的惟一Id将与中心索引进行比较。在ID已经存在的情况下，它表示之前只处理和存储之前的数据。因此，只有一个指针引用保存到以前存储的数据。如果ID是新的且不存在，则该块是唯一的。唯一的块被存储，唯一的ID在索引中被更新。

需要检查的块的大小因供应商而异。一些将使用固定的块大小，而另一些则使用可变的块大小，同样，也有少数人可能为了混淆而改变固定块大小。固定大小的块大小可能从8KB到64KB不等，但它的主要区别是块越小，它就可能有机会将其识别为重复数据。如果存储的数据比存储的数据少，显然意味着存储的数据会减少更多。使用固定大小的块的唯一主要问题是，如果文件被修改，重复数据删除结果使用相同的先前检查结果，那么就有可能无法识别相同的冗余数据段，因为文件中的块将被移动或更改，它们将通过抵消其余的比较从更改中向下移动。

可变块级重复数据删除

Datalinks的Orlandini.[6]表示，比较不同大小的数据块，可以减少碰撞的几率

重复数据删除何时发生?

嵌入式重复数据删除

内嵌重复数据删除是最经济有效的重复数据删除方法。它减少了系统所需的裸磁盘空间，因为完整的、没有重复数据删除的数据集永远不会被写入磁盘。内联重复数据删除减少了灾难恢复准备的时间，因为系统不需要等待使用整个数据集，并且在开始在远程端复制数据之前，就进行了重复数据删除。

后处理重复数据删除

处理后重复数据删除指的是这样一种系统:只有在数据集已经转移到数据存储位置之后，软件才会处理和过滤冗余数据。这也称为异步重复数据删除，通常在管理人员认为在传输过程中或在数据发送到存储位置之前删除重复数据不可行或效率低的情况下使用。

客户端重复数据删除

客户端重复数据删除与所有其他形式的重复数据删除不同之处在于，在必须通过网络发送重复数据之前，只首先识别重复数据。这无疑会对CPU造成负担，但同时也降低了网络的负载。利用客户端重复数据删除为我们提供了很多优势，因为虚拟环境中有大量重复信息，而且数据是通过高度拥塞的IP网络发送的。

靶向性重复数据删除

目标重复数据删除将在备份传输通过源和目标之间的设备时从备份传输中删除冗余。与源重复数据删除不同，目标重复数据删除不会减少备份期间需要通过WAN或LAN传输的数据总量，但会减少所需的存储空间量。

全局重复数据删除

全局重复数据删除是指在将数据备份到多个重复数据删除设备时，消除冗余数据的过程。这种情况可能需要将数据备份到多个目标重复数据删除系统，或者在源重复数据删除情况下，可能需要备份到多个备份节点，这些备份节点本身将备份多个客户端。[7]

重复数据删除发生在哪里?

在确定在组织中使用的最佳重复数据删除解决方案时，需要考虑一些技术因素。需要考虑的主要问题包括:重复数据删除是否必须在信息备份目标或源处进行。此外，您应该考虑立即重复数据删除或计划重复数据删除体系结构是否适合您的备份环境。本节将进一步描述这些特性。

基于源代码的重复数据删除

在基于源的重复数据删除中，冗余数据的消除发生在源处。这意味着数据重复删除过程在备份过程开始时执行，在数据传输到备份环境之前。基于源的重复数据删除将大大减少备份过程中通过网络发送的大量备份数据。因此，存储备份文件所需的容量将大幅减少。

靶向性重复数据删除

基于源的重复数据删除的替代方法是基于目标的重复数据删除。重复数据删除在备份存储设备上执行。在这种重复数据删除中，用户通常不需要更改现有的备份软件。在基于目标的重复数据删除中，要求将所有备份文件复制到备份系统，因此在基于目标的备份中，它不会为我们提供减少备份客户端到目标带宽需求的解决方案

重复数据删除技术是如何工作的:在数据库中只存储唯一的数据

数据重复删除比较数据，通常是块或文件，并消除数据集中已经存在的冗余数据副本。它删除不是唯一的文件。该过程包括以下步骤

a.首先将输入数据划分为块或块。

b.需要计算每个区块的哈希值。

c.得到的值用于确定相同数据块是否已经存储。

d.将冗余数据替换为数据库中已经存在的数据块的引用或指针。

数据分块后，根据结果创建索引，可以找到并消除冗余数据。每个块只存储一个副本。

一旦将数据划分为块，就可以根据得到的结果创建索引，并将发现的冗余数据删除。每个块只存储一个副本。数据重复数据删除过程可以有多种不同的实现方式。可以消除重复的数据，只需将文件之间进行比较，并删除不再需要和旧的数据。

哈希冲突是重复数据删除的潜在问题。当它接收到哈希号时，将该号码与其他已经存在的哈希号的索引进行比较一些算法可以用来找到哈希数，例如SHA, MD[9]，它是使用AES算法加密的，然后数据被外发到云环境

SHA-1为安全应用程序创建所需的加密签名。SHA-1的160位值为每条数据创建唯一的值。

MD5 -也是为加密目的而设计的，它创建128位散列。当两个不同的块产生相同的哈希值时，通常会发生哈希冲突。这种可能性确实非常小，但SHA-1被认为是上述两种算法中最安全的。

位比较

比较两个数据块的最简单方法是通过比较两个块来执行位级。执行I/O所涉及的成本是读取和比较它们所必需的。

自定义方法

在这里，他们自己的哈希算法与其他方法相结合，以识别一些供应商使用的重复数据。[11]

如果比较后的哈希数已经在索引中，则认为该数据是重复的，不需要再次存储。否则，新获得的哈希号将被添加到索引中，并存储新数据。在非常罕见的情况下，可以发现对于两个不同的数据块获得相同的哈希数。无论何时发生哈希冲突，系统都不会存储新数据，因为它发现它的哈希号已经存在于索引中。这将给出错误的结果，进而导致数据丢失。所以一些数据供应商会结合哈希算法来降低哈希碰撞的概率。一些供应商还将检查元数据以查找和识别数据并防止冲突。[8]

重复数据删除的优点

重复数据删除承诺公司可以在每个存储设备上存储数倍于以前的数据。

•有效增加网络带宽-如果在源端进行重复数据删除，则无需通过网络传输任何数据副本。

•-更环保‖环境—在主要和远程位置存储数据所需的空间更少，所需的电力也更少。

•业务线流程继续畅通无阻，确保更快的恢复。

•购买和维护更少的存储空间将为我们带来更快的回报。

•需要更少的空间来保存备份数据的指针，而不是存储数据副本本身。

•整体数据的存储成本更低-因为我们存储的更少。[6]

重复数据删除的缺点

十字路口系统公司的首席执行官Rob Sims说，重复数据删除系统的实施、维护和购买都很昂贵。

此外，公司需要有更多的数据去重复，以节省更多的钱，比他们通常做的基本压缩技术。他说，哈希算法的执行和哈希的比较使得重复数据删除使用大量的处理和能源。根据data link的Orlandini的说法，大多数公司都在小型设备中使用重复数据删除技术，这些设备最多可以处理100tb的数据，这对于大型设备来说是不够的。

Sims说，组织可以通过使用许多设备来保持性能和增加容量，但只有在支持集群、数据库和使用相同哈希表的机器上才能使用。Orlandini说，由于许多重复数据删除系统不提供冗余，如果大型设备崩溃，与它一起工作的存储阵列将暂时不可用。

安全

西姆斯说，重复数据删除系统变得越广泛，如果哈希数据库发现问题，公司遭受的损失就越大。他指出，用户必须定期备份数据库。不同的产品无法提供与重复数据删除技术相同的安全性，因为该技术尚未标准化。

安全也受到技术的威胁，因为用户不能加密他们必须去重复的数据。it基础设施服务供应商Curtis Preston表示，加密将阻止系统准确识别和读取用于重复数据删除的存储信息。

数据完整性

通过将数据分解成块，重复数据删除消除了分隔所有数据组的边界。他解释说，这给那些遵守政府相关规定的组织带来了问题，这些规定要求公司分别保存不同类型的财务记录。他指出，由于数据被分解成块，重新组装和重复删除，当公司需要证明产生的数据是实际存储的数据时，律师将会排队回答安全和完整性问题

一家数据管理、数据流动和集成供应商的首席执行官斯科特·吉德利(Scott Gidley)解释说，制药、电信和金融服务等技术相关行业已经采用了重复数据删除技术。然而，技术会消耗大量的处理资源、能源，而且成本高昂，并不适合所有最终用户。然而，市场研究公司Gartner Inc.负责战略和存储技术的副总裁大卫·拉塞尔预测，如果成本更低，在未来五年内，重复数据删除肯定会像压缩一样成为常见功能。他说:“现在已经不再是新兴技术，而是处于早期主流阶段的技术。‖经济因素更值得忽视

加密如何影响重复数据删除

重复数据删除工作通过删除冗余块、文件或数据，加密将数据转化为本质上随机的数据流。因此，如果首先加密的数据是随机的，就不可能去重复它。因此，必须先对数据进行重复数据删除，然后再进行加密。[11]

应用程序

混合云的构建主要是为了适应任何IT环境或架构，无论是任何企业范围的IT网络还是任何部门。存储的公共数据可以从社交媒体进行的统计分析中进行分析，政府实体可以用来增强和分析他们自己的企业数据立场，这是内部的，以获得最形式的混合云效益。但是，分析云之间的大数据和高性能计算是具有挑战性的

结论

在IT行业中使用混合云架构可以同时使用公共云和私有云来提供许多好处，采用重复数据删除在云中存储数据将以更低的成本为我们提供更好的存储好处。

确认

衷心感谢我的NMAM理工学院、导游和工作人员一直以来对这次调查的支持，最后感谢我的朋友们在这项工作中的配合。

表格一览

表1

数字一览


图1	图2	图3	图4

参考文献

尼尔·莱维特，《混合云走向前沿》。‖由IEEE计算机学会出版，2013年5月。

Danny Harnik, Benny Pinkas, Alexandra Shulman- Peleg <云服务中的侧通道云存储中的重复数据删除>。‖由ieee计算机和可靠性协会共同出版，2010年11月/ 12月。

http://searchcloudcomputing.techtarget.com/tutorial/Hybrid-cloud-computing-explained

https://education.emc.com/academicalliance/documents/EAA_Content/Exercises/An% 20 emc % 20角度% 20 % 20的% 20数据重复删除% 20 backup.pdf % 20

大卫·吉尔，”减少的2008年12月—数据重删‖的存储负担。

https://www.daniweb.com/images/attachments/0/WP_Deduplication_US_Letter_090702.pdf

http://en.wikipedia.org/wiki/Data_deduplication#Deduplication_overview

http://www.computerworld.com/article/2474479/data-center/data-deduplication-in-the-cloud-explained--part-one.html

李锦，李彦杰，陈晓峰，Patrick P. C. Lee，娄文静，“一种基于混合云的安全授权重复数据删除方法”，ieee学报，卷:PP，第99期，发表日期:2014年4月18日

张阳，吴永伟，杨广文，一种分布式数据重复删除解决方案，第13届网格计算国际会议，2012

http://www.computerweekly.com/report/Data-deduplication-technology-review

张慧，蒋国飞，吉平健二，陈海峰，AkhileshSaxena，一种混合云计算模型的智能工作负载分解，IEEE计算机学会，2009

博尔哈索托马约尔，Rubén S.蒙特罗和伊格纳西奥M.略伦特，伊恩福斯特，虚拟基础设施管理

私有和混合云，由IEEE计算机学会出版，2009年

陈晓明，陈晓明，陈晓明，重复记录检测方法的研究，计算机工程学报，VOL. 19, NO. 1。2007年1月1日

Srivatsamaddodi, Girija V. Attigeri, DrkarunakarA。k、重复数据删除技术与分析。第三届工程与技术新兴趋势国际会议IEEE, 2010