关键字 |
备份服务、缓存、数据重复数据删除。 |
介绍 |
数字数据的爆炸性增长,数据重复数据删除技术已经得到了越来越多的关注在备份存储系统的存储效率。今天,在用户数据共享平台的挑战的背景下,大规模、高冗余网络数据存储是高的。由于这种冗余存储成本降低。存储这个日益集中的网络数据可以得到德重复。重复数据删除描述了类的方法,减少存储数据所需的存储容量或的数据量必须通过网络传输。这些方法检测粗粒度数据集内的冗余的,例如一个文件系统;数据重复数据删除技术不仅降低了存储空间需求通过消除冗余数据,也最大限度地减少重复数据的网络传输网络存储系统。它将文件分为多个块,每个惟一地标识一个哈希签名称为指纹。删除重复的块通过检查他们的指纹,这避免了字节,字节比较。主要数据重复数据删除关注不同的术语如吞吐量、推进分块方案、其他类型的存储容量和聚类方法和系统工作负载。 |
作为缓存的数据经过或从存储/处理/网络设备,一些数据是有选择地存储在缓存中。当一个应用程序或过程后访问数据存储在缓存中,请求可以比从慢设备更快从缓存中。请求可以从缓存提供越多,越快是总体系统性能。缓存有一种权衡成本和性能。更大的缓存收益率较高的缓存命中率,因此更好的性能。不幸的是,硬件用于缓存通常更昂贵的比硬件用于存储、处理或网络设备。因此,缓存设计尺寸和性能之间的权衡。最好的缓存算法收益率更高的命中率对于一个给定的缓存大小。三个最常见的类型的缓存:CPU缓存,用来加速处理器;存储缓存,旨在加快存储I / O; and web/ network cache, designed to improve responsiveness of web applications In this paper we introduces A framework for Application based deduplication scheme based on caching method gives the better lookup performance for index structure based on application system on cloud network so that it gives the various chunking methods and improve data transfer efficiency and save cost on cloud services. Mainly detection is focus on locality based approach that gives various block stored on cache memory containing fingerprint with chunk id and block number so that index lookup make easily and storage capacity increases. This locality information contains information regarding backup files of current data that used during compare backup data of one or more backup files. Update database if new data is available and store in container of database. |
LITEARTURE调查 |
云备份服务已经越来越受欢迎的一个伟大的关注。云备份服务已成为一个成本效益的选择数据安全的个人云环境[8]和重复数据删除技术效率,改善Yinjin傅,出版社[4]本文介绍ALG dedupe系统用于结合本地和全局重复数据删除维护效率。提出了系统可以查找性能的优化性能,用于个人云环境和减少系统过载。现有的方法,介绍了备份服务的重复数据删除技术只关注消除冗余数据在传输备份操作,以减少备份时间和没有注意恢复时间。Yujuan Tan出版社[5]介绍了出租车架构,抓住了休闲关系数据集用于备份和恢复操作。它是集成到现有的备份系统。这种架构删除冗余数据的传输不仅备份操作,而且恢复操作,提高备份和恢复性能以及减少减速比。东方赵,出版社[1]提出了一种分布式存储的中间件,称为HyCache +,计算节点使用,它允许I / O带宽高bi部分高速互连的并行计算系统。HyCache +给出了POSIX接口与记忆最终用户类I / O吞吐量和延迟,和透明地交换缓存的数据与现有的速度慢,但高容量网络附加存储。这种缓存的方法显示了传统29 x加速/ LRU算法。 Deduplication on primary storage system is rarely used because of the disk bottleneck problem [9].There has been many different ways to solve the index lookup problem these effort have typically been limited to backup systems. Dirk Meister, et.al [2] this method is try to capture the locality information of a backup run and use this in the next backup run to predict future chunk requests. Using this method less I/O operation is needed and gives the better performance of lookup problem than Zhu performances that overcome in BLC approach. Wildani, et.al [3] the hands technique that used in this paper reduces the amount of memory index storage and making primary deduplication cost effective. This technique use the fingerprint cache and LRU caching algorithm and working set is calculated for fingerprint making group of Fingerprint so that single entry of fingerprint is accesses into memory index cache due that number of cache hit ratio increases. |
提出的系统模型 |
数据重复数据删除技术已成为一个有吸引力的无损压缩技术一直被应用在各种网络效率和存储优化系统,提出了一种新的基于应用程序的重复数据删除方法使用本地缓存包含备份数据块云备份服务,如图1所示。从备份文件作为输入文件冗余或复制数据文件,想删除处理,提高存储效率这个系统根据文件类型使用不同的分块方法。文件过滤,因为包含小文件有不到10 KB大小。后,集团在MB的文件得到过滤,然后不同的分块策略中使用这个系统。块和文件类型然后删除处理通过计算哈希值名称作为指纹使用不同的散列算法这指纹图谱新条目存储在容器的云。指纹存储寻找副本,我们被使用块位置索引方法索引条目名称的批号和块id。所有这些信息存储在块和块存储在缓存中。如果我们搜索指纹块和找到匹配项,文件包含块的块指纹并指向的位置更新现有的指纹。如果没有匹配,那么新的指纹存储在云中基于容器管理,相关文件的元数据更新为指向它,一个新条目添加到应用程序知道索引,索引的新块指纹。由于这种系统增加和系统过载性能降低。 |
1。不同的分块方法根据文件类型是否文件是压缩文件或未压缩的文件。组块是可以做到的。主要流程文件在哪里打破分割成块大小相同或变量的大小。对于这个系统使用不同的分块方法为整个文件分块文件包含压缩文件和静态和动态分块压缩文件。和指纹识别块边界使用拉宾散列。所以我们使用智能块分块方法。 |
2。基于应用程序的deduplicator散列技术通过生成指纹包含散列值,发现重复的块云。未压缩的文件我们使用MD5为静态动态分块和沙。 |
结果和讨论 |
1。哈希代性能 |
在图2显示的比较散列算法生成散列值的指纹在MB大小和时间显示了包含文件哈希算法的比较。哈希指纹方法可以减少系统在云系统过载。我们观察到的性能拉宾散列MD5和SHA散列算法从整个文件分块和静态组块即SC组块定义和内容即疾控中心4 kb的块大小。拉宾散列给低计算开销比MD5和SHA和运行时间的拉宾哈希和MD5小于的沙。由于文件,减少碰撞沙性能比MD5和拉宾散列。这样我们使用目的为pdf文件和文本文件的MD5和SHA拉宾整个文件的哈希。 |
2。重复数据删除比率 |
图3显示,重复数据删除的比较不同的块大小文件包含20 MB为文本文件和PDF文件。它随着块大小的增加影响重复数据删除比率在时间因素,只为提高备份性能和减少系统开销,提高数据传输。云效率是至关重要的。所以我们使用不同的分块策略如疾控中心和静态组块为提高系统的运行性能,增加重复数据删除比率。块大小的变化影响重复数据删除技术效率。维护我们得到更好的重复数据删除的块的阈值大小比pdf以及文本文件。 |
3所示。缓存性能 |
比较图4显示了搜索的块缓存和单一缓存与职责文件大小和时间在米利第二。新恢复时间缓存和预取技术,利用未来的完美知识块访问可用时恢复备份,以减少所需的内存缓存的对于一个给定的水平恢复时间。因为现代磁盘相对贫穷的随机I / O性能相比,顺序I / O,块碎片影响恢复性能。使用块缓存查找系统的性能比单缓存和系统需要增加更少的I / O操作,这样搜索文件的时间需要更少的时间,与传统的系统相比。 |
结论和未来的工作 |
对于云存储,使用重复数据删除技术及其性能,并建议索引块级别的重复数据删除技术的变化和改善备份性能和减少系统开销,提高数据传输效率对云是至关重要的,这样,我们提出的方法基于应用程序的重复数据删除和索引方案,保留缓存维护的位置指纹的重复内容的帮助下实现高命中率散列算法,提高云备份性能。提出了一种新颖的变化重复数据删除技术和显示,实现更好的性能。目前,优化云存储测试只对文本文件和pdf文件在未来,它可以进一步扩展到使用其他类型的文件即视频和音频文件。 |
数据乍一看 |
|
|
引用 |
- 东方赵,菅直人乔Ioan Raic y,“HyCache +:可伸缩的高性能并行文件系统缓存中间件”,美国能源部科学办公室合同DE-AC02-06CH11357, 2014。
- 德克迈斯特,尤尔根•凯泽,“重复数据删除本地缓存的数据块”。在十一届USENIX大会程序文件和存储技术(快速)。USENIX, 2013年2月
- a . Wildani e·l·米勒,O.Rodeh。手:一些安排non-backup在线重复数据删除系统。技术报告UCSCSSRC-12-03,加州大学圣克鲁斯分校,2012年3月
- Yinjin傅,江,侬肖,Lei,方,“感知应用程序本地全球云备份服务的个人存储源重复数据删除“IEEE国际会议上集群计算在个人计算环境(2012)
- h . y . Tan江,d, l .田和z燕。CABdedupe: causality-based重复数据删除云备份服务的性能助推器。2011年《IEEE国际并行和分布式处理研讨会(IPDPS), 2011年。
- 哲太阳,小君沈。都:构建一个重复数据删除存储在云计算系统。第15届国际研讨会论文集在计算机支持的协同工作的设计,2011年
- Yinjin傅,江,侬肖,Lei,方Liu“AA-Dedupe:感知应用程序源云备份服务的重复数据删除方法“IEEE国际会议上集群计算在个人计算环境(2011)
- d . Harnik b Pinkas, a . Shulman-Peleg。方渠道在云服务:云存储的重复数据删除。IEEE安全和隐私,8(6):40-47,2010年
- 朱,李k和h·帕特森。避免磁盘瓶颈在数据域重复数据删除的文件系统。2008年快,
- n . Mandagere周p、m·a·史密斯和Uttamchandani。解密数据重复数据删除。同伴的08年:诉讼ACM /联合会/ USENIX中间件的08年会议的同伴,页12 - 17,纽约,纽约,美国,2008年。ACM
- 许,W W。,SMITH, A. J., AND YOUNG, H. C. The automatic improvement of locality in storage systems.在计算机系统23日ACM的事务4 (2005),424 - 473
- 帕特森,r . H。吉布森,g。方面,E。,STODOLSKY, D., AND ZELENKA, J. Informed prefetching and caching. In十五ACM学报》研讨会上操作系统的原则(1995年12月),ACM出版社,页79 - 95。
|