所有提交的EM系统将被重定向到网上投稿系统。作者被要求将文章直接提交给网上投稿系统各自的日志。

文件同步技术:综述

Gyanaranjan Shial1还有Santosh Kumar Majhi2
  1. VSS科技大学,Burla,INDIA-768018
  2. 印度理工学院,布巴内斯瓦尔,INDIA-751013
通讯作者:Gyanaranjan Shial
有关文章载于Pubmed谷歌学者

更多相关文章请访问全球计算机科学研究杂志

摘要

我们生活在信息时代。千兆字节、千兆字节、千兆字节量级的大量数据内容被从一个噱头传输到另一个噱头。坏消息是,互联网提供商提供的网络带宽是确定的。在不同的计算机组织中删除所有文件将花费很长时间。最直接的解决方案是在计算机系统的集群中以更好的方式同步文件,这将消耗更少的带宽,并将提供更快的文件同步操作。文件同步的主要问题是如何以有效的带宽传输媒体文件。除此之外,这个文件需要在短时间内传输,这样客户端就不应该等待文件传输发生。在Rsync[1][7][3]中对此主题有非常广泛的研究。为此,我们需要开发一些机构中心之间的同步技术,以便文件可以在更短的时间内以带宽有效的方式从任何远程位置传输到机构中心。同时,文件需要以所有必需的特权传输到学生平板电脑上。毕竟,该项目的目标是将更新的内容转移到学生平板电脑和相应的机构中心,并在更少的努力和更短的时间内提供测试材料、视频讲座、课堂笔记、应用软件等内容,并收集学生的反馈。

介绍

一种常见的方法是将A和B之间的差异沿nexus向下传输,然后使用此差异列表重新构造文件。如果所有更新都记录在可以传输到远程设备的日志文件中,那么文件同步的问题就会更容易一些。但这里的问题是,并非所有设备都可以为所有文件维护日志文件。如果文件数量非常大,维护单独的日志文件将变得至关重要。要确定哪个文件在特定时间内被更改,可以保留文件的更改时间。根据修改,最近修改的文件将作为最新的文件传输到远程位置。但问题并不完全相同,我们必须考虑特定文档中的修改内容,即如果它是像谷歌电子表格这样的内容,则应该传输更新的内容而不是整个文件。本文还同步提出了其他一些技术。

各种同步技术

校验和匹配

在这种技术中,计算两个文件之间的差异,并将增量传输到其他设备。在Rsync中,需要两个校验和来比较两个远程设备之间的文件。第一个ace是周校验和,第二个单是强校验和。周校验和是一个滚动校验和1,可以更快地从之前接收的校验和计算。强校验和2是一个MD4校验和,它比计算弱校验和的成本更高。因此,这里的协议首先检查周校验和中的匹配,当它发现任何匹配时,它将使用强校验和进行验证。当找到匹配时,源机器将传输文件偏移量,之前的匹配和被检查的目标机器块的索引所监视。如果在特定的偏移量中没有找到匹配,那么偏移量将被更新到文件的下一个位置并继续搜索。如果找到匹配,则在匹配块的末尾继续搜索。当两个文件几乎无法区分时,这种技术为匹配文件节省了大量的计算。上面的过程将需要更多的时间来检查是否有多个文件。上述问题可以通过使用管道连接进程来解决,从而获得相当大的延迟优势。
Rsync的改进方法:在Rsync[6]中,客户端向服务器发送哈希值,其中文件同步框架将哈希值从服务器传输到客户端。文件同步框架尝试使用Map Construction[6]和delta Compression[6]技术来确定文件的差异。
地图建设
这里根据地图构建技术在服务器端维护一个地图。假设服务器有一个文件fnew,而客户端有一个文件Fold,那么服务器会将哈希值发送给客户端,客户端会将哈希值与自己的映射文件进行比较。例如,服务器S有一个包含abcxyzbbb的文件,客户端C有一个内容为pppxyzaaa的文件,那么C可以创建一个地雷的映射,看起来如下:??xyz ? ?然后C可以将010发送给服务器,基于此服务器会将缺失的部分发送给C,其中1表示块退出,0表示块不存在

脉冲压缩

然后服务器会创建一个Fref,由fnew中所有客户端不知道的部分组成,并在此基础上创建一个ftarget,并试图通过引用Fref来压缩文件,然后将其发送给客户端。客户端使用它的映射重新创建文件并合并它以创建新文件Fnew。

设备同步属性

可伸缩性

所有基于云的解决方案都比任何其他文件同步方式更具可伸缩性。与其他文件同步方法相比,Slow-sync的可伸缩性较差。可伸缩性也是云存储的一个主要优势,因为它使用户认为存储容量是无限的

成本效益:

HadoopRsync[2]在初始级别会像预期的那样花费更多。但事后效果更好。云存储维护成本低,比其他存储更具成本效益。

数据传输负载

它是任意两个设备之间传输的数据量。这是一个重要的指标,因为它直接涉及到数据传输所需的时间。这个指标将直接影响使用特定同步应用程序的意愿。

计算

在慢同步中,在文件同步过程中不需要更多的计算。在我们的示例中,如果文件在不同的机构中心之间同步,那么这个问题就不那么重要了。当文件在学生平板电脑和机构中心之间同步时,这一点更为重要,因为学生平板电脑(Aakash平板电脑)的处理能力相对低于双核或核对双处理器

网络规模

在所有的文件同步技术中,hadooprsync[2]在网络规模上比其他文件同步方法更具可扩展性。慢同步网络在网络规模上的可扩展性最小。

文件同步协议

内容同步协议用于识别更改、解决可能的冲突,并将更新传播到各个同步设备。此外,Aakash平板电脑的CPU、存储和电力资源有限,因此无法快速处理或传输大量信息。在网络环境中,可伸缩且高效的数据同步协议对于数据密集型应用程序(如电子邮件编辑器、电子表格,甚至协同工作环境)至关重要。仅在一台台式机上同步内容很容易,但在这里我们更重视在多个设备上同步内容,即多设备同步。设计协议的动机是为了解决在大型、异构、无绳网络上同步数据所固有的可伸缩性问题。

HotSync

SlowSync[4]:考虑到两个设备之间的文件同步,文件同步技术建议当一个文件有任何变化时,对应的旧文件将被其他设备上的新文件所取代。这种文件同步方法将消耗更多的带宽和时间。慢速同步在内容非常大的情况下会有更多的延迟时间和带宽占用,可能会在某个时间点由于网络瓶颈而停止同步。快速同步[4]:在这种技术中,如果两个文件在某些部分相似,则会传输两个文件之间的差异。当更多的用户在编辑单个文件时,所有文档中的更改都传输到中心设备时,这是非常有用的,这里是一个机构枢纽。该技术的带宽利用率较慢同步低。许多同步应用程序使用这种技术进行文件同步,并对其进行一些额外的修改。这需要与同一设备的前一次同步意味着将内容与上次同步同步。当多个设备想要将内容更改到同一个数据库时,首先同步并不能提供有效的解决方案,为此我们需要一些有效的协议来实现设备之间的数据同步。

Intellisync

它维护了一个客户端服务器架构,其中所有设备都不使用点对点连接,而是有更新信息的设备需要在网络中的任何地方与Intellisync[4]服务器同步。Intellisync服务器将与Microsoft exchange服务器同步,不是周期性地同步,而是在一定的时间内同步。这种Intellisync和Microsoft之间的同步维护了一个客户端服务器架构,其中所有设备都不使用点对点连接,而是有更新信息的设备需要与网络中的Intellisync Anywhere服务器同步。Intellisync服务器将与Microsoft exchange服务器同步,不是周期性地同步,而是在一定的时间内同步。Intellisync和微软之间的同步
图像
图1:显示智能同步架构

SyncML

SyncML[4]是文件同步的开放行业标准。在这种类型的文件同步协议中,每个设备将为每条记录维护一些状态标志。在修改文件期间,将根据网格中的每个其他设备切换状态标志。它与Hot-sync4[4]协议的fastsync3[4]不同,它在许多噱头中保留了一组状态标志。修改设备中的一组文件不仅会切换该设备的状态标志,还会切换其他设备的状态标志。当两个设备完成同步时,这两个设备的状态标志将被清除。维护一组状态标志,这对于便携式设备来说是相当大的内存。由多个设备组成的网络所需要的存储数量,每个设备大约是n*r个单位

一种加快文件同步的方法

在两个设备上同步内容是非常重要的,因为它的效率对同步网络的整体效率具有乘法效应。通过缩小文件大小,可以显著减少请求的数量,从而加快某个文件集的上传(和下载)。虽然服务器的大小是有限的,所以通过引入减少远程设备中内容数量的概念也可以通过消除对服务器的请求数量来解决问题。如果控制得当,重复数据删除对于最终用户应用程序是一项有效的技术。

组块[5]

在该技术文件中,将文件分成若干部分,如果发现有相似的部分,则在该部分停止拆分。否则,在不匹配的块上进行递归分割,从而使通信成本最小化。在停止分割时选择块的精确大小是rsync的相关建议。

重复数据删除

通过使用快速同步将文件之间的差异发送到服务器或任何设备。重复数据删除5使用multichunking6方法。在某些情况下,文件的块可能是相似的,因为它们具有类似的文件格式或用于创建文件的类似操作系统。在这种情况下,在上传一堆块之前,需要减小大小。所以一种技术是减少类似块的数量到一个块,让另一个引用这个块,它可以在上传文件之前减小大小。文件块之间的相似性取决于块的大小。块的大小越小,相似的块就越多。这是Syncany使用的。因此,可以通过实验来确定块的大小,以获得最大的文件之间的相似性。通过慢速网络同步大型复制文件集合可以通过改进的文件同步[6]技术中描述的更多技术来创建。

未来的工作

文件的重复删除和重建被认为是最适合文件同步的方法,对于各种文件系统来说,为特定文件类型选择最佳块大小是一项具有挑战性的任务。其次,在有限数量的块上以最大相似度重建同一文件也是一项具有挑战性的任务。这两个问题可以在今后的工作中提出。

结论

在所有的文件同步方法中,校验和方法更适用于发现最大相似性的文件。重复数据删除对类似类型的文件效果更好,选择最佳块大小可能会产生最大的块数。因此,获得最大数量相似块的概率取决于块的大小。因此,找到最佳块大小本身就是一个问题,它根据用于同步的文件类型而有所不同。另一个问题是使用相同的块在目标设备中重建相同的文件。分块方法适用于所有文件同步技术。除了其他的文件同步方法,Intellisync还需要建立一个客户端服务器架构。而SyncML需要额外的通信来处理网络上的设备标志。

参考文献

  1. 文件共享的替代方案,http://alternativeto.net/tag/file-sharing/?platform=androidtablet
  2. 张建军,于晓霞,李玉玉,林良。Hadooprsync。在云计算和服务计算(CSC),2011年国际会议上,166-173页。IEEE 2011。
  3. Rsync, 2014年11月19日,http://rsync.samba.org
  4. S.阿加瓦尔,D.斯塔宾斯基,A.特拉亨伯格。pda和移动设备数据同步协议的可扩展性。网络学报,16(4):22-28,2002。
  5. 菲利普·c·赫克尔。通过重复数据删除和多块,最大限度地减少远程存储的占用和同步时间:以Syncany为例。技术报告TR-CS-96-05,曼海姆大学,可靠分布式系统商业信息学和数学实验室,曼海姆大学,2012。http://www.syncany.org/。
  6. t·苏尔,p·诺埃尔和d·特伦达菲洛夫。用于维护大型复制的改进文件同步技术Gyanaranjan Shial等人,全球计算机科学研究杂志,5(11),2014年11月,1-4©JGRCS 2010,所有权利保留4慢网络集合。数据工程,2004。第二十届国际会议论文集,第153 - 164页。IEEE 2004。
  7. A.特里吉尔和P.马克拉斯。rsync算法。技术报告TR-CS-96-05,澳大利亚国立大学计算机科学系,1996年6月。http://rsync.samba.org
全球科技峰会