云上文件的安全分发

Niyamat I. Ujloomwale, Ranjana Badre
麻省理工学院工程学院计算机系，阿兰迪，萨维特里普勒浦那大学，浦那，印度
麻省理工学院工程学院计算机系，阿兰迪，萨维特里普勒浦那大学，浦那，印度

摘要

云计算是值得考虑的，尝试建立业务系统作为企业的一种方式，这种方式无疑可以带来更低的成本，更高的利润和更多的选择;对于规模较大的行业，数据安全已成为云计算安全最重要的问题。虽然提出了许多解决方案，但其中许多只考虑安全的一个方面;本文提出了云数据安全必须考虑的因素，分析了数据安全风险、数据安全需求、安全功能的部署以及通过加密实现数据安全的过程。文件的分发是在云服务器上通过令牌生成完成的。该系统的安全架构采用加/解密算法设计，消除了目前使用被盗数据进行欺诈的情况。系统内发送的任何数据都不存在被拦截和替换的危险。具有加密的系统是可以接受的安全，但是加密级别必须随着计算能力的增加而提高。结果为了保证系统的安全性，对各模块之间的通信进行了加密。由于客户对数据没有控制权，云提供商应该向客户保证数据不会被修改。 In this paper a data correctness scheme is proposed in which a Cloud service Provider assures the user that the data stored in the cloud is safe. This scheme also achieves the integration of storage correctness insurance and data error localization i.e., the identification of misbehaving server(s).

关键字

存储、安全性、挑战、令牌、正确性、错误定位、行为不当的服务器

介绍

云计算是一个非常年轻的概念，在撰写本文时，对其正式定义还没有达成共识，大多数专家都认为云计算是一个包含各种服务的热门概念。其他关注的业务模式通常是现收现付服务。

以下定义从广泛的概念层面来处理云计算:云计算代表了一系列广泛的基于web的服务，旨在允许用户在“随用随付”的基础上获得广泛的功能能力，这些功能以前需要大量的硬件/软件投资和专业技能才能获得。云计算是效用计算的早期理想的实现，没有技术复杂性或复杂的部署担忧。虽然大多数定义不使用这样的一般化概念，但这些一般化通常被隐含为其他定义的基础。这使得上面的定义非常适用。作为上述定义的补充，这些关键技术概念通常与云计算相关(但不是必需的):瞬时和按需资源可伸缩性、并行和分布式计算以及虚拟化。

云计算一般有三种模式(IaaS、SaaS、PaaS)。每一种模型对应用程序的安全性都有不同的影响，当应用程序托管在云中时，会出现两个安全问题:

1.数据的安全性如何?

2.代码的安全性如何?

安全性、可用性和可靠性是云服务用户最关心的问题。云计算是一种基于互联网的计算机技术的开发和使用，几个趋势正在开启云计算时代。更便宜、更强大的处理器，加上软件即服务(SaaS)计算架构，正在将数据中心大规模地转变为计算服务池。不断增长的网络带宽和可靠而灵活的网络连接使用户现在甚至可以从仅驻留在远程数据中心的数据和软件订阅高质量的服务。将数据转移到云端为买家提供了极大的便利，因为他们不必关心直接硬件管理的复杂性。作为云计算供应商的先驱，亚马逊简单存储服务(S3)和亚马逊弹性计算云(EC2)都是众所周知的例子。

虽然这些基于互联网的在线服务确实提供了大量的存储空间和可定制的计算资源，但这种计算平台的转变同时也消除了本地机器对数据维护的责任，如图1所示。因此，用户在数据的可用性和完整性方面取决于云服务提供商。最近Amazon S3的停机就是一个例子。为保证云数据存储的安全性和可靠性，设计了高效的动态数据验证机制和运行目标:

1.存储正确性:确保用户的数据确实被适当地存储在云端，并始终保持完整。

2.快速定位数据错误:当检测到数据损坏时，可以有效定位故障服务器。

3.动态数据支持:即使用户在云中修改、删除或追加数据文件，也能保持相同级别的存储正确性保证。

4.可靠性:提高数据可用性，抵御拜占庭式故障、恶意数据修改和服务器串通攻击，最大限度地降低数据错误或服务器故障带来的影响。

相关工作

Wang C.、Wang Q.、Ren K.和Lou W.在2009年7月提出了一种有效的、灵活的分布式方案，该方案具有明确的动态数据支持，以确保云中的用户数据的正确性。C. Wang、Q. Wang、K.Ren和W. Lou在文件分发准备中使用擦除校正码提供冗余，保证数据的可靠性。与传统的基于复制的文件分发技术相比，这种结构可能会大大减少通信和存储开销。他们的方案在保证存储正确性的同时，实现了数据错误的定位，即在存储正确性验证过程中，只要检测到数据损坏，几乎可以保证数据错误的同时定位。随后在2011年5月，王聪、王倩、任奎、娄文静扩展了他们的工作，允许用户以非常轻的通信和计算成本对云存储进行审计，提出了针对拜占庭故障、恶意数据修改攻击、甚至服务器串通攻击的高效和弹性的方案。

A. Juels和J. Burton S. Kaliski在2007年10月描述了一个用于确保远程数据完整性的正式的“可检索性证明”(POR)模型。他们的方案结合了抽查和纠错代码两种方法，以确保档案或备份服务系统上文件的拥有权和可检索性。2008年，H. shaacham和B.Waters在此模型的基础上，构造了一个基于随机线性函数的同态认证器，该认证器支持无限次的查询，并且需要较少的通信开销。本文阐述了一个改进的POR协议框架，该框架可以推广Juels和Shacham的工作。所有这些方案都专注于静态数据。他们的方案的有效性主要取决于用户在外包数据文件F之前所进行的预处理步骤。对F内容的任何更改，即使是少数位，都必须通过纠错代码传播，因此引入了巨大的计算和通信复杂性。Ateniese等人[10]定义了“可证明数据占有”(PDP)模型，用于确保对不可信存储上的文件的占有。他们的方案利用基于公钥的同态标记来审计数据文件，从而提供了公共可验证性。然而，他们的方案需要足够的计算开销，这对于整个文件来说可能是昂贵的。在2008年的后续工作中，他们描述了一种只使用对称密钥加密的PDP方案。 This method has lower-overhead than their previous scheme and allows for block updates, deletions and appends to the stored file, which has also been supported in our work. However, their scheme focuses on single server scenario and does not address small data corruptions, leaving both the distributed scenario and data error recovery issue unexplored.

一种新的有效的多项式方法在输入的大小(即。密钥或数据)是由M. A. Shah, R. Swaminathan和M. Baker于2008年在“隐私保护审计和数字内容的提取”中提出的。来自审计人员的主要威胁是，它可能从审计过程中收集重要信息，这可能会损害服务提供的隐私保证。例如，即使是包含病史的文件中的一小部分也可以揭示客户是否患病。为了保证隐私，对加密数据和加密密钥存在不同的标准。对于数据，系统依赖于(1)加密方案的强度和(2)协议的零知识属性进行加密密钥审计。

为了确保跨多个分布式服务器的文件完整性，使用擦除编码和块级文件完整性检查是由T. S. J. Schwarz和E. L. Miller在2009年提出的。但是，他们的方案只考虑静态数据文件。

在点对点文件共享网络中使用基于rsa的哈希来验证数据完整性是由D. L. G. Filho和P. S. L. M. Barreto在2006年定义的。然而，他们的建议需要对整个数据文件求幂，这对于服务器来说显然是不切实际的，只要文件很大。

算法

文件数据被分割成长度相等的数据向量。数据向量长度=tot。不。文件/no中的字节数。的服务器。这将文件划分为n个块。每个向量代表伽罗瓦场矩阵的数据块。为Matrix_Multiply()函数使用Vander monde矩阵。使用GF(2)上定义的Vander monde矩阵构造A^w)．对每个数据向量进行向量与A的乘法运算。比如g1 g2等等。

Sum = 0;计数= 0;

For k=1 to File_length Do

For i=1 to datavector_length

sum = sum +vector[i] *A[count];

对所有数据向量做

如果k = count，则Gm [i] =sum;

结束了

Count = Count + 1;

结束了

令牌预计算

在云服务器上存储数据向量之前，用户预先计算验证令牌。这些令牌用于检查存储在云服务器上的数据的完整性。此外，这些令牌还用于定位数据已被黑客修改的云服务器。在数据分割和分散文件之前，用户在各个数据向量上生成令牌。当用户想要检查数据的正确性时，他将文件标识符发送到云服务器。用户也可以对特定的数据块发送挑战。每个云服务器收到挑战令牌后，在数据向量上计算令牌，并将其发送给用户。

步骤1。选择参数r作为每次验证的指标数量和伪随机函数f，伪随机排列函数?

步骤2。选择参数t，即要生成的令牌数量，l是数据向量的长度。

步骤3。选择α作为一个向量来计算标记，选择V来存储标记。

步骤4。将文件作为字节数组读取。将这个字节数组分成若干部分。每个部分包含字节，并用多项式表示。例如(将字节数组分成3部分)

P (x) = 1 x⁸x + 1⁷+ 0 x⁶+ 0 x⁵+ 0 x⁴+ 0 x^3.x + 1²x + 1¹x + 1⁰

对于j=1到n，执行

从i =1到t

Α[i] = f (i)

Sum = 0

从q =1到r

= gj [?(我)

b =幂(α[i]， q)

Sum = Sum + a *b

结束了

如果j = 0，则V1 [i] = V1 [i] + sum

如果j= 2，则V3 [i] = V3 [i] + sum

结束了

Vj =添加V1, V2, V3

步骤5:将token存储到数据存储中如果j= 1则V2 [i] = V2 [i] + sum

B正确性验证和错误定位

如果用户希望验证存储在云服务器上的数据的正确性，则比较令牌。用户可以选择文件名来检查数据(文件部分)是否正确。根据挑战请求，云服务提供商选择服务器并将数据发送给客户端。客户端生成令牌并与存储在客户端上的令牌匹配。如果令牌匹配，则存储在服务器上的数据是正确的。但如果令牌不匹配，则特定服务器行为不当。在响应此用户请求时，更正服务器上的数据文件。

步骤1。用户显示i^th挑战以及第i个排列键到每个服务器。

步骤2。服务器存储向量g_jaggregate将第i个索引指定的r行收集到线性组合r中_我

步骤3。在收到所有服务器的Ri后。在用户端为该数据生成令牌。

步骤4。这些令牌与用户端存储器上存储的令牌相匹配。用户通过令牌T验证接收到的数据是否仍然有效。

C错误恢复

无论何时检测到数据损坏，对预先计算的令牌和接收到的响应值进行比较可以保证识别出行为不当的服务器。因此，用户总是可以要求服务器发送回挑战中指定的r行的块，并通过擦除纠正重新生成正确的块，如算法4所示，只要识别出最多k个行为不端的服务器。然后，新恢复的块可以重新分发到行为不端的服务器，以保持存储的正确性。

步骤1。使用上述算法在指定的r行中检测块损坏。

步骤2。假设s≤k个服务器被识别出有错误行为。

步骤3。从服务器下载行块。

步骤4。处理服务器作为擦除和恢复块。。

第5步。将恢复的块重新发送到相应的服务器。

D动态数据支持

在当今的场景中，许多应用程序都需要动态数据，如电子文档、日志文件、医疗数据等。因此，考虑动态情况是至关重要的，用户可以进行更新、追加等各种块级操作来修改数据文件，同时应保持存储的正确性。

假设用户想要更新数据块心肌梗死．更新后的数据块mi变成心肌梗死”。由于Reed-Solomon代码的线性特性，用户可以在不影响其他块的情况下执行更新操作。之前的符号心肌梗死块被擦除并替换为生成的新令牌心肌梗死”。这可以用同态标记来实现。

在某些情况下，用户可能希望通过在数据文件的末尾添加块来增加存储数据的大小，我们称之为数据追加。大多数时候，追加操作在云存储中包含大量的块。有了这个工具，用户可以上传大量的块到它的数据文件。在文件分发准备中，在数据文件的末尾追加块只是将文件F中的数据向量连接起来。

性能分析

其考虑的措施有:

i)生成代币所需的时间。

ii)上传和下载文件的通信时间(审核)。

首先在四个运行在2.13 GHz, 2GB RAM的Intel core 2 duo系统上实现了所提出的模型。我们考虑一个系统作为客户端，另外三个系统作为云服务提供商和云服务器。四个系统通过局域网相互连接。然后在aws.amazon.in上发布。

该系统不需要在3个存储服务器上分别存储完整的文件，降低了维护和通信成本。令牌生成时间以毫秒为单位，如图2所示。例如，如果文件大小为200 kb，生成令牌所需的时间为30毫秒。

为了防止数据丢失或损坏，需要定期检查存储在每个服务器上的数据的完整性。数据用户向云服务器发送挑战。如果服务器未能通过完整性检查，则在不影响其他服务器的情况下，生成与之前存储在损坏存储服务器中的数据包完全相同的数据包来完成修复任务。

这种修复方法不会在新生成的数据包和存储在健康存储服务器中的数据包之间引入任何额外的线性依赖关系，因此可以保持数据的可用性。在分布式存储系统中，为了保证数据的可靠性，可以采用多种数据冗余技术，如复制、擦除码、网络编码等。在图3中，数据可用性是数据用户从n个存储服务器的任意k组合中恢复原始数据的概率。例如，在服务器1上，文件part1和文件part2被存储。在服务器2上存储文件part2和文件part3，在服务器3上存储文件part3和文件part1。在上述场景中，即使一台服务器故障，100%的数据也可以恢复。

数据用户可以通过访问任何一个存储服务器来检索原始数据，而损坏的服务器可以通过简单地从正常的服务器复制所需的数据来修复。图4显示了在云端上传文件所需的时间。如果文件大小更小，所需的上传时间也会更少。

结论及未来工作

实现的灵活分布式方案为服务质量的主要参数——数据安全提供了方法。贡献有

1.数据分割——如果数据被分割成越来越小的部分，黑客很难获得完整的数据。

2.服务器错误行为-定位未授权用户修改的服务器。

3.借助令牌预计算检查数据的完整性。

该方案提供了动态数据的更新、追加等块操作。这也确保了在通信链路故障或特定服务器行为不当时的数据可用性。提议的系统仅限于文本文件。在未来将工作的图像，视频，音频文件。

数字一览


图1	图2	图3	图4

参考文献

王春，王强，任凯，娄伟，“确保云计算中的数据存储安全”，载于IWQoS, 2009年7月，第1 - 9页。

A. Juels和J. Burton S. Kaliski，“Pors:大文件可检索性的证明”，载于CCS, Alexandria, VA, Proc.， pp.584-597, 2007年10月。

G. Ateniese, R. Burns, R. Curtmola, J. Herring, L. Kissner, Z. Peterson和D. Song，“在不受信任的存储中可证明的数据占有”，载于CCS，亚历山大，弗吉尼亚州，2007年10月，第598-609页。

Wang Q.， Wang C.， Li J.， Ren K.， and W. Lou，“在云计算中为存储安全启用公共可验证性和数据动态”，载于ESORICS pro .， LNCS卷5789。Springer-Verlag, pp. 355-370, 2009年9月。

R. Curtmola, O. Khan, R. Burns和G. Ateniese，“Mr-pdp:多副本可证明的数据占有”，载于ICDCS, IEEE计算机学会，第411-420页，2008。

K. D. Bowers, A. Juels和A. Oprea，“冰雹:云存储的高可用性和完整性层”，在CCS Proc.， pp. 187-198, 2009

k . c . Wang任、w·卢和j·李对公开可审计的安全云数据存储服务的,IEEE网络杂志,卷。24日,没有。4，页19-24,2010。

G. Ateniese, R. D. Pietro, L. V. Mancini和G. Tsudik，“可扩展和有效的可证明数据持有”，载于《SecureComm》，2008年第1-10页。

H. Shacham和B. Waters，“可检索性的紧凑证明”，载于《Asiacrypt》，LNCS第5350卷，第90-107页，2008年。