在线刊号(2320-9801)印刷刊号(2320-9798)
Jayesh D. Kamble, Y.B.Gurav教授
|
有关文章载于Pubmed,谷歌学者 |
更多相关文章请访问国际计算机与通信工程创新研究杂志
在云计算中,分布式文件系统是采用映射约简范式的关键构建块。在这样的系统中,节点执行不同的操作,如计算和存储。在分布式文件系统中,通过将一个大文件划分为小块,这些不同的操作在不同的节点上并行执行。在云计算设置中,故障是指规范和节点在系统中也被升级、替换和辅助。可以动态地创建、删除和追加文件。这将影响分布式文件系统中的负载不平衡;这意味着文件块没有尽可能均匀地分布在节点之间。在云中,如果存储节点数量、文件数量和对该文件的访问数量增加,那么中心节点(MapReduce中的主节点)就会成为瓶颈。负载均衡任务用于消除中心节点上的负载。采用负载再平衡算法,平衡了节点的负载,降低了节点的移动成本。本文克服了负荷不平衡的问题。 And we are going to consider the security while rebalancing the load of distributed file system as well.
关键字 |
云,分布式文件系统,HDFS, Hadoop,负载重新平衡,安全 |
介绍 |
正如我们所知,云计算正在成为大规模分布式计算的一种新原型。云计算负责将计算和数据存储从台式机转移到便携式pc,转移到大型数据中心,这已经成为计算机科学的一部分。它有能力利用互联网和广域网的力量来远程获取资源,从而为大多数现实生活需求提供经济有效的解决方案。它通过Internet提供可伸缩的It资源,如应用程序和服务,以及它们所运行的基础设施,作为按使用付费的基础,以便快速轻松地调整容量。它有助于适应需求的变化。 |
云计算系统对用户非常友好,因为它不需要任何专业知识即可使用。它是按需出售的,通常按分钟或小时出售。云可以是私有的,也可以是公共的。无论是私有的还是公共的,云计算的主要目标是提供对计算资源和IT服务的简单、可扩展的访问。云计算为用户提供了一整套服务,比如:数据存储即服务、应用软件即服务、计算平台即服务、计算基础设施即服务等。 |
在云计算技术中,用通信网络连接起来的计算机系统的数量。云有各种各样的特征,如可伸缩的,随需应变的服务,以用户为中心,功能强大,通用,平台独立等。在云计算中,有三种技术包括MapReduce编程、虚拟化和用于数据存储的分布式文件系统。 |
分布式文件系统是以块的形式用于云计算的文件系统的有效模型。分布式文件系统的映射约简编程应用于云计算。Map reduce就是hadoop中的主从架构。Master像Namenode, Slave像Datanode。Master将一个大问题划分为子问题,并将其分配给工作节点,即多个slave分别解决问题。在分布式文件系统中,将一个大文件划分为若干块,并将每个块分配给单独的节点,在每个节点上并行执行MapReduce功能。在分布式文件系统中,节点的负载与该节点拥有的文件块数量成正比。云中的文件有可能被创建、删除和追加,节点可能在文件系统中被任意升级、替换和添加,文件块的分布并不均匀地分布到节点之间。在云环境中,负载均衡是存储节点之间的重要功能。云中的分布式文件系统依赖于中心节点来管理文件系统的元数据信息,并根据该元数据来平衡存储节点的负载。 |
在存储和网络不断增加的今天,负载均衡是大规模分布式系统的主要因素。为了提高系统性能、资源利用率、响应时间和稳定性,需要在多个节点上实现负载均衡。负载均衡分为静态和动态两类。在静态负载均衡算法中,在分配负载时不考虑节点之前的行为。而在动态负载均衡算法中,它在分配负载时检查节点的先前行为。在云中,如果存储节点数量、文件数量和对该文件的评估增加,那么中心节点(MapReduce中的主节点)就会成为瓶颈。负载均衡任务用于消除中心节点上的负载。 |
在分布式文件系统中,我们将看到如何减少网络流量(或移动成本)的不同方法,这些网络流量是由尽可能多地重新平衡节点负载来增加云应用程序的网络带宽引起的。为了云计算的安全性,我们可以使用加密算法以加密格式维护这些文件。 |
背景 |
虚拟化: |
思杰系统公司(Citrix Systems)数据中心和云部门[11]的首席技术官西蒙·克罗斯比(Simon Crosby)说,虚拟化是个人电脑和服务器经历的最智能的变化。微软石油和天然气行业首席技术策略师克里斯·范·戴克(Chris Van Dyke)解释说:“IT部门长期以来一直受制于遗留应用程序的技术需求。”“现在,IT部门不必因为遗留应用程序的需求而维护旧的操作系统,而是可以利用新操作系统(在一台虚拟机中)的性能和安全收益,同时在另一台虚拟机中支持遗留应用程序。此外,部署应用程序的过程也变得更加简单,因为应用程序可以虚拟化并部署为单个虚拟机”。[14]通过虚拟化技术,单个PC或服务器可以并行运行多个操作系统或单个操作系统的多个会话。这使得用户可以将运行在不同操作系统上的大量应用程序放在一台PC或服务器上,而不必像过去那样将它们托管在不同的机器上。因此,这种方法正在成为企业和个人通过最大限度地提高单个CPU可以处理的任务数量和类型来优化硬件使用的常用方法。 |
b .管理程序: |
它只不过是一台计算机系统上的多个操作系统(或同一操作系统的多个实例)。系统管理程序管理系统的处理器、内存和其他资源,以分配每个操作系统所需的资源 |
c . I-A-A-S |
提供给消费者的能力是提供处理、存储、网络和其他基本计算资源,消费者可以在这些资源中部署和运行任意软件,包括操作系统和应用程序[18]。使用者不管理或控制底层云物理基础设施,但可以控制操作系统、存储、部署的应用程序,可能还可以有限地控制选定的网络组件[17]。 |
D.私有云 |
云基础设施仅为组织运营它可能由组织或第三方管理,可能存在于前提内或前提外。 |
E.并行数据处理 |
处理作业的特定任务可以分配给不同类型的虚拟机,这些虚拟机在作业执行期间自动实例化并终止,parallel.[16]。 |
F.分布式文件系统 |
文件存储在不同的存储资源上,但在用户看来,它们是放在一个位置上的。分布式文件系统应该是透明的、容错的和可扩展的 |
文献调查 |
MapReduce:大型集群简化数据处理[5] |
在分布式系统中,在处理和生成大规模数据集的实现中,采用了mapreduce编程模型。它在谷歌中用于许多不同的目的。Map和reduce是这里用到的函数。Map函数生成一组中间键对,reduce函数合并与同一中间键相关的所有中间键值。映射和减少功能可以方便地执行并行操作和重新执行机制的容错。在运行时,系统负责划分输入数据的详细信息,在可用机器数量上安排程序执行,处理故障和管理机器之间的通信。在分布式文件系统中,节点同时执行计算和存储操作。将大文件划分为若干块,分配给不同的节点,在节点上并行执行MapReduce任务。通常,MapReduce任务处理数千台机器上的tb级数据。该模型易于使用;其中详细介绍了并行化、优化、容错和负载均衡。MapReduce用于谷歌的生产Web搜索服务、机器学习、数据挖掘等。 Using this programming model, redundant executionused to reduce the impact of slow machines, handle machine failure as well as data loss. |
基于DHT的结构化对等系统[6]的负载均衡算法 |
在分布式环境中,点对点系统有了一个新兴的应用。与客户机-服务器架构相比,点对点系统通过利用网络上未使用的资源来提高资源利用率。对等对等系统使用分布式哈希表(dht)作为分配机制。它执行连接、离开和更新操作。这里的负载均衡算法采用了虚拟服务器的概念来临时存储数据。使用异构索引,对等点平衡他们的负载与他们的容量成比例。其中,分布式负载均衡算法构造网络来处理全局信息,并以树状方式进行组织。每个节点可以独立计算参与节点的概率分布能力,并并行分配负载。 |
优化的云分区技术,简化负载均衡[7] |
云计算在资源管理和负载平衡方面存在一些问题。本文利用云集群技术,将云环境划分为多个部分,以实现负载均衡。云由若干个节点组成,基于云聚类技术将其划分为n个簇。它由主控制器和索引表组成,主控制器负责维护集群中所有负载均衡器的所有信息。第一步是选择正确的聚类,算法如下 |
1)在云环境下,连接到中央控制器的节点在索引表中初始化为0。 |
2)当控制器收到新的请求时,会向各个集群的负载均衡器查询任务分配情况。 |
3)然后控制器通过索引表查找下一个权重较小的可用节点。如果找到,则继续处理,否则索引表重新初始化为0,并以增量方式,然后控制器再次传递表以查找下一个可用节点。 |
4)负载均衡器完成分配后,更新分配表中的状态。 |
云分区方法包括两个步骤:- |
’1)随机访问每个节点,与相邻节点进行匹配。如果两个节点具有相同的特征并以最小的代价共享相似的数据,则将两个节点合并为具有相同细节的新节点。重复此步骤,直到没有具有类似特征的邻居节点。随后更新邻居两个节点与当前邻居节点之间的开销。 |
2)将两个具有相似特征的节点连接到新节点后,被访问节点将信息发送给新节点,而不是发送两次。它提供了高性能、稳定性、最短的响应时间和最佳的资源利用。 |
结构化点对点系统中基于柱状图的全局负载均衡 |
点对点系统具有在互联网上共享和定位资源的解决方案。在本文中有两个关键组成部分。首先是直方图管理器,它维护反映负荷分布全局视图的直方图。直方图存储无重叠节点组的平均负载的统计信息。它用于检查节点是否正常加载、轻加载或重加载。第二个组件是负载平衡管理器,它在节点变轻或变重时采取负载重新分配的动作。负载均衡管理器在新节点加入时实现静态负载均衡,在现有节点负载变轻或变重时实现动态负载均衡。在动态系统中,直方图的构建和维护成本较高。为了降低维护成本,采用了两种技术。如果节点频繁地加入和离开系统,则直方图的构建和维护成本很高。peer - topeer系统中的每一个新节点都会找到它的邻居节点,这些邻居节点需要将自己的信息共享给新节点来建立连接。 Now the cost of histogram is totally based on histogram update message caused by changing the load ofnodes in the system .To reduce the cost approximate value of histogram is taken. |
负载平衡 |
在分布式文件系统中,为了提高资源利用率和作业响应时间,进程负载均衡被广泛应用。在负载均衡技术中,分布式系统中各个节点之间的负载分配,避免出现某些节点负载过重而其他节点空闲或工作很少的情况。负载平衡确保系统中的所有处理器或网络中的每个节点在任何时刻都做大约等量的工作。这种技术可以是发送方发起、接收方发起或对称类型。主要目标是利用可分负载调度定理开发一种有效的负载均衡算法,以最大化或最小化不同规模的云的不同性能参数。在此帮助下,它确保了将总负载重新分配给集合系统的各个节点的过程,从而有效地利用资源并改善作业的响应时间,同时消除了一些节点负载过重而另一些节点负载不足的情况。负载均衡算法,它依赖于系统当前的行为,本质上是动态的,不考虑系统以前的状态或行为。在开发这种算法时需要考虑的重要问题有:负载估计、负载比较、不同系统的稳定性、系统的性能、节点之间的交互、要传输的工作性质、节点的选择等。消除对中心节点的依赖称为负载再平衡。存储节点基于分布式哈希表(distributed hash table, DHT)构成网络。 DHTs enable nodes to self-organize and repair while constantly offering lookup functionality in node dynamism, simplifying the system provision and management. Specifically, in this study, suggest offloading the load rebalancing task to storage nodes by having the storage nodes balance their loads spontaneously. This eliminates the dependence on central nodes. Storage nodes are structured as a network based on distributed hash tables discovering a file chunk can simply refer to rapid key lookup in DHTs, and given that a unique handle is assigned to each file chunk. DHTs enable nodes to self-organize and repair while constantly offering lookup functionality in node dynamism, simplifying the system provision and management. |
负载重新平衡时的安全性 |
我们的目标是在节点之间尽可能均匀地分配文件块,这样就不会有节点管理过多的块。最重要的部分是我们在分布式文件系统中重新平衡负载时所能提供的安全性。CDH4中的安全特性使Hadoop能够防止恶意的用户模拟。Hadoop守护进程利用Kerberos对所有远程过程调用(rpc)执行用户身份验证。组解析在Hadoop主节点、NameNode、JobTracker和ResourceManager上进行,保证用户无法操纵组成员关系。提交作业、Map任务的用户在这些用户帐户下运行,确保它们之间的隔离。除了这些特性之外,HDFS和MapReduce还引入了新的授权机制,以支持对用户访问数据的更多控制。CDH4中的安全特性满足了大多数Hadoop客户的需求,因为通常只有受信任的人员才能访问集群。特别是,Hadoop当前的威胁模型假设用户不能: |
1.拥有对集群机器的root访问权限。 |
2.拥有共享客户端计算机的根访问权限。 |
3.读取或修改集群网络上的报文。 |
结论 |
该方法在充分利用物理网络局部性和节点异构性的同时,尽可能地平衡节点的过载和负载,降低所需的移动成本。并且可以在重新平衡节点时提高性能。如果在再平衡时提供安全保障,将更加有益。可以有效地处理负载不平衡因素、移动成本和算法开销。为了保证数据的安全,实现了RSA算法。云分布式文件系统的负载再平衡可以解决高延迟、处理异构资源、高效调整动态操作条件、提供高效的任务分配等问题,因此可以提供最小的节点空闲时间。 |
参考文献 |
|