ISSN在线(2319 - 8753)打印(2347 - 6710)
Suriya玛丽1和Vairachilai2
|
相关文章Pubmed,谷歌学者 |
访问更多的相关文章国际创新研究期刊》的研究在科学、工程和技术
云计算是一个令人信服的技术。在云,分布式文件系统(DFS)分享他们的资源来处理大量的典型数据。它使用不平衡块搬迁过程使用集中式方法引起足够的故障实时操作。这导致负载不平衡在分布式文件系统。一个完全分布式负载平衡算法应对负载不平衡问题。计算集群专为存储和分析大量的非结构化数据的分布式计算环境。找到存储节点容量从集群的形成可以能够调整数据节点和任务节点根据输入文件。Amazon AWS云资源监测提供了监视和它的应用程序。亚马逊EMR记录指标,可用于监视集群。负载平衡的进步可以追踪运行集群。 Amazon CloudWatch automatically read the metrics of the DataNodes and TaskNodes such as CPU Utilization, number of read and write operations performed on the disk. Rebalance the load of the DataNodes based upon the user privilege by using the monitored alerts dynamically. Hence the monitoring solution is reliable, scalable and flexible.
关键字 |
负载均衡、分布式文件系统、云。 |
介绍 |
云计算是一项引人注目的技术。在云,客户可以动态地分配他们的资源按需没有复杂的部署和管理资源。云的关键支持技术包括MapReduce编程范式,分布式文件系统虚拟化等等。这些技术强调可伸缩性,所以云规模可以很大,包括实体可以任意失败和加入,同时保持系统的可靠性。分布式文件系统是云计算应用的关键构件基于MapReduce编程范式。在这样的文件系统,节点同时提供计算和存储功能;一个文件分割成许多块分配在不同的节点MapReduce任务可以并行执行的节点。 |
例如,考虑一个wordcount应用程序数量不同的单词的数量和每一个独特的词的频率在一个大文件。在这样的应用程序中,一个云分区文件成大量脱节和固定大小的块(或文件块)和分配给不同的云存储节点(即。chunkservers)。每个存储节点(或节点)然后计算每个独特的词的频率扫描和解析其本地文件块。在这样一个分布式文件系统,负载的节点通常是文件块节点拥有的数量成正比。因为文件在云可以任意创建、删除和添加,和节点可以升级,更换和添加到文件系统,该文件块不是尽可能均匀分布的节点。存储节点之间的负载平衡是一个重要的功能的云。负载均衡的云,可以利用和配置资源,最大化MapReduce-based应用程序的性能。 |
项目的范围是确定分布式文件系统中的负载平衡问题专门用于大规模的,动态的和数据密集型云。这样一个大规模的云有成百上千的节点(和将来可能达到数万)。的主要目标是尽可能均匀分配的文件块的节点,这样没有节点管理过多的块。然而,大多数现有的解决方案都设计不考虑成本和节点异构性运动。相比之下,我们的建议不仅利用物理网络位置的重新分配文件块来减少运动成本还利用节点能力提高总体系统性能。此外,该算法减少了算法的开销。 |
我们可以可以实现分布式文件系统的负载平衡使用Amazon web服务之一。亚马逊网络服务(AWS)是一家集远程计算服务(也称为Web服务)构成了一个云计算平台,提供在互联网上通过Amazon.com。其中最中央和知名的服务是Amazon EC2和Amazon S3。服务广告提供一个大型的计算能力(可能很多服务器)更快更便宜的比构建一个物理服务器农场。AWS位于9地理区域。 |
Amazon Web服务的一些有关这个项目是Amazon Simple Storage Service和Amazon Elastic MapReduce服务。Amazon S3(简单存储服务)是一个在线文件存储Amazon web服务提供的web服务。Amazon S3提供了一个简单的web服务接口,可以用来存储和检索的数据量,在任何时间,从任何地方。它给任何开发人员访问相同的高度可伸缩的,可靠,安全,快速,廉价的基础设施,亚马逊使用运行自己的全球网络的网站。服务旨在规模效益最大化和将这些好处传递给开发人员。在这个服务我们可以存储无限数量的对象。每一个对象存储在一个桶被分配的唯一键。 |
另一个名为Amazon Elastic MapReduce服务服务,可用于处理输入文件。亚马逊Amazon Elastic MapReduce (EMR)是一个web服务,它很容易快速高效地处理大量的数据。亚马逊EMR使用Hadoop,一个开源框架,分发我们的输入数据和处理在一个可调整大小的集群的Amazon EC2实例。亚马逊EMR用于各种各样的应用程序,包括日志分析、网络索引、数据仓库、机器学习,财务分析,科学模拟,和生物信息学。通过使用这些服务,我们可以很容易地实现负载不平衡问题。负载平衡的进步可以追踪运行集群。亚马逊自动监测监控负载的datanode基于用户特权使用动态监控警报。因此,监控解决方案是可靠的、可伸缩的和灵活的。 |
本文的其余部分组织如下。在下一节中,我们提出了一些相关的工作。在第三部分,我们提出了集群形成我们的解决方案。第四部分提出了实现步骤。最后,第五部分提出结论。 |
相关工作 |
Apache基金会的Hadoop分布式文件系统(HDFS)和MapReduce引擎组成一个分布式计算基础设施受到谷歌MapReduce和谷歌文件系统(GFS)。Hadoop框架允许处理大规模数据集的分布式计算技术通过利用大量的物理主机。Hadoop的使用远远超出其开源搜索引擎传播的根源。Hadoop框架还提供云计算提供商“平台即服务”。Hadoop是由两个主要组件。这些组件是Hadoop分布式文件系统(HDFS)和MapReduce引擎。HDFS是由地理上分布的数据节点。访问这些数据节点协调服务被称为节点的名称。数据节点通过网络沟通,以平衡数据和en-sure数据复制整个集群。MapReduce引擎是由两个主要组件。 Users submit jobs to a Job Tracker which then distributes the task to Task Trackers as physically close to the required data as possible. While these are the primary components of a Hadoop cluster there are often other services running in a Hadoop cluster such as a workflow manager and so on. |
在一个分布式文件系统,节点同时提供计算和存储功能。一个文件分割成许多块分配在不同的节点MapReduce任务可以并行执行的节点。但是在云计算环境中,失败是常态。节点可能升级、替换、添加到系统。文件也可以动态创建、删除和添加。这导致负载不平衡在一个分布式文件系统。所以文件块不是尽可能均匀分布的节点。分布式文件系统在云依靠中央节点来管理文件系统的元数据信息,并基于该元数据存储节点的负载平衡。集中式方法简化了分布式文件系统的设计和实现。当存储节点的数量,文件和访问文件的数量线性增加,中央节点成为一个性能瓶颈。 This results in load imbalance in a distributed file system. So the file chunks are not distributed as uniformly as possible among the nodes. They are unable to accommodate a large number of file accesses due to clients and MapReduce applications. Existing systems use the concept of virtual server. The solutions are designed without considering both movement cost and node heterogeneity. |
集群的形成 |
图1显示了整个提出系统设计。chunkservers组织作为DHT网络,也就是说,每个存储节点实现了DHT协议如和弦或糕点。系统中的一个文件分割成固定大小的块的数量,和“每一”块有一个独特的块处理(或块标识符)命名为全球已知的诸如SHA1哈希函数。哈希函数返回给定文件的路径名字符串的惟一标识符和一块索引。 |
chunkservers实现自配置和自修复的我们的建议,因为他们的人数,离职,和失败,简化了系统配置和管理。具体来说,典型的dht保证如果一个叶子节点,那么它在本地举办块可靠地迁移到其继任者;如果一个节点连接,那么它的块分配id之前加入节点从其继任者管理。提案严重依赖于节点到达和离开操作迁移文件块之间的节点。 |
的实现是通过一个小规模的单一组成的集群环境,专用namenode和datanode。集群环境的形成是用于查找存储节点容量。DataNode负责存储文件。它管理文件块内的节点。NameNode它发送信息的文件和块存储在节点和所有文件系统操作的响应NameNode。来扩展数据节点的数量根据文件的大小和扩展任务节点基于这项工作。亚马逊EMR记录指标,可用于监视集群。负载平衡的进步可以追踪运行集群。亚马逊弹性负载平衡器等指标监测自动监视请求数和延迟。它还读datanode的指标和TaskNodes如CPU利用率,数量在磁盘上执行的读和写操作。 Rebalance the load of the DataNodes based upon the user privilege by using the monitored alerts dynamically. Hence the monitoring solution is reliable, scalable and flexible. |
实现结果 |
集群的形成 |
Hadoop集群是一种特殊类型的计算集群专为存储和分析大量的非结构化数据在分布式计算环境中。典型的集群中的一台机器被指定为NameNode JobTracker和另一台机器;这些都是主人。其余的集群中的机器作为两个DataNode TaskTracker;这些都是奴隶。当一个文件被放置在HDFS分解成块。这些块然后复制在不同节点集群中(datanode)。当一个文件被放在集群的位置对应的条目是由NameNode维护。 |
节点的负载通常是文件块节点拥有的数量成正比。因为文件在云可以任意创建、删除和添加,和节点可以升级,更换和添加到文件系统,该文件块不是尽可能均匀分布的节点。目标是尽可能均匀分配的文件块的节点,这样没有节点管理过多的块。 |
负载平衡算法 |
通过使用这种算法,我们可以估计每个块服务器节点,是否在加载(光)或重载没有全球知识(重)。光节点如果主机模块的数量小于阈值以及一个沉重的节点管理模块的数量大于阈值。大规模分布式文件系统是在一个负载均衡状态如果每个模块的服务器主机不超过模块。重复这个过程,直到所有的节点系统中成为光节点。 |
存储节点的结构为一个基于网络分布式哈希表(dht),如发现一个文件块可以简单地指dht的快速键查找,考虑到一个独特的处理(或标识)是分配给每个文件块。dht启用节点自组织和修复,同时不断提供查找功能节点活力,简化了系统提供和管理。块服务器被组织为一个DHT网络。典型dht保证如果一个叶子节点,那么它在本地举办块可靠地迁移到其继任者;如果一个节点连接,那么它的块分配id之前加入节点从其继任者管理。 |
数据节点和任务节点再平衡 |
DataNode负责存储文件。它管理文件块内的节点。它发送的信息对文件和块NameNode,存储在节点和响应NameNode所有文件系统操作。DataNode可以读或写一个特定的文件。在初始化,每个datanode通知NameNode目前存储的块。这种映射完成后,datanode不断调查NameNode提供关于本地更改的信息以及接收指令来创建、移动或删除从本地磁盘块。DataNode可能与其他DataNode复制数据块的冗余。扩展数据节点根据数据文件的大小。 |
一个TaskTracker是集群中的一个节点,它接受任务地图,减少从JobTracker和洗牌操作。每一个TaskTracker配置了一组插槽,这表明数量的任务,它可以接受。当JobTracker试图找个地方安排一个任务在MapReduce操作,它首先寻找一个空槽在同一台服务器上托管的DataNode包含数据,如果没有,它寻找一个空槽在同一架子上的机器。TaskTracker是一个守护进程,接受任务(地图,减少和洗牌)JobTracker。TaskTracker继续发送心跳消息JobTracker通知它还活着。随着心跳也发送免费的插槽内处理任务。TaskTracker开始和监视Map和Reduce任务并将进展/状态信息发送回JobTracker。扩展任务节点基于这项工作。 |
监测监控 |
亚马逊监测是一个易于使用的web服务,它提供了我们的云计算资产可见性。它旨在提供全面监控的所有AWS服务。Amazon AWS云资源监测提供监控和客户在AWS上运行的应用程序。与亚马逊监测,我们获得系统对资源利用的可见性,应用程序的性能和操作的健康。亚马逊监测服务提供一个可靠的、可伸缩的、和灵活的监控。通过使用这种监测监控,我们能够获取监控数据,视图图,设置警报来帮助我们,采取自动行动基于云环境的状态。 |
一个集群运行时,我们可以能够跟踪它的进展。亚马逊EMR记录指标,可用于监视集群。负载平衡的进步可以追踪运行集群。亚马逊弹性负载平衡器等指标监测自动监视请求数和延迟。读datanode的指标和TaskNodes如CPU利用率和数量在磁盘上执行的读和写操作。平衡负载的datanode基于用户特权使用动态监控警报。 |
结论 |
一个高效的负载平衡算法来处理负载不平衡问题在大规模、动态和分布式文件系统在云。演示的实现是通过一个小规模集群环境组成的一个单一的、专门的namenode和datanode。建议努力平衡数据节点的负载和任务节点有效。那么只能能够分发文件块尽可能均匀。该算法运行在分布式方式独立节点执行负载平衡的任务不同步或全球知识系统。负载均衡的云,可以利用和配置资源,最大化MapReduce-based应用程序的性能。负载平衡的进步可以追踪运行集群。亚马逊自动监测监控负载的datanode基于用户特权使用动态监控警报。因此,监控解决方案是可靠的、可伸缩的和灵活的。在未来我们可以能够分析集群状态通过使用这种监视解决方案。 If a metric goes outside parameters we can able to set alarms. These metrics are automatically collected and pushed to CloudWatch for every Amazon EMR cluster. |
引用 |
|