介绍 |
MANY-TASK计算(MTC)范例[1]包含不同类型的高性能应用程序涉及许多不同的任务,并要求在短时间内大量的计算资源。这些任务可以截然不同的性质,大小从小型到大型,松散耦合或紧密耦合,或者计算密集型、数据密集型。云计算技术可以提供重要的福利组织和数据中心运行[应用程序:弹性和快速供应,使组织能够增加或减少其基础设施能力几分钟后,根据计算必需品;当你支付模型,允许组织购买和支付的确切数量的基础设施需要在任何特定时间;降低资本成本,自组织可以减少甚至消除其内部基础设施,减少资本投资和人员成本;对潜在的“无限”资源的访问,因为大多数云提供商允许同时部署成百上千的服务器实例;和灵活性,因为用户可以部署云实例使用不同的硬件配置、操作系统和软件包。计算集群已经成为最受欢迎的平台解决矿渣MTC的问题,特别在松散耦合的任务(例如,高通量计算应用程序)。然而,构建和管理物理集群展品几个缺点:1)主要硬件投资、专业安装(制冷、电力等),和合格的个人;2)长时间的集群未充分利用; and 3) cluster overloading and insufficient computational resources during peak demand periods. Regarding these limitations, cloud computing technology has been proposed as a viable solution to deploy elastic computing clusters, or to complement the in-house data center infrastructure to satisfy peak workloads. For example, the Bio Team [2] has deployed the Univa UD UniCluster Express in an hybrid setup, which combines local physical nodes with virtual nodes deployed in the Amazon EC2. In a recent work [3], we extend this hybrid solution by includingvirtualization in the local site, so providing a flexible and agile management of the whole infrastructure, that may include resources from remote providers. However, all these cluster proposals are deployed using a single cloud, while multicloud cluster deployments are yet to be studied. The simultaneous use of different cloud providers to deploy computing cluster spanning different clouds can provide several benefits.. High availability and fault tolerance: the cluster worker nodes can be spread on different cloud sites, so ecase of cloud downtime or failure, the cluster operation will not be disrupted. Furthermore, in this situation, we can dynamically deploy new cluster n nodes in a different cloud to avoid the degradation of the cluster performance . Infrastructure cost reduction: since different cloud providers can follow different pricing strategies, and even variable pricing models (based on the level of demand of a particular resource type, daytime versus night time, weekdays versus weekends, spot prices, and so forth), the different cluster nodes can change dynamically their locations, from one cloud provider to another one, in order to reduce the overall infrastructure cost. The main goal of this work is to analyze the viability, from the point of view of scalability, performance, and cost of deploying large virtual cluster infrastructures distributed over different cloud providers for solving loosely coupled MTC applications. This work is conducted in a real experimental test bed that comprises resources from ourin-house infrastructure, and external resources from three different cloud sites: Amazon EC2 (Europe and US zones1) and Elastic Hosts [5]. On top of this distributed cloud infrastructure, we have implemented a Sun Grid Engine(SGE) cluster, consisting of a front end and a variable number of worker nodes, which can be deployed on different sites (either locally or in different remote clouds) We analyze the performance of different cluster configurations, using the cluster throughput (i.e., completed jobs per second) as performance metric, proving that multicloud cluster implementations do not incur in performance slowdowns, compared to single-site implementations, and showing that the cluster performance (i.e., throughput) scales linearly when the local cluster infrastructure is complemented with external cloud nodes. In addition, we quantify the cost of these cluster configurations, measured as the cost of the infrastructure per time unit, and we also analyze the performance/cost ratio, showing that some cloud-based configurations exhibit similar performance/cost ratio than local clusters. |
由于硬件的限制我们当地的基础设施,和高成本的长期租赁许多云资源,测试集群配置仅限于减少了计算资源的数量(最多16个工作节点),运行减少数量的任务(128任务)。然而,作为典型的矿渣MTC应用程序可以包括更多的任务,我们实现了一个模拟的基础设施模型,包括大量的计算资源(256工人节点),并运行大量的任务(5000)。不同集群配置的仿真表明,性能和成本的结果可以推断和集群基础设施大规模问题。更具体地说,这项工作的贡献如下: |
|
1。虚拟基础设施部署multicloud横跨四个不同地点:我们的本地数据中心,Amazon EC2欧洲,Amazon EC2,主机和弹性;和实现真正的计算集群测试床上这multicloud基础设施。 |
|
2。集群的性能分析测试床上解决松散耦合的矿渣MTC应用程序(特别是一个高度平行的问题),证明multicloud解决方案的可伸缩性这种工作负载。 |
3所示。成本,性价比可能实验装置的分析,比较不同的集群配置,证明multicloud解决方案的可行性也从成本 |
部署云VIRTUALCLUSTER多 |
图1显示了本工作部署中使用分布式集群te结核病的multicloud基础设施。这种multicloud部署涉及到几个挑战,缺乏相关云接口标准;分配和管理服务的主图像; |
和互连服务组件之间的联系。简要讨论这些问题,这项工作中采用的主要设计决策来面对这些挑战都包含在附录A的补充材料,可以在电脑上找到社会数字图书馆每年p: / / TPDS.2010.186 /doi.ieeecomputersociety.org/ 10.1109。我们的实验测试床上从一个虚拟集群部署在本地数据中心,与排队系统由上海黄金交易所的管理软件,组成的集群前端(上海黄金交易所的主人)和固定数量的虚拟工作者节点(在这个设置四个节点)。这可以向外扩展集群部署新的虚拟工作者节点在远程云。这个工作是Amazon EC2的云提供商考虑(欧洲和美国地区)和弹性。表1显示了内部节点的主要特征和云节点用于我们的实验测试床。除了不同的测试床上节点的硬件特点,表1中还显示这些资源的成本/时间单位。在云资源的情况下,这个成本是每小时成本收取的云提供商使用的资源。2Appendix B.1 of the supplemental material, which can be found on the Computer Society Digital TPDS.2010.186, gives more details about the cost model used for cloud resources. On the other hand, the cost of the local resources is an estimation based on the model proposed by Walker [6] that takes into account the cost of the computer hardware, the cooling and power expenses, and support personnel. For more information about the application of this cost model to our local data center, see Appendix B.2, which can be found on the Computer Society Digital Library at http://doi.ieeecomputersociety.org/ 10.1109/TPDS.2010.186.2.1 Performance Analysis In this section, w analyze and compare the performance offered by different configuration of the computing cluster, focused in the execution of loosely coupled applications. In particular, we have chosen nine different cluster configurations (with different number of worker nodes from the three cloud providers), and different number of jobs (depending on the cluster size), as shown in Table 2. In the definition of the different cluster configurations, we use the following acronyms: L: local infrastructure; AE: Amazon EC2 Europe cloud; AU: Amazon EC2 US cloud; and EH: Elastic Hosts cloud. The number preceding the site acronym represents the number of worker nodes. For example, 4L is a cluster with four worker nodes deployed in the local infrastructure; and 4L þ 4AE is a eight-node cluster, four deployed in the local infrastructure and four in Amazon EC2 Europe. To represent the execution profile of loosely coupled applications, e will use the Embarrassingly Distributed (ED)benchmark from the Numerical Aerodynamic Simulation(NAS) Grid Benchmarks [7] (NGB) suite. The ED benchmark consists of multiple independent runs of a flow solver, each one with a different initialization constant for the flow field.NGB defines several problem sizes (in terms of mesh size, iterations, and number of jobs) as classes S, W, A, B, C,D, and E. We have chosen a problem size of class B, since it is appropriate (in terms of computing time) for middle-class resources used as cluster worker nodes. However, instead of submitting 18 jobs, as ED class B defines, we have submitted a higher number of jobs (depending on the cluster configuration, see Table 2) in order to saturate the cluster and obtain realistic throughput measures. As we have proven in a previous work [8], when executing loosely coupled high-throughput computing applications, the cluster performance (in jobs completed per second) can be easily model using the following equation: rðn |
Þ¼ |
r1 |
þn1 1 = 2 = n |
;ð1Þ |
其中n是工作完成的数量,r1的渐近性能(最大速度每秒执行的性能集群的工作),和n1 = 2是half-performance长度。更多细节关于这个性能模型,请参阅附录C的补充材料,可在计算机协会数字图书馆在http://doi.ieeecomputersociety.org/10.1109/TPDS.2010.186上找到。图2显示了实验集群性能和从这些情节,(1)中定义的性能模型提供了一个集群的goodcharacterization theworkload在研究的执行。 |
交易并行和分布式系统、卷。 |
不同的集群节点集群配置图的特征。2。吞吐量为不同的集群配置 |
|
表3显示了r1和n1 = 2参数为每个集群配置的性能模型。r1的参数可以用来作为衡量集群的吞吐量,为了比较不同的集群配置,因为它是一个精确的近似的最大性能每秒(工作)集群的饱和度。请注意,我们取得了每个实验的五分,所以表3中的数据代表r1和n1 = 2的平均值(标准差在在电脑上可以找到SocietyIf我们比较4土地呃配置,我们observethat他们表现出非常相似的性能。这是因为两个原因:首先,工人节点从两个网站也有类似的CPU容量(见表1);其次,通信延迟这种松散耦合的应用程序不引起严重的性能下降,因为数据传输延迟执行时间相比可以忽略不计,主要得益于NFS客户机上的NFS文件数据缓存实现节点(工人),明显降低了NFS的延迟读取操作。另一方面,4 ae和非盟的低性能配置主要是由于较低的CPU容量的Amazon EC2工人节点(参见表1)。一个重要的观察是,集群性能尺度线性混合配置。例如,如果我们观察4 lþae的性能配置,我们比较的性能4 l和ae单独配置,我们发现表演的和这两个单独的配置几乎是类似于4 lþae的性能配置。这个观察是适用于所有的混合配置,如图3所示。这一事实证明,为特定工作负载被认为是在这个工作,multicloud基础设施的使用跨越不同的云服务提供商的观点是完全可行的性能和可伸缩性,并且不引入重要的开销,这可能会导致严重的性能下降。 |
2.2成本分析除了性能分析,云资源的成本也具有重要影响multicloud解决方案的可行性。从这个角度来看,它是一个重要的分析,不仅基础设施的总成本,而且性能和成本之间的比率,为了找到最优的配置。每个实例的平均成本/时间单位是聚集在表1。基于这些成本和使用成本模型详细的附录B的补充资料,在电脑上可以找到社会数字图书馆http://doi.ieeecomputersociety.org/10.1109 |
|
图3所示。渐近性能(r1)比较。 |
TPDS.2010.186,我们可以估计每一个实验的成本。然而,这种成本是不适合来比较不同的集群配置,因为我们正在为每个配置不同数量的工作。因此,为了规范化不同配置的成本,我们计算成本工作,图4所示,每个实验的成本除以在实验工作的数量。本地资源的成本是低于云资源,很明显,4 l配置结果在实验中成本最低的工作。同样,这些实验包括只有云节点(如4 ae, 4盟,4嗯)表现出更高的价格每工作比混合配置,包括本地和云节点(例如,4 lþ4 ae, 4 lþ4盟,和4 lþ呃)。我们也观察到,在这个实验中,使用的特定工作负载配置包括呃节点每工作导致更低的成本比配置包括亚马逊节点(如。4 eh 4 ae和4盟相比,或4 lþ4呃相比4 lþ4 ae和4 lþau)。关于这些比较成本的结果,很明显,对于大型组织计算资源的集约利用,投资的规模MORENO-VOZMEDIANO ET AL。MULTICLOUD部署计算集群的松散耦合的矿渣MTC应用性能模型参数图4。每工作成本不同的配置。只考虑单个云,他们不利用的潜在好处multicloud部署。关于使用 |
|
多个云,Keahey等人在[19]介绍“天空计算”的概念,使分布式域的动态配置几个云,并讨论了当前的这种方法的缺点,如图片提供者之间的兼容性,在API级别需要的标准,需要可信的网络环境中,等。这项工作也比较性能的两个虚拟集群部署在两个设置:单站点部署和three-site部署,总结单站点集群的性能可以持续使用一个集群在三个网站。然而,这项工作缺乏成本分析和性能分析仅限于小型基础设施(15计算机实例,相当于30处理器)。真正的考验床还可以外推到更大的集群,即混合配置,包括本地和云节点(例如,64 lþ64 ae, 64 lþ64 au, 64和64 lþ嗯)表现出更低的成本每工作比配置,只有云节点(如64年ae, 64 au, 64呃);和配置包括呃节点导致更低的成本比配置包括亚马逊每工作节点(例如,64比64年嗯ae和64 au,比64年或64 lþ64呃lþ64 ae和64 lþ64 au)。最后,分析inFig模拟基础设施的性能。8,我们再次看到一个类似的行为,观察真正的试验台,用一些混合配置(64 lþ64呃,和64 lþ64 aeþ64 auþ64呃)表现出更好的性能比当地设置(64升)。 |
相关的工作 |
高效管理的大规模集群基础设施已研究多年,和不同的群集配置技术,提出了动态分区,或集群虚拟化。传统方法覆盖的按需提供计算服务包括一个定制的软件堆栈上的现有的中间件层。例如,MyCluster项目)创建了一个秃鹰或Tera网格服务的上海黄金交易所的集群上。Falkon系统[10]提供了一个高吞吐量的执行环境光的Globus克服务。最后,网格方法元调度器[11]已被用于部署BOINC网络EGEE中间件之上。计算集群的动态分区的能力也被解决的几个项目。例如,对需求的集群软件[12]使快速、自动、动态分区的物理集群为多个独立的虚拟集群。同样,VIO集群[13]项目可以动态调整的能力对等域之间的计算集群通过共享资源。几项研究已经探讨了使用虚拟机来提供自定义集群环境。在这种情况下,集群通常完全建立的虚拟资源,如Globus灵气项目[14],或虚拟组织集群(VOC)提出了[15]。 Some recent works [2], [3] have explored the use of cloud resources to deploy hybrid computing clusters, so the cluster combines physical, virtualized, and cloud resources. There are many other different experiences on deploying different kind of multitier services on cloud infrastructures, such as webservers [16], database appliances [17], or web service platforms[18], among others However, all these deployments only consider a single cloud, and they do not take advantage of the potential benefits of multi cloud deployments. Regarding the use of multiple clouds, Keahey et al.introduce in [19] the concept of “Sky Computing,” which enables the dynamic provisioning of distributed domains over several clouds, and discusses the current short comings of this approach, such as image compatibility among providers, need of standards at API level, need of trusted networking environments, etc. This work also compares the performance of two virtual cluster deployed in two settings: a single-site deployment and a three-site deployment, and concludes that the performance of a single-site cluster can be sustained using a cluster across three sites. However, this work lacks a cost analysis and the performance analyse is limited to small size infrastructures (up to 15 computer instances, equivalent to 30 processors). |
结论和未来的工作 |
在本文中,我们分析了部署计算集群的挑战和生存能力的multicloud基础设施解决松散耦合的矿渣MTC横跨四个不同的网站应用程序。我们实现了一个真正的试验台集群(基于上海黄金交易所的排队系统),包括计算资源从我们内部的基础设施,和外部资源从三个不同的云:Amazon EC2(欧洲和美国地区)和弹性主机.Performance结果证明,对申请者的工作负载在考虑(松散耦合的参数扫描应用程序),集群吞吐量规模线性当集群包括越来越多的节点从云提供商。这个事实证明了计算集群的multicloud实现从的角度可伸缩性是可行的,并且不引入重要的开销,这可能会导致严重的性能下降。另一方面,成本分析表明,工作负载的考虑,一些混合配置(includinglocal和云节点)表现出更好的性能比当地设置,所以证明multicloud解决方案也是从成本的角度来看。此外,我们还实现了一个模型来模拟大集群基础设施。不同集群配置的仿真表明,性能和成本的结果可以推断和集群的大规模问题。重要的是要指出,虽然结果很有前途的,他们可以为其他矿渣MTC应用程序有很大的不同,不同的数据模式,同步要求,或计算配置文件。不同的集群配置考虑这项工作已经手动选择,而不考虑任何调度策略和优化标准,分析的主要目标multicloud解决方案的可行性的观点的性能和成本。尽管详细分析和比较不同的调度策略是超出了本文的范围,并计划在进一步的研究,为了完整性,附录F的补充材料,可以在计算机协会数字图书馆在http://doi.ieeecomputersociety上找到。org/10.1109/TPDS.2010.186,动态资源配置提出了一些初步结果,为了突出multicloud部署的主要好处,比如MORENOVOZMEDIANO ET AL。: multicloud部署的计算机集群为松散耦合的矿渣MTC应用929无花果。 8. Perf.-cost ratio for simulated configurations. |
确认 |
这项研究受到了sejer吗?´德教育交流的马德里,洋底Europeo de Desarrollo区域和洋底社会Europeo通过EDIANET研究项目S2009 / tic - 1468;由inisterio de Ciencia e Innovacio´n西班牙通过研究格兰特tin2009 - 07146 |
表乍一看 |
|
|
引用 |
- Raicu,即培育和y赵,“Many-Task计算网格和超级计算机,”Proc。车间Many-Task ridsandper电脑上计算,1 - 11,2008页。
- 生物团队”Howto: Unicluster和Amazon EC2”技术报告,生物实验室团队总结,2008年。
- 略伦特,r . Moreno-Vozmediano蒙特罗r .,“云计算网格资源按需供应,”Advancesin并行计算,18卷,第191 - 177页,IOS出版社,2009年。
- 亚马逊ElasticcloudComputehttp: / /aws.amazon.com/ec2,2010。
- ElasticHoststtp: / /www.elastichosts.com/, 2010。
- e·沃克“CPU小时的真实成本,”电脑,42卷,没有。4、35-41页。2009年4月。
- 硕士Frumkin和水Van der Wijngaart NAS网格基准:网格空间探索的工具,”j .集群计算卷。5,不。3、247 - 255年,2002页。
- r . R.S.蒙特Moreno-Vozmediano andI.M。略伦特,”高吞吐量计算集群内摩擦力模型”,将发表在j .并行和分布式计算,doi: 10.1016 / j.jpdc.2010.05.005, 2010。
- e·沃克·j·加德纳、诉Litvin和e·特纳“CreatingPersonal适应集群管理科学工作在一个计算环境中,“Proc。IEEE第二国际研讨会上大型应用程序的挑战在分布式环境中(进化枝' 06)
- 赵Raicu, y, c . Dumitrescu。福斯特,和m .王尔德“Falkon:快速、轻量级TasKExecutiONarmework”Proc。IEEE / ACM Conf。超级计算,2007年。
- 大肠Huedo R.S.蒙特罗,贝聿铭略伦特,“GridWay框架网格自适应调度和执行,“可伸缩的计算和经验,6卷,1 - 8,2006页。
- j .追逐d·欧文l .毅力j·摩尔和s . Sprenkle DynamicVirtual集群在网格项目现场经理“Proc。12日IEEE计算机协会。高性能分布式计算,2003年。
- p .露丝、p . McGachey和d .徐VioCluster:虚拟化forDynamic计算域,“Proc, IEEE国际会议。集群计算,2005年。
- 福斯特,t·弗里曼k . Keahey d . Scheftner b·索托马约尔andX。张“虚拟集群为网格社区,”Proc。第六IEEE国际计算机协会。集群计算和网格,2006年。
- m . Murphy b Kagey、m .芬和s . Goasguen ynamic配置虚拟组织的集群,”Proc。第九IEEE国际计算机协会。集群计算和网格,2009年。
- j . Fronckowiak“伸缩网站使用Amazon EC2和Scalr Amazon EC2文章和教程,2008。
- a . Aboulnaga k·萨勒姆,a . Soror Minhas, p . Kokosielis和年代。Kamath“在云中部署数据库电器,”公牛。IEEE计算机Soc。技术委员会Eng的数据。,32卷,不。1,13-20,2009页。
- a . Azeez自动定量Axis2 Web服务在Amazon EC2上:ApacheCon欧洲,2009年。
- k . Keahey m . Tsugawa a . atsunaga和j·福尔特斯人,“天空计算,IEEE互联网计算13卷,没有。5页43-51 9月/ 10月。2009年。拉斐尔Moreno-Vozmediano收到MSdegree物理学和马德里theUniversidad博士学位(UCM),西班牙,分别在1991年和1995年。Since1997,他一直副教授ofcomputer科学与电气工程在部门theUCM计算机体系结构、西班牙。ofresearch他大约有18年的经验在田里ofhighperformance并行和分布式计算、网格计算、虚拟化。鲁本s蒙特罗是副教授在部门在马德里大学计算机体系结构。去年,他已经出版了70多领域的scientificpapers highperformanceparallelanddistributedcomputing,和贡献达到20以上研发项目。他的研究兴趣主要来自inresource distributedsystems配置模型。
|