ISSN在线(2319 - 8753)打印(2347 - 6710)
先生,先生,小姐此举骑.Mohasin Tamboli Runwal萨钦 讲师,部门,Vishwabharati学院工程学院Ahmednagar,印度。 |
相关文章Pubmed,谷歌学者 |
访问更多的相关文章国际创新研究期刊》的研究在科学、工程和技术
等云服务基础设施即服务(IaaS)为并行数据处理提供快速数据处理服务在云存储、管理和处理资源。许多云计算公司正在使用这个框架有效的并行数据处理的云来让他们的产品更容易为客户访问这些服务和部署程序。因此,分配计算资源可能会增加加工时间和成本。在本文中,我们讨论了机遇和挑战的快速数据处理并行数据处理在云,第一数据处理框架涅斐勒并行分配资源和进度,然后执行特定的任务是进行大量的数据分为几个独立的子任务数和节点之间的数据分布,然后最后并行计算它们。分配给不同的虚拟机自动实例化并完成这项工作执行期间我们提出扩展地图减少处理工作在云系统的评估和比较数据处理结构Hadoop的影响
关键字 |
云计算、数据处理、平行、资源分配、任务调度,许多任务计算,和涅斐勒 |
介绍 |
云计算是一个模型,使方便的网络访问共享资源的需求,可以快速予以配置和发布withminimal的管理工作或服务提供者交互。Todaya越来越多的公司必须在具有成本效益的方式来处理大量的数据.Cloud计算有以下typesPlatform作为服务(PaaS),基础设施即服务(IaaS),软件即服务(SaaS)软件即服务(SaaS)从最终用户的角度viewApps位于cloudSoftware经验是通过互联网.Platform作为服务(PaaS)从开发人员的角度看云提供商提供一个Internetbased平台开发人员想要创建服务,但不想建立自己的云。基础设施即服务(IaaS)。云提供商建立datacentersPower、规模、硬件、网络、存储、分布式系统、etcDatacenter serviceCloud用户租用存储、计算、和维护从云提供商现收现付制工具用户可以租应用软件和数据库,使用软件即服务。应用程序运行的基础设施和平台是由云提供商。这些公司都是运营商的互联网传播数据的公司处理大量的数据,他们必须处理许多商品数量的服务器,他们非常昂贵的传统数据库解决方案。相反,这些公司有一个建筑标准的基于大数量的产品服务器。processingcrawled文档或再生等问题一个web索引数据分割成多的子任务,然后分配可用的节点,最后计算并行成原始解决方案。为了简化开发分布式应用程序的架构的许多这样的公司也建立了数据处理框架。例子areterms像高通量计算(HTC)或many-task计算(MTC),根据数据量和任务的数量计算的处理框架负责分发程序之间的数据和任务的数量参与计算。 The processing framework takes care of distributing the program among the available nodes and executes each instance of the program on the appropriate data fragment .although these systems differ in system design, their programming models share similar objectives namely hiding the bother of parallel programming .In cloud shared resources, software as well as information is provided. Virtual machine charges the companies for only amount of time they are used. The main goal of this paper is to decrease the overloads of the main cloud and to improve the performance as well as the quality of the cloud by dividing job into no of subtask in the cloud by using cloud storage, task manager and job manager that performs the different task using different resources available in the network. The growing no of companies which run with minimal resources and take on the resources as they needed on demand and pay only when there is a use is enabled by IaaS (Infrastructure as a Service). This becomes achievable by the Virtual Machines (VM).we are going to split job manager into number of task manager and they are assigned to different employees in the team and resources are assigned dynamically using virtual machine which schedule the task and after performing operation it given to the main solution for that we first start virtual machine in the cloud and the resources needed for the tasks that going to be executed parallel. |
挑战和机遇 |
在本节中,我们讨论如何使用这些新机遇和挑战在云计算快速并行数据处理。机会:今天的处理结构通常假定他们处理的资源包括计算节点保持一致。它被设计来处理各个节点失败,在我们考虑要稳定可用的机器数量尤其是调度工作的然后我们必须处理工作和执行的工作在云中可用于创建这样的节点组。新虚拟机可以在任何时间分配机器是可以终止,不再使用云客户将不再收取。处理工作流动态分配的调度程序,用户必须开始单一的虚拟机运行传入的工作然后建议云直接启动所需的虚拟机根据工作的处理阶段。处理的设计框架和描述的方法是首先,调度程序处理框架必须意识到云环境应该执行工作。它必须知道不同类型的可用虚拟机及其成本。它可以分配或摧毁他们代表云客户第二;标准的用于描述工作必须强大到足以表达不同任务之间的依赖关系经理和作业管理器。云必须需要知道哪个任务的输出作为另一个任务的输入。 Otherwise the scheduler of the processing framework cannot decide what happen at that point at particular instant when virtual machine is no longer needed and reallocated it. Although at the end of a job only a small number of reducer tasks may still be running and it is not possible to shut down the idle virtual machines since it is unclear if they contain some intermediate result. |
挑战:云计算虚拟化的本质是创建虚拟设备框架将资源划分为一个或多个执行环境分区一样简单。然而;这是一个新的挑战群节点设置。公共云提供商不同,往往不清楚,安全标准、法规遵循和治理 |
设计实现涅斐勒 |
涅斐勒的架构遵循经典成为集大成模式见图2。这是一个结构性的概述涅斐勒在云中运行在一个“基础架构即服务”(IaaS)。在我们第一次提交一个涅斐勒计算工作,当时用户必须启动一个虚拟机(VM)在云中运行所以称为作业管理器(JM)。作业管理器接收一个或多个客户的工作从用户负责调度的目的,之后它协调与执行。它用于与通信接口的云存储提供了控制虚拟机的实例化,它使用云控制器的接口。云控制器,执行任务,作业管理器可以根据当前的工作分配或释放虚拟机执行。在本文中,我们将遵守共同的云计算术语和参考这些vm实例。术语实例类型将被用来区分vm与不同的硬件特性。例如,m1的实例类型”。小”可以用一个CPU核心和一个表示vm GB内存和128 GB磁盘而实例类型“c1。超大”可能指的是机器8 CPU核心和18 GB RAMand 512 GB的磁盘存储。 The actual execution of tasks which a Nephele job consists is carried out by a set of instances. In that each instance runs a so-it is called as a Task Manager (TM). The Job Manager divide the task into no of task manager and each task executed after that executes them and after that it informs the Job Manager about their completion if any possible errors are present then it inform to the cloud storage. Unless a job is submitted to the Job Manager at the last we expect that the set of instances to be empty. Upon job reception the Job Manager decides depending on the job’s particular tasks. The job manager decidehow many andwhat type of instances the job should be executed on and when the respective instances must be allocated and deallocatedby the cloud controller to ensure a continuous but costefficient processing. The newly allocated instances give the data with a previously compiled VM image. The image is configured to automaticallywhich start a Task Manager and register it with the Job Manager. Once all the necessary task done then the Task Managers have successfully contacted the Job Manager, it triggers the execution of the scheduled job. As a result, we expect the cloud to offer persistent storage. This persistent storage is supposed to store the job’s input data and eventually receive its output data at last. It must be accessible for both the Job Manager as well as for the set of Task Managers. |
B。架构图:用户界面系统涉及的节点。图3中的架构图云的快速并行数据处理的实际执行由集实例,每个实例运行称为任务管理器。作业管理器接收到用户的工作负责调度和执行,与云controllerthe云控制器可以分配和DE分配虚拟机根据当前的工作执行。任务管理器接收一个或多个任务同时从作业管理器,执行和后通知进行作业管理器关于他们的工作完成或任何可能的错误当作业提交给当时的作业管理器设置实例应该空所在工作的响应作业管理器决定哪些实例应该运行,当各自的实例必须分配,以保证连续但成本高效的快速并行数据处理。 |
C。工作ESCRIPTION: Jobdescription基于有向无环图(无进取心的人)的顶点和边使用顶点是用来表示工作的个人任务和边缘表示沟通渠道。图4说明了简单的工作图。它包含一个输入,一个任务和一个输出顶点的一个主要目标工作图表的简单用户应该能够描述任务和他们的关系在一个概念上的水平。因此,工作图不显式模型任务并行和任务实例的映射。然而,用户希望希望它影响这些方面可以提供注释来描述他们的工作。工作图集中在简单性和在没有显式建模并行化和没有显式赋值使用虚拟机和通道类型。用户可以提供注释来影响施工进度。 |
数量的子任务:用于表示adeveloper宣布开发任务可以适合并行化。 |
每个实例数量的子任务:每个子任务被分配在默认情况下,使用单独的实例。 |
之间共享实例任务:不同的任务通常是分配给不同的实例,除非阻止由另一个调度限制。通道类型:每条边是用来连接 |
实例类型:子任务可以执行在不同的实例类型可能或多或少适合考虑计划。 |
D。执行图:主调度数据结构由显式并行的任务可以并行的在声明任务指定连接的子任务。在第二个显式分配虚拟机指定的ID和类型的类型是指硬件配置文件。数据处理需求的云计算处理虚拟机分配与按需配置,有些问题是当进行分配和释放虚拟机来说是没有资源可用性的保证阶段确保三个属性首先是虚拟机的即将到来的阶段。二是所有工人都设置和准备使用前阶段的最后是数据存储在持久的方式。 |
在图5显示了执行图由工作图撤销图是纯直接无环图(DAG)。执行图等于用户的工作图。每个顶点的原始工作图存在一组执行图的顶点,顶点集团也代表不同的任务。在作业处理边缘团体顶点之间并不代表任何物理通信路径。涅斐勒执行图分为一个或多个实例称为执行阶段。涅斐勒有三种不同类型的通道 |
网络渠道: |
在网络通道两个子任务通过TCP连接,允许管线式处理交换数据。消费子任务被生产子任务立即运送。结果两个子任务通过网络连接通道可能不同实例上执行。在网络渠道顶点必须在相同的阶段。 |
相同内存通道:如网络渠道的区别仅仅是,而不是使用TCP连接。子任务使用的实例内存交换数据。内存通道顶点必须运行在相同的虚拟机和顶点必须在相同的阶段。 |
文件通道:在这两个子任务交换记录通过本地文件系统,记录第一个完全写入中间文件然后读入文件。在相同文件通道顶点必须运行在虚拟机和顶点必须在不同的阶段。 |
模块描述 |
一个。网络模块: |
客户机-服务器计算模型中,数据是分布式和usedtodivide任务或工作负载的数据数量,服务请求者和服务提供者(服务器)之间,称为客户。在客户端和服务器操作在一个计算机网络,它使用单独的硬件。一个服务器机是一种高性能的主机上运行一个或多个服务器程序,与客户共享资源。一个客户也提供共享资源;客户因此发起与服务器通信会话听传入的请求。 |
b .调度任务:客户端启动任务流程作业管理器。作业管理器执行功能的阅读任务,并且将thetask坐标和安排任务,任务管理器是用来进行分配和释放资源。 |
c端模块:客户端发送请求到作业管理器然后作业管理器执行任务作业管理器将安排任务和过程的任务和协调任务,等待replyand完成后它会给响应。客户端发起请求的人作业管理器。D。作业管理器模块:作业管理器将等待来自客户机的任务和协调的过程,它会检查服务器的可用性,如果服务器是可用的任务要做。它canallocate资源执行完成,等待回应。f .任务管理器模块:任务管理器将等待执行的任务,然后执行任务和作业管理器发送完整的响应给客户端。任务的实际执行它在任务管理器完成的。 |
的SCHEDULINGALOGORITHM |
后点的调度算法包括新任务的到来,完成任务,最后是当前执行的任务。当前任务是活跃的时,它立即丢弃,选择效率最高的任务执行。 |
我们选择先与时间复杂度关心调度算法: |
算法: |
调度程序(流程) |
{ |
如果tm1。时间间隔< = 0 |
Tm1.timespan = process.timeComplexity; |
Tm2.timespan -; |
Tm3.timespan -; |
其他如果tm2。时间间隔< = 0 |
Tm1.timespan -; |
Tm3.timespan -; |
Tm2.timespan = process.timeComplexity; |
其他如果tm3。时间间隔= 0然后 |
Tm1.timespan -; |
Tm2.timespan -; |
Tm3.timespan = process.timeComplexity; |
如果 |
} |
当新工作首先插入当时就绪队列开始时间将当前活动任务的预计完成时间、依托这个起始时间我们比较其期望效用与其它任务队列中。如果小于下面的时间跨度然后重新插入这个工作队列根据其新的期望效用计算结果根据以下算法。 |
结论 |
在本文中,我们已经讨论了挑战和机遇在云计算调度快速数据处理。这是代表的帮助下涅斐勒第一数据处理框架。我们已经描述了涅斐勒的基本架构代表特定虚拟机分配的能力取决于类型的特定任务.processing工作虚拟机自动分配和释放。在工作执行有利于提高资源利用率和降低生产成本。 |
一般我们认为我们的工作是一个重要的贡献增长领域的并行数据处理 |