所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

灵活的数据流在云流

J。天Rethna维吉尔Jeny1, Anil Joshi2
副教授,部门、AVCOE Sangamner,普纳大学India1马哈拉施特拉邦
主机(IT)的学生,AVCOE Sangamner,普纳大学India2马哈拉施特拉邦
相关文章Pubmed,谷歌学者

访问更多的相关文章国际创新研究期刊》的研究在科学、工程和技术

文摘

大部分的应用程序在一些特殊的领域,如通信系统、共享市场,欺诈检测和网络安全需要在线处理传入的数据。他们产生非常高的负载,需要过程由多个节点。当前系统是在单个节点上的瓶颈和静态配置,因此它不能规模与输入负荷。所以在本文中,我们目前流云高灵活的数据流处理引擎处理庞大的数据流。这是特别适合应用在网上交易中,监控金融数据处理和欺诈检测系统要求及时处理连续数据。流云使用新颖的并行化技术,将一个查询分为独立的子查询分配到各个节点执行。它是有弹性的协议用于动态资源管理和负载平衡的负载。

关键字

数据流、负载平衡、弹性、可伸缩性、灵活性

介绍

许多应用程序需要处理大量的数据在半实时过程有存储然后处理模式的限制[1]。所以许多应用程序需要实时处理大量数据流的推动传统数据处理的极限。这些基于流的应用程序包括市场饲料加工和电子交易的股票市场、网络和基础设施的监控,在银行业欺诈检测检测任何未经授权的用户控制和指挥与控制在军事环境中无线传感器网络技术的司机和采用者[2],这是有用的调查将通过监控所有士兵。此外,还有一个全球定位系统提出了许多军用车辆,但它还没有连接到一个闭环系统。所以用这个技术,军队的人可以监控所有车辆的确切位置。
传统数据流处理技术使用一种新型计算模式对于一些特定的应用场景,大量的请求数据应该处理的最小延迟和正确的输出。SPE过程动态元组。即查询执行的SPE的被定义为“连续”或“连续”,因为他们不断站通过流数据。SPE连续处理流的元组就像传统数据库系统处理不同的关系数据库系统。系统功能更高的可伸缩性、弹性和负载平衡,有助于快速执行查询的最小延迟[3]。流只不过是无限序列的元组共享一个给定的模式表示为(A1, A2,…。一个)。每个元组有一个时间戳属性设置为数据源[4]。时钟同步是不可行的,每个元组是时间上的数据流的入口点。在这个查询只是无圈图,每个节点都是一个操作符和边缘定义数据流路径[5]。 The query having two types of operator's such as stateless or stateful.
有状态的运营商就像(骨料,加入和笛卡儿积(CP))上执行操作连续输入元组序列。在流媒体系统,因为无限的连续输入数据流,有状态的运营商对滑动窗口执行其操作的元组修复时间或固定数量的元组。无状态的运营商就像(地图、工会和过滤器)不保留任何州或会话在元组倍数和基于输入元组执行其操作。在这方面,编译器需要的查询和生成并行版本稍后部署在不同的集群节点。可伸缩性可以通过使用并行化策略。SC执行流分裂/内部分裂和隐藏并行逻辑智能节点使保证语义透明性即并行执行的输出与集中式系统的输出匹配。水流云可以概括为,
一个¯‚·高度可伸缩和弹性流流程引擎共享集群。
一个¯‚·小说并行化技术,最大限度地减少分销管理费用。
一个¯‚·弹性资源管理使用一些动态算法。
一个¯‚·通过查询编译器查询执行的透明度。

二世。背景

这包括数据流的基本概念,如数据流数据流操作符和连续查询[6]。
答:数据流模型
这是连续流的元组流流程引擎。这里的连续查询可以被定义为与一些额外的输入和输出直接无圈图边缘。这里每个节点即经营者,从一个或多个输入流和元组执行后产生的一个或多个输出流的元组。在这里查询称为“连续”或“连续”,因为结果是计算在连续在线时尚处理后输入元组。
1)数据流操作符:本节提供了有关数据流操作符的基本概述。这些操作符用于处理输入查询和产生输出元组。基本上运营商可以通过两种方式分类是否保持任何国家在处理任何输入查询。一个又一个无状态的运营商执行每个操作。所以他们不维护任何国家之间执行元组并产生相应的输出。例如,为无状态的运营商包括地图、过滤和工会的运营商。Statefull运营商维护状态时执行元组。他们是处理多个输入元组和产生单一输出。如有状态操作符包括聚合、加入和笛卡儿积(CP)。
地图地图操作符是一个广义投影算子用来改变输入元组的整个模式。
地图可以被定义为,
我和O分别代表输入和输出流,1和F’的模式输出元组。过滤器的过滤器是一个广义的选择算子用来丢弃或路由元组从一个单一的输入请求流到多个输出流。过滤器可以被定义为,
我在哪里输入流,O1…。Om, Om + 1是一组命令的输出流,P1。点是谓词的有序集合。联盟Union操作符用于合并元组倍数从多个输入流进一个输出流。这可以被定义为,
在I1…是一组输入strea1ms和O输出流。加入和笛卡儿积这两个状态操作符是用于匹配不同的元组从两个不同的输入流,为每一个输入流保持一个单独的窗口。这可以被定义为,
b .并行流处理
本节包括不同的替代策略在云流并行处理查询。这一节还展示了流云运营商如何隐藏并行逻辑,保证并行的透明度。当从一个集中的系统并行执行,挑战在于在保证语义透明性。即并行执行的输出应该总是相同的集中式系统的输出,同时最小化开销。并行流处理特定的关注必须有状态的运营商,这是我们必须确保所有元组必须执行聚合或加入操作在一起总是由同一个节点处理。如果一个聚合操作运行在一个特定的节点和计算的移动电话用户日均费用必须处理所有元组属于同一用户以产生正确的输出结果。在云流并行化策略可以通过光谱特征。每个策略提出了光谱的位置取决于粒度并行化的深度和单位。这里,基本上在一个上下文我们有一个并行策略,保持完整的查询并行化单元。在其他情况下,我们有一个并行策略,使用单个运营商作为并行单元。在查询并行化有两个分销成本,这些都是主要因素,
1。啤酒花由每个元组的数量从一个节点到另一个节点。
2。每个节点的通信扇出与其他节点。
这里,我们说明了三种不同的并行策略抽象查询在下图中,部署在不同的集群节点。在本例中,查询由两个有状态操作符。即加入(J)和一个聚合(Ag)和四个无状态的一次。即两个地图(M)和两个过滤器(F)。
有三种类型的替代策略并行流处理如下
1)Query-cloud策略(QC):如果并行单元是整个查询,然后在每个节点上部署。语义透明性是通过不断地重新分配元组在每个状态操作符。这里加入和聚合操作可以通过相同的节点。所以,在这个每个元组的跳数等于有状态操作符的数量和总扇出每个节点的数量等于运营商- 1。
2)Operator-cloud策略(OC):在这一战略中,如果并行单元是一个运营商。然后部署在不同的节点(称为子集群)的子集。在这种情况下,每个节点的通信发生一个集群子所有同行在接下来的子集群。这里,啤酒花的总数等于节点或运营商的数量- 1和扇出是由每个节点下面的子簇的大小。
3)Operator-set-cloud策略(SC): Operator-set-cloud策略元组跳的数量最小化。这种策略在每个查询分裂/分为多个子查询是有状态的运营商,+ 1作为一个额外的运营商。如果查询的开始是无状态的运营商然后子查询有状态操作,无状态的所有操作符连接到它的输出。如果查询的开始是无状态的运营商的第一子查询所有无状态的运营商。

三世。提出了系统

在本文中,我们专注于一个新的计算模式技术基于流处理引擎(spe)。流处理引擎的计算系统最初设计过程的连续数据流的最小延迟时间。在新的系统中,数据流处理不存储,但他们在飞行中使用连续查询。在这个系统里查询不断站在元组并产生连续的输出。这里,希望能够在多个集群的节点分配不同的查询也称为国际查询查询的并行性,甚至它分配不同的运营商在不同的节点也称为国际运营商并行性[3]。快速的数据流需要使用一个或多个SPE可利用也使用复杂的谓词。快流媒体应用程序调用更多的可伸缩的SPE,应该能够聚合或加入成千上万的核心过程的计算能力每秒数百万元组,可以通过避免单节点当前SPE的瓶颈在于架构与intraoperator paralleldistributed SPE并行性[7]。
在本文中,我们集中流云可伸缩性与有效利用负载均衡技术和可伸缩性/灵活性的帮助下动态资源管理发生任何故障。这个系统还包括分布式流处理北欧化工等分布式流处理引擎允许每个运营商部署到不同的节点,负载平衡是用来平衡传入流元组加载跨多个节点,使弹性资源管理器应用程序分配资源,按需。也称为流的动态资源管理云计算和并行流处理像极光[8]和[9]通量并行流处理[10]。

四、建筑

架构定义了一个弹性资源管理和动态负载均衡的云。与弹性管理组件图显示了一个示例配置。流云架构包括一个弹性经理(EM),资源管理器(RM),和当地经理(LMs)。每个SC实例运行的LM不断监视资源利用率和传入流负载,和当地磅即能够重新配置更新(BIM)。在这种情况下,每个LM定期报告监控信息聚合的EM per-sub集群的基础。根据收集到的数据通过EM,它决定重新配置系统来平衡负载解除实例。如果有时重新配置需要做重新配置独立的决定是采取和执行对每个子集群。
如果有时任何实例都必须退役那么EM与RM。一旦他们收到一个新实例,然后部署和子查询可以添加到新实例即将饱和的子群。有很多协议提出了改善弹性云如流,
一个¯‚·弹性重组协议。
一个¯‚·弹性协议。
每当需要重新配置集群子这意味着转移所有权的一个或多个桶(老业主)到另一个从一个实例(新所有者)在同一子集群。

诉的结论

在本文中,我们提出了云流,一个高度灵活和弹性数据流系统。流云提供了透明的并行化,保持集中的语法和语义查询。灵活性和可扩展性获得通过一种新颖的并行策略,最小化分配开销。流云的灵活性和动态负载平衡提供效率和减少资源的数量用于应对不稳定的工作负载。评价了大灵活性、可伸缩性和弹性流云的有效性。

数据乍一看

图 图
图1 图2

引用

  1. m . Stonebraker美国C¸etintemel, S.B. Zdonik,“8实时流处理的需求,”SIGMOD记录,34卷,没有。4,42-47,2005页。
  2. o . s .•钱德拉塞卡兰Cooper, a . Deshpande M.J.富兰克林,J.M. Hellerstein, w .香港s•马登,诉拉曼,f·赖斯和硕士沙,“Telegraphcq:连续数据流处理一个不确定的世界中,“Proc,第二年生相依。创新的系统研究(CIDR)的数据,2003年。
  3. y D.J. Abadi艾哈迈德,m . Balazinska C¸etintemel, m . Cherniack黄永发。黄,w•林德纳a . Maskey a .葡萄干e . Ryvkina n . Tatbul y,和S.B. Zdonik,“北欧化工的设计流处理引擎,“Proc。第二个双年度会议。创新的系统研究(CIDR)的数据,277 - 289年,2005页。
  4. n . Tatbul美国C¸etintemel, S.B. Zdonik,“健身:高效的卸载技术为分布式流Proc es,“Proc。如您相依超大型数据基地(VLDB), 159 - 170年,2007页。
  5. D.J. Abadi d·卡尼,C¸etintemel, m . Cherniack C .传达美国Lee m . Stonebraker n . Tatbul和S.B. Zdonik,“极光:一种新的模式和体系结构数据流管理“VLDB J。,12卷,不。2、120 - 139年,2003页。
  6. StreamCloud:大规模数据流系统Vincenzo Gulisano1,里卡多Jimenez-Peris1, Marta Patino-Martinez1帕特里克Valduriez2。
  7. M.T. O zsu和p . Valduriez分布式数据库系统的原则,第三版,施普林格,2011年。
  8. m . Cherniack h··m·Balazinska d·卡尼美国C¸etintemel, y,和S.B. Zdonik,“可伸缩的分布式流处理,”Proc。双年展相依创新系统研究(CIDR)的数据,2003年。
  9. 硕士沙、J.M. Hellerstein M.J.富兰克林,美国•钱德拉塞卡兰“通量:一个自适应Partiti连续查询系统,在运营商“Eng Proc, IEEE国际会议。数据。(ICDE),技能,2003页。
  10. y, S.B. Zdonik,黄永发。黄,“北欧化工流处理器,动态负载分配”ProcInt 'lConfData Eng。(ICDE),页791 - 802,20。