所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

互联网流量的Hadoop技术流分析

Rakshitha Kiran P
PG学者,部门的C。年代,Shree Devi理工的芒格洛尔,卡纳塔克邦,印度
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

流网络流量的分析论述了序列和模式的交通网络。这可以帮助网络管理员监控操作的网络,了解网络的使用和检查用户使用网络的行为。互联网流量的分析,可以避免大量的问题。流分析有助于容错、交通工程、资源分配和网络容量规划。由于快速增长的网络流量的体积是非常大。所以很难收集、存储和分析这个巨大的数据在一个机器。Hadoop是一个主要框架旨在执行巨大的数据集,可以数以百计的tb,甚至pb的数据。Hadoop执行强力扫描多个输入数据,并产生输出的痕迹交通流量识别、流聚类。本文基于Hadoop的互联网流量的流量分析。这里的系统接受大量的数据包来自各种网络,输入是附加到Hadoop分布式文件系统(HDFS)最后处理是通过一个名为MapReduce的方法。 Once the output is obtained it is graphically shown to the network operators and a detailed analysis is done on the internet traffic.

关键字

Hadoop;HDFS;MapReduce;网络容量规划

介绍

互联网是全面系统大量相互连接的计算机网络。互联网利用典型的互联网协议套件(TCP / IP)连接数以百万计的设备。网络流量由一系列数据包从源计算机流向目的地。换句话说,它是整个网络的数据流。
软件定义网络(SDN)是计算机网络的方法有助于管理网络。这种方法有助于在管理网络的解耦系统,迫使结果发送的流量。
的流量分析大数据,我们需要做的第一件事就是收集和测量流量来自不同数据源的数据。大数据是一个巨大的收集的信息不能由传统的处理应用程序处理。大数据是指体积数据的多样性和速度。不仅仅是日期、数字、字符串。也是音频、视频、三维数据、非结构化文本、社会媒体和日志文件。所以这是一个具有挑战性的任务来衡量和分析Bigdata。Hadoop软件图书馆是一个脚手架,使用简单的编程技术来处理大型数据集。于[1]讲述软件名叫OpenSketch是专为测量流量,这个软件将数据平面测量的控制平面测量。
本文的主要观点是设计和实现一个系统流量分析使用Hadoop集群。本文系统接受大的输入文件,对输入执行详细分析,最后给一个统计输出的基础上其特征信息。

相关工作

很多研究已经完成测量使用Hadoop互联网流量的性能。美国Rixner Scscc j·沙佛,艾伦·L [2]。考克斯讨论Hadoop分布式文件系统的性能。Hadoop是最可接受的框架管理大量的数据在分布式环境中。Hadoop使用用户级文件系统以分布式的方式。HDFS (Hadoop分布式文件系统)是一种便携式跨硬件和软件平台。本文的详细性能分析HDFS是它显示很多性能问题。最初的问题是建筑存在的瓶颈在Hadoop实现导致的低效使用HDFS。第二个限制是基于可移植性的局限性,限制了java实现使用天真的平台的功能。本文试图找到解决方案在HDFS的瓶颈和可移植性问题。
t·本森,a . Akella和d·a·麦克斯维尔[3]写了一篇论文在“数据中心网络流量特征在野外“本文研究人员进行经验报告在一些数据中心的网络属于不同类型的组织,企业,和大学。尽管十分关注发展中网络数据中心,只有少数信息是了解网络级交通的特点。本文收集SNMP拓扑信息,统计并包水平痕迹。他们检查包级别和流级别传输特性。他们观察的影响网络流量在网络利用率,也拥堵、链路利用率和丢包情况。
a·w·摩尔和k Papagiannaki[4]给流量分类的基础上完整的数据包的有效载荷。本文比较了基于出口分类和内容之间的分类。数据用于比较完整有效载荷包的痕迹从互联网上收集的网站。比较的输出显示的流量分类的基础上,利用著名的港口。本文还证明了基于端口的分类可以识别整体流量的70%。l . Bernaille r .特谢拉[5]告诉出口分类并不是一个可靠的方法来做分析。本文提出了一种技术,它取决于观察TCP连接的前五包来确定应用程序。

提出了系统

概述:
流分析使用Hadoop的关键部件包括三个主要的层包括数据交换层,分析层和用户界面层[6]。图1显示了所需的关键部件流分析。3层以上的功能如下所述:
吗?数据交换层:这一层实现HDFS (Hadoop分布式文件系统)来存储相关的互联网流量的信息。这一层主要是担心它所提供的存储和支持其他层。在这一层预处理的本地文件系统。这里的网络信息和交通信息从数据包中提取得到了从网络。
吗?分析层:这一层是互联网流量的分析和管理。在这一层多种类型的分析。在这一层网络分析、节点分析、链接分析和流程分析。分析层还实现了各种算法所需的流分析。
吗?用户界面层:用户可以与系统交互。该系统将图形图像显示给用户,这样用户可以更好地理解流分析。这一层实现了一些API和GUI工具更好的沟通目的。

b .使用Hadoop流分析:

Hadoop是一个框架[7]的工具用于解决大数据所面临的挑战。Hadoop MapReduce由分布式文件系统和引擎。分布式文件系统将大数据块划分为许多小单位和MapReduce引擎将流程和实现每一个独立的数据块。
在此系统中,输入是Bigdata包含大量的数据包流从不同的网络。该系统将接受这个大输入流量测量工具叫Wireshark的跟踪文件。这个工具识别网络上的交通流运行。一旦输入存储在Hbase (Hadoop数据库)下一步是分析的输入。分析的输入是一个困难的工作。输入的分析是基于源IP地址、源端口地址,目的地IP地址,目的港地址,数据包的类型和大小的包。图2显示了这个系统的体系结构。
在上面的图中我们可以看到数据包的流动到系统中。最初的用户或网络将给系统的输入。输入是非常大量的数据包流从不同的网络。所有的数据包信息将存储在Hbase。然后系统将执行HDFS和MapReduce函数在这些大量的数据包。一旦数据包排序相应各种数据包的流量控制机制。用户可以查看数据包流的静态流的数据包。
不同平台之间的可移植性像Windows、Linux、Mac OS / X, FreeBSD,组件是用Java编写的,只需要硬件。一开始我们开始从网络解析给定的输入。输入需要在特定的格式才可以做解析。如果输入不符合格式要求的排序输入文件是必要的。一旦输入文件排序的下一个步骤是解析每一个输入行。解析的基础上,完成源IP地址、目的地IP地址,目的港源地址,数据包的类型。输入相同的源和目的港地址将聚在一起,输入相同的源IP地址和目标IP将集群和数据库中存储非结构化数据。
MapReduce函数允许程序员编写程序来解析大量的非结构化数据并行/分布式集群的独立的计算机。MapReduce函数将非结构化输入从数据库和解析。该函数将计算数据的字节的和从特定的端口地址到特定端口地址或从特定的IP地址到特定的IP地址。这是解析完成后,下一步是可视化。
不同平台之间的可移植性像Windows、Linux、Mac OS / X, FreeBSD,组件是用Java编写的,只需要硬件。一开始我们开始从网络解析给定的输入。输入需要在特定的格式才可以做解析。如果输入不符合格式要求的排序输入文件是必要的。一旦输入文件排序的下一个步骤是解析每一个输入行。解析的基础上,完成源IP地址、目的地IP地址,目的港源地址,数据包的类型。输入相同的源和目的港地址将聚在一起,输入相同的源IP地址和目标IP将集群和数据库中存储非结构化数据。
c .可视化:
解析和MapReduce的结果必须为更好地理解网络的图形表示。的报告的分析,从网络庞大的数据显示在多个可视化形式。这种可视化的形式有助于互动的网络运营商,专注的方式分析和操作数据。系统显示的报告形式的条形图。交通流的图形表示形式是分为小型、中型和大型基于数据包的大小。基于源地址、目的地址、类型的包图表示。

结论和未来的工作

在本文中,我们提出了工作流程分析和流程识别在Hadoop的平台上。这里我们提供一个详细的分析的数据包分类基于数据包的地址和类型。本文展示了一个方法跟踪数据包文件并提供一个详细的统计分析的原始跟踪数据包和流动。在本文中,我们展示的图形化表示数据包进入系统。
未来的工作将显示关于各种问题导致网络拥塞。它还将包含必须实现的方法,以避免拥塞的网络Bigdata使用Hadoop技术。

数据乍一看

图1 图2
图1 图2

引用








全球技术峰会