所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

网络入侵检测系统使用遗传算法和模糊逻辑

Mostaque Md Morshedur哈桑
助理教授,计算机科学和拉钱德拉Bharali学院,印度古瓦哈蒂
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

这些天入侵检测系统(IDS)是定义为一个系统安全的解决方案是用来确认在一个计算机系统或网络异常活动。到目前为止不同的方法被用于入侵检测,但不幸的系统并不完全理想。因此,改进方法的狩猎。在这个过程,我设计了一个入侵检测系统(IDS),通过应用遗传算法(GA)和模糊逻辑有效检测网络中的各种类型的侵入活动。提出模糊基于逻辑的系统能够检测计算机网络的侵入活动的规则库拥有更好的规则集。提出了入侵检测系统的实验和评估执行与KDD Cup 99入侵检测基准数据集。实验结果清楚地表明,该系统达到更高的准确率识别记录是否正常或异常的和获得合理的检出率。

关键字

入侵检测系统(IDS),基于异常的入侵检测、遗传算法、模糊逻辑、数据集KDD Cup 99。

介绍

入侵检测的目的是监控恶意活动([1]、[2]、[3],[4])发生在一个计算机系统或网络内部或外部和分析它们的迹象可能的事件,这是违反或违反了即将到来的威胁电脑安全策略,可接受的使用政策,或标准的安全实践。计算机系统入侵事件正在增加,因为互联网的商业化和本地网络[5]和新的自动化的黑客工具。计算机系统是越来越容易受到攻击,因为它扩展的网络连接。
如今,网络化的电脑系统发挥着越来越重要的作用在我们的社会和经济。他们已经成为广泛的恶意攻击的目标,总是变成实际的入侵。这是计算机安全已成为一个重要的原因关心网络管理员。经常入侵造成破坏内部局域网和时间和成本去修理损坏的地方可以发展到极端的地步。而不是使用被动措施,修复和修补安全漏洞一旦被利用,采取积极主动的方法是更有效的入侵。
入侵检测系统(IDS)主要集中在识别可能的事件,日志信息,试图阻止他们,并报告安全管理员[6]在实时或接近实时的,那些过程审计数据有延迟(非实时)。后一种方法会延迟的时间检测。此外,其他目的的组织使用ids,如识别问题与安全政策,记录现有的威胁,和阻止个人违反安全策略。ids已经成为必要的几乎每一个组织的安全基础设施。
ids通常观察到的事件相关的记录信息,通知安全管理员的重要观察事件,并生成报告。许多ids还可以对检测到的威胁,试图阻止它成功。他们使用一些响应技术,包括IDS停止攻击本身,改变安全环境(例如,重新配置防火墙),或改变攻击的内容。一个典型的入侵检测系统如图1所示。
IDS面临的主要问题之一是大量的假阳性警报,即警报误分类正常交通安全违法行为。一个完美的IDS不会生成错误的或无关紧要的警报。在实践中,基于签名的IDS产生比预期更多的假警报。这是因为一般的签名和验证工具缺乏建立验证成功的攻击。大量的假阳性的警报日志的过程使真正的积极采取补救措施,即成功的袭击,延迟和劳动密集型。
我的目标是检测小说在网络流量攻击未经授权的用户。我认为小说如果漏洞的攻击是未知目标的所有者或管理员,即使攻击通常是已知的和补丁和检测测试是可用的。我主要感兴趣的四种类型的远程发起攻击:探针,拒绝服务(DOS), U2R和R2L。DoS攻击是一种攻击的黑客进行计算或内存资源太忙或太完整合法的网络服务请求,因此拒绝用户访问的机器如apache,蓝精灵,海王星,萍死亡,回来,邮件炸弹,UDP风暴等都是DoS攻击。远程用户(U2R)攻击的攻击,用户通过互联网向机器发送数据包时,他/她没有访问为了让机器漏洞并利用特权一个本地用户就会在电脑上如xlock,客人,xnsnoop,公积金,sendmail的字典等等。R2L黑客的攻击是开发系统上开始与一个普通用户账户和试图滥用系统中的漏洞,以获得超级用户权限如perl、xterm。探测是一种攻击的黑客扫描机器或网络设备以确定缺陷或漏洞后被利用,以妥协系统。这种技术是数据挖掘中常用的如圣人,portsweep, mscan, nmap等等。

相关的工作

正常和异常行为[1]在网络计算机很难预测,不能定义良好的边界。这个预测过程通常会产生假警报在许多基于异常的入侵检测系统。
通过引入模糊逻辑,假警报率决定可以减少侵入性的行为,在一组模糊规则用于定义正常和异常行为[1]在一个计算机网络。该系统提出了一种技术来生成模糊规则能够检测恶意活动和一些具体的入侵。
这个系统的性能提供了一个方法生成的模糊规则分类不同类型的入侵。
在此系统中,我解释了攻击模式,指出这种攻击和威胁的影响。从攻击者的角度来看,我分析每一个攻击的模式,利益和适用条件,认为如何提高攻击通过引入模糊的概念,基于逻辑的方法。
引入模糊集理论是德[10]1965年,它是专门设计的数学表示的不确定性和模糊性与形式化的逻辑工具来处理许多实际的固有的不精确问题。
哈桑[4],约纳利([7],[8]),Neog和Sut[9]转发一个扩展的模糊集的定义,使我们能够定义模糊集的补充。我们提出系统同意他们是这个新定义满足所有属性模糊集的补充。
龚[2]提出了基于遗传算法的网络入侵检测方法的实现使用遗传算法和软件实现。的方法推导出一组分类规则和利用有助于提振市场信心的框架来评价适应度函数。
夏,哈里里和Yousif[3]使用遗传算法来检测异常网络行为基于信息理论([17],[18])。一些网络特性可以识别网络攻击基于互信息之间的网络特性和类型的入侵,然后使用这些特性的线性结构规则和遗传算法。使用互信息的方法和得到的线性规则似乎很有效,因为减少了复杂性和较高的检出率。唯一的问题是,它只考虑离散特性。
阿卜杜拉[6]显示基于GA的绩效评估网络入侵检测算法。过滤的方法使用信息理论的交通数据。
卢和特劳雷[12]历史网络数据集使用医生获得一组分类[17]。他们有助于提振市场信心框架作为适应度函数,准确分类几个网络入侵。但是他们使用的遗传规划实施过程非常困难和训练过程需要更多的数据和时间。
Goyal和Kumar[13]描述了一个基于GA算法分类所有类型的smurf攻击使用训练数据集和假阳性率很低(0.2%)和检测率几乎是100%。
李[14]描述了一种方法使用遗传算法来检测异常网络入侵([17],[18])。该方法包括定量和网络数据的分类特性推导分类规则。然而,包含量化特性可以提高检测率,但没有实验结果是可用的。

入侵检测概述

下面给出一个简短的概述网络攻击,入侵检测系统的分类和各种组件。
答:网络攻击
本节概述了四个主要类别的网络攻击。每攻击一个网络可以轻松放入其中一组[15]
•拒绝服务(DoS):DoS攻击是一种攻击的黑客进行计算或内存资源太忙或太完整合法的网络服务请求,因此拒绝用户访问的机器如apache,蓝精灵,海王星,萍死亡,回来,邮件炸弹,UDP风暴等都是DoS攻击。
•远程用户攻击(R2L):远程用户攻击是攻击的用户在互联网上向机器发送数据包时,他/她没有访问为了让机器漏洞并利用特权一个本地用户就会在电脑上如xlock,客人,xnsnoop,公积金,sendmail字典等等。
•用户根攻击(U2R):这些攻击是黑客的开发系统上开始与一个普通用户账户和试图滥用漏洞系统中为了获得超级用户权限如perl、xterm。
•探索:探测是一种攻击的黑客扫描机器或网络设备以确定缺陷或漏洞后被利用,以妥协系统。这种技术是数据挖掘中常用的如圣人,portsweep, mscan, nmap等等。
入侵检测的分类
入侵检测可分为两大类。他们是:
•基于主机的入侵检测:hid灯评估信息上发现一个或多个主机系统,内容包括操作系统、文件系统和应用程序([11],[16])。
•基于网络的入侵检测:捕获nids评估信息从网络通信,分析流的数据包穿越网络([11],[16])。
c .入侵检测系统的组成部分
入侵检测系统通常包括三个功能组件[17]。第一个组件的一个入侵检测系统,也被称为事件生成器,一个数据源。数据来源可以分为四类即基于主机的监控、网络监控、基于应用程序监视器、面向目标显示器。
入侵检测系统的第二部分是分析引擎。这个组件需要来自数据源的信息和检查的数据攻击或其他违反政策的症状。分析引擎可以使用一个或两个以下的分析方法:
•滥用/基于特征码的检测方法:这种类型的探测引擎检测入侵,Ill-known攻击模式(或签名)利用已知的软件漏洞([18],[19])。这种方法的主要限制是它只查找已知的弱点和可能不关心未来检测未知入侵[20]。
•异常/统计检测方法:基于异常的检测引擎将搜索一些罕见的或不寻常的[20]。他们分析系统事件流,利用统计技术寻找模式似乎异常的活动。该系统的主要缺点是,他们非常昂贵,他们可以识别一个侵入性行为是正常的行为,因为数据不足
•第三个组件的一个入侵检测系统是经理的响应。基本而言,响应经理只会行动不准确(可能的入侵攻击)时发现系统上,通过通知某人或某事的形式回应。

基于基因的id

答:遗传算法概述
遗传算法(GA)是一种编程技术,它使用生物进化作为一个解决问题的策略[21]。它是基于达尔文的进化和适应的生存原则,优化人口的候选解决方案对一个预定义的健身[14]。
提出了基于遗传算法的入侵检测系统包含两个模块,每个在不同阶段工作。在训练阶段,生成分类规则集使用GA网络审计数据的离线环境。在入侵检测阶段,生成的规则用于分类的实时环境中网络连接。一旦生成规则,入侵检测系统变得简单,经验丰富的和有效的。
遗传算法使用一个进化和自然选择,它使用一个染色体和染色体数据结构和发展使用选择、重组和变异操作符[14]。染色体的过程通常始于随机生成的人口,这代表所有可能的解决方案的问题,被认为是候选的解决方案。从每个染色体的不同位置编码比特,字符或数字。这些职位可以称为基因。一个评估函数是用来计算每个染色体的正派根据所需的解决方案;这个函数被称为“适应度函数”。在评价的过程中“跨界”是用来模拟自然繁殖和“突变”用于变异的物种[14]。为了生存和组合的选择染色体部分对胜任的染色体。
当我使用遗传算法解决各种问题的三个因素对算法的有效性有重要影响,也应用[2]。他们是:我)适应度函数;(二)个人的表现;和iii) GA参数。这些因素的确定往往取决于系统的实现。在下面几节中,我重点讨论使用遗传算法推导规则的集合。
b .模糊逻辑
约纳利[7]所示,一个模糊数(a, b, c)是定义参照一个隶属函数μ(x)躺在0和1之间,≤x≤c。此外,他在以下方式扩展了这个定义。让μ1 (x)和μ2 (x)是两个函数,0≤μ2 (x)≤μ1 (x)≤1。他得出结论μ1 (x)的模糊隶属函数,和μ2 (x)函数的引用,这样(μ1 (x)——μ2 (x))是任何x的模糊成员值。最后,他塑造了这样一个模糊数,{x,μ1 (x)μ2 (x);x∈Ω}。
μx总是的补数Zadehian从地面水平的理论[10],而实际上如果不是水平为零计算表面值并不总是零。如果其他比零,问题就出现了,然后我们计算成员值从表面μx的补充。因此我可以得出以下声明
补μx = 1为整个水平
会员价值μx = 1 -μx的补充
我的系统转发的定义补充一个扩展的模糊集的模糊参考函数并不总是零。补充的模糊集的定义提出了哈桑[4],约纳利([7],[8]),Neog和Sut[9]可以看到我给的具体情况。我将使用约纳利的定义一般的模糊集的补充我的文章。
在两类分类问题,有两个类,每一个对象都应该分类。这些类被称为积极的(异常)和消极的(正常)。学习算法所使用的数据集由一组对象,每个对象与n + 1的属性。第一个n属性定义对象特征(监控参数)和最后一个属性定义类的对象属于分类属性。
模糊分类器求解两类分类问题是一组两个规则,一个用于正常类和其他异常类,在仅使用定义的条件部分是监控参数和结论部分是一个原子分类属性的表达式。
c .流程图
图2显示了一般遗传算法的操作根据遗传算法是在我们的系统中实现。
算法
算法
e .适应度函数
作者([1],[4])使用模糊混淆矩阵来计算染色体的适应度。模糊混淆矩阵的模糊染色体所代表的真实程度的条件和模糊否定算子是直接使用。在我们的例子中,染色体异常类的健身评价根据下列方程组:
方程

IDS实现

实现算法和评估系统的性能,我用标准数据集KDD Cup 1999中使用“计算机网络入侵检测”竞争。
答:知识发现(KDD)杯样本数据集
对于算法的实现,我使用KDD 99入侵检测数据集是基于1998年DARPA计划,提供设计师的入侵检测系统(IDS)的基准来评估不同的方法([22],[25])。因此,人为的模拟是与三个“目标”的军事网络机器运行不同的操作系统和服务。他们还使用了三个额外的机器恶搞不同的IP地址生成网络流量。
连接一个TCP数据包序列开始和结束在一些定义良好的时候,之间的数据流从源IP地址到目标IP地址在一些定义良好的协议([22],[23],[25])。它导致41为每个连接特性。
最后,有一个嗅探器,记录所有网络流量使用TCP转储格式[25]。总模拟周期是七周。正常连接配置文件,创建预期的军事网络和攻击可分为四类:用户根;远程到本地;拒绝服务;和调查。
数据库知识发现(KDD) 99年入侵检测基准包含不同的组件[24]:
kddcup.data;kddcup.data_10_percent;kddcup.newtestdata_10_percent_unlabeled;
kddcup.testdata.unlabeled;kddcup.testdata.unlabeled_10_percent;纠正。
我用“kddcup。data_10_percent”作为训练数据集和“纠正”作为测试数据集。在这种情况下,训练集包含494021条记录其中97280是正常的连接记录,而测试集包含311029条记录其中60593是正常的连接记录。表1显示了每个入侵类型的分布在培训和测试集。
b .实施程序
在计算阶段,我已经23组染色体根据训练数据。有23为每个攻击(22 + 1)组和正常类型提出了训练数据。每组的染色体数量是可变的,取决于数据和关系数据的数量。总数的染色体组愤怒试图保持在合理水平,优化时间消耗在测试阶段。
在测试/检测阶段,对于每一个测试数据,进行了初始种群使用数据和突变发生在不同的特性。这个人口相比,每个染色体在训练阶段做好准备。部分的人口,比其他人更松散与所有训练数据,删除。交叉和变异发生在其他人群,成为新一代的人口。流程运行,直到生成大小可以归结为1(一)。染色体的组仅存的最亲密的亲戚染色体的测试数据作为预测的返回类型。
实现,我已经连续和离散值的提取特征数据集。

实验结果和分析

答:训练和测试数据
数据库知识发现(KDD) 99年入侵检测数据集[24]广泛用于评估中的难点。在这项研究中,两个子集从1998年DARPA数据中提取,用作训练和测试数据集。每个记录的数据集包含9网络特性和1手动分配的记录类型。9网络特性已经使用GA[14],连接持续时间,协议,国旗,su_attempted, is_guest_login, same_srv_rate dst_host_same_srv_rate, dst_host_srv_count,计数。
记录类型显示记录是否正常网络连接或一个特定的网络入侵。大多数网络数据包所选择的数据集是正常的,和四种网络攻击存在:dos,探测器,u2r和r2l。
b .实验
在实验中,系统训练的训练数据集,和默认的适应度函数和遗传算法参数,即。,w1=0.2, w2=0.5, w3=0.3, 10 genes of a chromosome, 2000 generations, 250 initial rules in the population, crossover rate of 0.5, two-point crossover, and mutation rate of 0.02. When the training process was finished, the top 15 best quality rules were taken as the final classification rules. The rules were then used to classify the training data and the testing data respectively.
实验结果表明,该方法产生良好的检出率在使用生成的规则进行分类训练数据本身。检测率可能会更高,如果适应度函数和遗传算法参数选择更为恰当。这项研究的结果发表在表2。
简化评价的体系,除了经典的测量准确性,我用两个标准指标的检测率和假阳性率发达网络入侵派生([4],[26])。表3显示了这些标准指标。
检出率为每个数据类型从图3中可以看到。
方程

结论和未来的工作

本文应用遗传算法和模糊逻辑的方法提出了对网络入侵检测系统有效地检测各种类型的网络入侵。实现和测量系统的性能我进行了许多实验使用标准数据集KDD Cup 99基准和获得合理的检出率。测量染色体的健身我使用了模糊混淆矩阵的模糊隶属度和模糊隶属函数的模糊集的补充是两个不同的概念,因为表面价值并不总是从地面水平计算。该检测系统可以上传和更新新规则系统作为新的入侵成为已知的。因此,成本效益和适应。该方法存在两个方面。首先,它为id生成假警报是非常严重的问题。其次,对于高维数据,很难产生规则,掩盖所有的属性。

确认

我想表示衷心的感谢和感激香港约纳利,教授们大学统计学系,印度对他的帮助和指导在准备这篇文章。

表乍一看

表的图标 表的图标 表的图标
表1 表2 表3

数据乍一看

图1 图2 图3
图1 图2 图3

引用