关键字 |
集群、入侵检测系统、数据挖掘、异常检测、误用检测 |
介绍 |
在信息社会的时代,作为基于网络的计算机系统中发挥基础作用,他们已经成为入侵目标的攻击者和罪犯。入侵预防技术,如防火墙、用户认证、信息保护和数据加密未能完全屏蔽网络和系统的行为和复杂的攻击和malwares增长。保护计算机和网络从各种网络攻击和病毒的入侵检测系统(IDS)的设计。id是一个机制,监控网络或系统行为的恶意活动并产生报告管理[1]。 |
作为数据挖掘的一个重要应用领域是基于数据挖掘的入侵检测算法,旨在解决分析大量数据的问题[9]。ids构建高效的聚类和分类模型来区分正常行为和异常行为使用数据挖掘技术。本研究这个领域的基础研究和探索,实现了基于数据挖掘技术的入侵检测模型系统。 |
传统的入侵检测 |
有两种类型的传统的入侵检测系统 |
答:异常检测 |
它是指检测主机或网络的异常行为。它实际上指的是用户的存储特性通常行为迷上了数据库,那么它的用户的行为与数据库相比较。如果有任何偏差发生,据说,测试的数据是异常的[2]。发现的模式被称为异常。异常也被称为离群值。 |
b .误用检测 |
在误用检测方法中,它定义了系统异常行为,然后定义了其他行为一样,是正常行为。它假定异常行为和活动有一个简单的模型来定义。它进展的快速检测和低比例的假警报。然而,它没发现non-pre-elected攻击特征库中的,所以它不能检测到丰富的新的攻击[3]。 |
IDS提供了以下安全功能 |
答:数据机密性 |
它检查信息存储在一个系统是否防止违宪的访问。自系统有时被用来管理敏感信息,数据机密性常常是衡量系统来保护其数据的能力[4]。 |
b .数据完整性 |
它指的是维护和保证数据的正确性和一致性对其整个生命周期。不承认腐败或数据丢失从随机事件或恶意活动。 |
c数据可用性 |
网络应该很难拒绝服务攻击。 |
入侵检测系统基于审计信息的来源可以分为3个子类 |
答:基于主机的IDS |
它指入侵检测发生在一个主机系统。它被审计数据从主机审计跟踪和监视活动,如完整的系统,文件的变化,基于主机的网络交通量和系统日志。如果有发现任何非法改变或运动,它提醒用户通过一个弹出菜单,并通知中央管理服务器。中央管理服务器块的运动或结合上述三个[5]。判断应该建立在本地系统上安装的策略。 |
b .基于网络的IDS |
它是用来监督和调查网络传输保护系统免受网络威胁。它试图检测恶意活动,如拒绝服务(Dos)攻击和网络流量攻击。基于网络的IDS包含许多传感器来监控包流量,一个或多个服务器的网络管理功能,以及一个或多个管理缓解人类接口[6]。 |
c混合入侵检测 |
入侵检测的最新发展是结合两种类型基于主机的和基于网络的IDS的设计混合动力系统。混合入侵检测系统具有灵活性,它增加了安全级别。它结合了IDS传感器位置和报告攻击是针对特定的部分或整个网络[7]。 |
类型的攻击 |
答:DOS攻击 |
拒绝服务攻击或分布式拒绝服务攻击是为了让计算机资源的股票其预期用户[32]。在这种类型的攻击减缓系统或关闭系统因此扰乱服务和否认的合法授权用户。由于这种攻击高网络流量发生[10]。 |
b .用户根攻击(U2R) |
在这种类型的攻击,攻击者开始于用户级像密码,字典攻击,最后攻击者达到根访问系统。 |
c .探测 |
在这种类型的攻击攻击者检查网络收集信息或发现著名的漏洞。攻击者有记录,使用的机器和服务是可以在一个已知的网络,可以利用这些信息来寻找微妙的点。 |
d .远程用户攻击(R2U) |
在这种类型的攻击攻击者有能力通过网络将数据包发送到机器,但没有一个帐户,机器上,利用一些漏洞实现本地访问用户的机器。 |
大肠窃听攻击 |
窃听攻击是一个网络层组成的捕获数据包从网络传播别人的电脑和阅读的敏感信息,如密码、会话令牌,或任何保密信息。 |
f .中间人攻击 |
在这个与受害者和攻击者使独立的连接之间传递消息,让他们相信他们说的是直接通过私人连接彼此,但事实是整个对话是由攻击者控制的。 |
IDS的缺点 |
入侵检测系统(IDS)已成为一个重要组成部分在安全基础设施允许网络管理员确定政策变化。违反这些政策从外部攻击者试图获得违宪的入侵者滥用他们的访问。当前IDS有许多相当大的缺点 |
假阳性:主要问题是会产生假阳性的数量id。开发独特的签名是一个复杂的任务。棘手得多挑一个合法的入侵企图如果签名也提醒定期有效的网络活动。 |
假阴性:在这些id并不实际发生的入侵时生成一个警告。简单的说如果没有书面签名为特定的开发有一个非常好的机会,IDS将不检测。 |
识别准确率和假阳性率可以使用以下两个公式 |
|
|
对入侵检测数据挖掘助攻 |
中央主题使用数据挖掘的入侵检测方法是检测信息系统的安全违规。数据挖掘能处理大量的数据,它发现隐藏和忽略的信息。检测入侵,数据挖掘的过程,分类,聚类,回归[8]。在这个工作我们都集中在集群技术。监控信息系统和安全违规行为成立时发出警告。 |
集群技术 |
分区方法 |
k - means聚类 |
广泛使用的k - means聚类算法,提出了詹姆斯MacQueen。k - means最强大的聚类算法,用于机器学习可以用来识别组织相似的情况下,物质对象,点自动在数据训练。该算法分类实例一个预定义的集群由用户指定的数量。重要的第一步是选择一个输入参数,k, k和n对象分割成集群和随机选择k对象。第二步主要是用于读取每个实例的数据集将它赋给最近的簇。在IDS中该算法最初选择簇头,簇头随机选择。选择集群头后开始聚类过程和类似的数据分配给它的邻国。所以准确分类的正常和异常数据。最常用的方法来测量实例和质心之间的距离是欧式距离。每个插入实例集群重心后重新计算。 This process is recapitulated until no more changes are made. That is, square-error criterion is used, defined as |
|
E是平方误差的总和为所有对象数据集;p是代表给定对象的空间点;集群和mi的意思是Ci (p和mi多维)[21] |
K-MEDOIDS |
K-Medoids试图减少点及其质心之间的距离。这类似于k - means聚类算法。medoid是数据点作为一个范例,集群中的所有其他数据点。k - means算法对离群值非常敏感,因为如果有一个对象与一个非常大的值,数据分布可能是偏见或扭曲的[11]。在这种情况下,k-Medoids更健壮的噪声和离群值,因为在执行该算法分割方法基于最小化的原则的总和差异集群中的每个对象[11]。通常,使用绝对误差,定义为 |
|
E是绝对误差的总和为所有对象数据集;p是点代表一个给定对象的空间集群Cj;橙汁是Cj的代表对象[21] |
孤立点检测算法 |
异常检测是一种技术来发现数据中的模式不符合预期行为[12]。大多数的聚类算法不分配所有指向集群但占噪声对象,换句话说聚类算法优化找到集群而不是离群值。孤立点检测算法寻找异常值运用聚类算法和检索的噪音;因此孤立点检测算法的性能取决于良好的聚类算法捕获集群的结构。基于距离的孤立点检测方法,它是基于最近邻算法首次引入了Ng等[13],并实现了一个定义良好的距离度量来检测异常值,反对邻国的距离越大,越有可能是一个离群值[14]。这种方法计算每一对对象之间的距离用嵌套循环(NL)算法,然后远离大多数的对象作为离群值[13]签署。 |
分层的方法 |
层次聚类算法 |
这些算法的分组数据项的树集群。它可以分为烧结的或分裂;根据层次分解形成的自底向上(合并)或自顶向下(分裂)。 |
会凝聚的层次聚类 |
它是基于自底向上的策略。该算法主要用于生产每个样本作为一个单独的集群,这些集群合并至少距离变大,直到满足终止条件或单个集群了。 |
分裂的层次聚类 |
它是基于自顶向下的策略。主要执行相反的操作,会凝聚的层次聚类通过考虑所有对象在一个集群中。集群分离成更小的碎片,直到每一个对象都有其自己的集群或者满足终止条件。 |
白桦:平衡迭代降低并使用层次聚类 |
桦木聚类技术用于处理大量的数字数据通过集成层次聚类和其他聚类方法例如迭代分区。桦树也是第一次聚类算法在数据库领域有效地处理噪声。它包括两个概念聚类特性(CF)和聚类特征树树(CF),生产集群表示。在处理大量的数据产生良好的速度和可伸缩性。 |
基于模型的聚类方法 |
EM聚类 |
期望最大化(EM)集群是k - means聚类的变体和广泛用于数据点的密度估计无监督聚类[15]。EM算法是用来发现框架,最大化数据的可能性,认为从k生成正态分布的数据。在IDS中最初这个算法发现框架和标识的数据。算法学习方法和协方差的正态分布。此方法需要一些输入数据集,集群的总数,最大误差容忍和迭代的最大数量。EM可以分为两个重要步骤(E-step)和期望最大化(M-step)。E-steps的目标是计算期望的可能性(每个实例的集群概率)的数据集,然后重新设定实例基于概率估计。 |
|
p(ξ| Ck) = N(可,艾克(xi))遵循正态分布在意思是,可与期望艾克。 |
使用M-step E-step重新评估参数值的结果。的输出M-step(参数值)然后用作以下E-step输入。 |
|
这两个过程是反复执行,直到结果收敛。EM聚类的数学公式描述[15][16]和伪代码可以在[16]。 |
概念聚类 |
它是一个机器学习聚类技术,对于一个给定的一组标记对象对象产生一个分类方案。在IDS中分类标记对象,并产生一个好分类方案。概念聚类还发现每组的特征描述。每组代表一个概念或类。它包括两个步骤的过程:首先它执行集群和第二个特性。所以在IDS中执行聚类后的每个数据特征和产生报告的管理。对于增量概念集群蜘蛛网是一个非常受欢迎的方法。蜘蛛网创建层次聚类分类树的形式。 |
神经网络方法 |
神经网络是传统上用来表示一个网络或生物神经元。[17]在IDSs神经网络用于异常和误用入侵检测。异常入侵检测的神经网络建模识别显著变化也从用户的认可行为识别系统用户的典型特征。误用入侵检测的神经网络将从网络收集数据和分析数据流滥用[18]的实例。在神经网络误用入侵检测可以通过两种方式来实现。第一种方法神经网络组件合并到现有的系统或定制的专家系统。这种方法使用神经网络对输入数据进行排序的可疑事件和他们现有的专家系统。这提高了检测系统的效率。第二种方法使用独立的误用检测系统。该系统从网络接收数据流,分析滥用入侵。它具有学习能力的特点不同于任何滥用攻击和识别实例之前已被观察到的网络。 It has high degree of accuracy to recognize known suspicious events. Generally, it is used to learn complex non linear input-output relationships [20]. |
性能分析 |
结论 |
本文提出了许多数据挖掘技术来提高入侵检测系统的检测率。在未来,我们打算把多个集群技术,因为不同的聚类算法有不同的知识来解决这个问题结合多个数据聚类算法用于消除彼此的缺点和一些训练分类器导致比任何单一分类器性能优越。这些技术提供更好的性能在入侵检测准确率,更快的运行时间和检测的假阳性。片段一个复杂的问题转化为子问题的解决方案获得了简单的实现,执行,监督和更新。 |
表乍一看 |
|
|
表1 |
表2 |
|
|
数据乍一看 |
|
|
图1 |
图2 |
|
|
引用 |
- K.W. Mok w·李,中华民国斯多夫,“数据挖掘框架为构建入侵检测模型”,:IEEE研讨会onSecurity和隐私,学报》120 - 132年,1999页。
- J。x。黄,J。他苗,本,“高性能查询扩展使用自适应有限公司培训”,信息处理与管理,441 - 453年,2012页。
- s . Axelsson“入侵检测系统的一项调查研究”,查尔姆斯理工大学的,Goteborg,瑞典,2000年:科技,Rep.TR98-17。
- T.F.水汽,入侵检测技术的调查,电脑和安全,405 - 418.1993页。
- 弗里曼,j .分支,使用用户签名”“基于主机的入侵检测,零售物价指数:程序的研究会议。,2002年。
- d . Marchette“统计方法分析网络流量”:学报》研讨会上入侵检测和网络监控、页。119 - 128年,1999年。
- Crosbie。M·e·h·清单计算机系统代理“主动防御”,技术报告CSD-TR - 95 - 008,普渡Univ.West拉斐特,1995年。
- t, r . Ramakrishnan, m . Livny“白桦:一个有效的数据聚类方法,非常大的数据库”,在:学报SIGMOD, ACM, 103 - 114年,1996页。
- V。Vapnik,统计学习理论的本质,施普林格,1999年。
- 助教龙斯达夫,j.t Ellis S.V.赫尔南,互联网的“安全”,在:f . Froehlich a·肯特(Eds) Froehlich /肯特ofTelecommunications.Vol百科全书。15日,第254 - 231页,1998年。
- Velmurugan, T。桑塔。T”,计算复杂度K-Medoids与k - means聚类算法对数据的正常和UniformDistributions点”。计算机科学学报,363 - 368页,2003年。
- Chandola V,“异常检测:一项调查”。41 (3)1-58 ACM计算机协会,1998。
- 家乐,“寻找有意的基于距离的离群值的知识”。在美国25 thinternational会议上非常大的数据库,211 - 222年,2009年。
- 架空,“基于距离的孤立点检测:整合和新的轴承”。:程序VLDBEndow 3、1 - 2、1469 - 1480年,2007年。
- Seetha”,非监督学习算法基于颜色纹理分割的多尺度图像融合”,欧洲科研杂志67(4)506 - 511年,2006年。
- 陆,W。,Tong, H... “Detecting Network Anomalies Using CUSUM and EM Clustering”. In: Proceedings of the 4thInternational Symposium onAdvances in Computation and Intelligence, p. 297–308, 2009.
- j . Ryan蔡明俊。林,r . Miikkulainen“与神经网络入侵检测”,:学报aaai - 97人工智能方法研讨会toFraud检测和任务管理,92 - 97年,1997页。
- D.E.丹宁,“一个入侵检测模型”,IEEE软件工程,页。222 - 232年,1987年。
- http://wenke.gtisc.gatech.edu/project/image004.gif
- h .婆罗米语婆罗米语,S.B.·”OMC-IDS: OLAP矿业和入侵检测的十字路口”,:KnowledgeDiscovery进步以及数据挖掘:信号,7302卷,24里面,2012页。
- J。汉族,M。Kamber“数据挖掘概念与技术”:爱思唯尔,第二版,2006年版。
|