所有提交的EM系统将被重定向到网上投稿系统.作者被要求将文章直接提交给网上投稿系统各自的日志。

基于数据挖掘方法的入侵检测技术

Meghana Solanki, Vidya Dhamdhere
  1. G. H. Raisoni工程学院计算机工程系研究生管理, Wagholi,浦那,印度
  2. G. H. Raisoni工程学院助理教授管理, Wagholi,浦那,印度
有关文章载于Pubmed谷歌学者

更多相关文章请访问国际计算机与通信工程创新研究杂志

摘要

入侵检测技术是目前入侵检测研究领域中必不可少的重要技术。我们在文献中提出了许多入侵检测方法和系统。在本文中,我们对入侵检测的各个方面进行了结构化的概述。因此,研究人员可以很快熟悉入侵检测的各个方面。我们给出通常由入侵检测系统识别的攻击。我们根据所使用的底层计算方法区分现有的入侵检测方法和系统。我们简要描述和比较了大量的入侵检测方法、技术和系统。此外,我们还讨论了网络防御者和数据集使用的工具。

关键字

入侵检测,攻击,数据集,分类器,工具。

介绍

随着互联网技术的发展和网络攻击次数的增加,入侵检测已成为一个重要的研究课题。入侵检测是一个动态的研究领域。由于显著的进展和大量的工作,在检测和挫败基于网络的攻击[1]方面,仍有许多机会推进最先进的技术。根据Anderson[2]的说法,入侵企图或威胁是指未经授权访问信息、操纵信息或使系统不可靠或不可用。例如,拒绝服务(DoS)攻击试图拒绝主机的资源,这是在处理过程中正确工作所必需的;蠕虫和病毒通过互联网利用其他主机,而妥协通过利用已知漏洞获得对主机的特权访问。基于异常的入侵检测是指在网络数据库中发现不符合预期正常行为的异常模式的问题。入侵检测在信用卡欺诈检测、敌方活动入侵检测、网络安全以及军事监视等方面有着广泛的应用。
我们的文学与现有的文学有以下不同之处。
?我们讨论了入侵的起源、原因和各个方面,并简要介绍了数据包的来源。
?我们试图提供各种入侵检测方法、系统和工具的分类。
?我们的调查不仅包括IP流量分类和分析,还包括大量最新的方法、系统和工具和分析。

相关工作

入侵是一组企图破坏系统安全的行为。它在机密性、完整性和可用性方面受到了损害[8]。要获得对安全机制的未经授权的访问和控制,可以由内部或外部代理进行。入侵检测功能包括监控和分析用户、系统和网络活动。它配置系统生成可能的漏洞报告,评估系统和文件的完整性。它可以识别典型的攻击模式。它分析异常活动并跟踪违反用户策略的行为。入侵检测系统(IDS)是一种设备或软件应用。它监视网络或系统活动,以防止恶意活动或违反策略。它向管理站生成报告。 IDS come in a variety of form and approach. the goal is detecting suspicious traffic in different ways. There are two types of IDS system, network based (NIDS) and host based (HIDS) intrusion detection systems. Some systems may attempt to stop an intrusion attempt. Intrusion detection and prevention systems (IDPS) give focus on identifying possible incidents, logging information about them, and reporting attempts. In addition, organizations use IDPSes for other purposes, such as identifying problems with security policies. It documents existing threats and determines individuals from violating security policies. IDPSes have become an important in addition to the security infrastructure of nearly every organization.
A.不同类型的攻击

有不同类型的攻击,他们正在跟进

1)病毒-
这是一个自我复制的程序。它在用户不知情或不允许的情况下感染系统。如果该系统被另一台计算机访问,则会增加网络文件系统的感染率。
2)特洛伊-
这是一个恶意程序。它不能自我复制,但会在计算机系统中引起严重的安全问题。它看起来是一个有用的程序,但实际上它有一个秘密代码,可以创建一个后门到系统,允许它在系统上很容易地做任何事情,并且可以被称为黑客在没有用户许可的情况下控制系统。
3)虫-
这是一个自我复制的程序。它通过计算机系统上的网络服务传播,无需用户干预。它消耗网络带宽,对网络危害极大。
4)拒绝服务(DoS)-
它试图阻止对系统或网络资源的访问。服务丢失是指特定的网络服务(如电子邮件)无法正常工作。它是通过强制目标计算机重置来实现的。它还通过消耗资源来实现。由于服务不可用或通信媒介受阻,预期用户不能再进行充分的通信。
5)从用户到Root-
它能够利用漏洞获得系统超级用户的特权,同时作为系统上的普通用户启动。存在各种类型的漏洞,如嗅探密码、字典攻击或社会工程。
6)远端到本地-
它是一种通过网络向远程系统发送数据包而无需在该系统上有任何帐户的能力。对公共服务(如HTTP、FTP)或受保护服务(如POP、IMAP)连接时进行攻击。
7)探针,
它可以扫描网络来识别有效的IP地址,也可以扫描网络来收集主机信息。它向攻击者提供潜在漏洞列表的信息,这些漏洞稍后可用于对选定的系统和服务发起攻击。
B.入侵检测和入侵检测系统的分类
1)基于主机的IDS (HIDS):
HIDS用于监控和分析计算系统[9]的内部结构。它可以检测内部活动,例如哪个程序访问哪些资源和尝试非法访问。HIDS的例子是一个字处理器,它突然莫名其妙地开始修改系统密码数据库。
2)网络IDS (NIDS):
它处理检测网络数据中的入侵。入侵通常以异常模式出现,尽管某些技术以顺序方式对数据建模。它检测异常子序列[9]。NIDS监视所有传入的数据包或流,试图找到可疑的模式。
C.文献综述
网络异常检测是一个广泛的研究领域,已经有大量的调查、评论文章和书籍。提出了一种利用k均值聚类、模糊神经网络和径向支持向量机进行入侵检测的方法。系统采用不同的入侵检测技术。本文利用贝叶斯概率技术开发了一个入侵检测系统。开发的系统是一个朴素贝叶斯分类器,用于识别可能的入侵。在本文中,我们提出了一种新的基于定量的方法来检测和预防入侵。我们的模型能够在攻击完成之前,通过使用从蜜罐上收集的网络流量语料库构建的定量马尔可夫模型来概率地预测攻击。论文重点研究了使用支持向量机(SVM)改进无线局域网中的入侵系统。SVM基于识别出的攻击模式进行入侵检测。在本文中,我们提出了一种基于特征活力的约简方法来识别重要的约简输入特征。我们将一种有效的分类器朴素贝叶斯应用于约简数据集的入侵检测。

入侵检测概述

A.入侵检测方面
1 .输入数据类型:
任何入侵检测技术的一个主要方面是用于分析的输入数据性质。输入通常是数据实例的集合,也称为对象、记录、点、向量、模式、事件、案例、样本、观察结果、实体[10]。
2)邻近措施的适当性:
接近性(相似或不相似)解决了分类和聚类中的许多模式识别问题。接近度量是将参数作为对象对的函数。接近度测量返回的数值随着物体的相似度增加而增大。
3)数据标签:
与数据实例相关的标签表示该实例是正常的还是异常的。
4)根据标注数据的使用方法分类:
基于标签的可用性,异常检测技术可以在三种模式下运行:监督、半监督和无监督。在监督模式下,假设训练数据集的可用性,该数据集已经标记了正常和异常类的实例。半监督技术假设训练数据仅为普通类标记了实例。最后,无监督技术不需要训练数据,因此具有最广泛的应用潜力。
5)相关特征识别:
特征选择在网络异常检测中起着重要作用。特征选择方法适用于入侵检测领域,用于剔除不重要或不相关的特征。

入侵检测方法与系统

A.统计方法和系统
通常,统计方法使用统计模型对给定数据进行正常行为,然后应用统计推理测试来确定一个未见的实例是否属于该模型。根据应用的测试统计量从学习的模型生成的低概率实例被声明为异常。参数和非参数技术都被应用于异常检测的统计模型设计中。统计IDS的一个例子是HIDE[11]。HIDE是一种基于异常的网络入侵检测系统。它使用统计模型和神经网络分类器来检测入侵。
B.基于分类的方法和系统
分类技术是建立一个显式或隐式模型的基础。它支持将网络流量模式分类为几个类。基于分类的IDS的一个例子是自动数据分析和挖掘(ADAM)[12]。它为检测异常实例提供了一个测试平台。
C.基于聚类和离群值的方法和系统
聚类是将一组对象分配到称为集群的组中的任务。同一聚类中的对象在某种意义上比其他聚类中的对象更相似。聚类用于数据挖掘。例如,MINDS(明尼苏达入侵检测系统)[13]是一个基于数据挖掘的系统,用于检测网络入侵。
D.软计算方法和系统
网络异常检测需要软计算技术。软计算通常被认为包括遗传算法、人工神经网络、模糊集、粗糙集、蚁群算法和人工免疫系统等方法。
1.遗传算法方法:
遗传算法是一种基于群体的自适应启发式搜索技术。它是基于进化论的观点。
2.人工神经网络方法:
人工神经网络(ANN)是由于认识到人脑的计算方式与传统数字计算机完全不同。基于ann的IDS的一个例子是rt - unid。该系统采用无监督神经网络(UNN)进行智能实时入侵检测。
3.模糊集理论方法:
模糊网络入侵检测系统利用模糊规则。它确定了特定或一般网络攻击的可能性。可以为特定网络中的流量定义模糊输入集。NFIDS是一种基于神经元模糊异常的网络入侵检测系统。
4.粗糙集方法:
粗糙集是清晰集的近似值,即正则集。它是由上下近似的一对集合表示的。粗糙集具有一些有用的特性,例如支持使用小型训练数据集进行学习和整体简单性。
5.蚁群和人工免疫系统方法:
蚁群优化及其相关算法是一种概率技术。它用于解决计算问题,这些问题可以重新表述为通过图找到最优路径。人工免疫系统(AIS)是一种计算方法。这是受到人类免疫系统原理的启发。
E.基于知识的方法和系统
在基于知识的方法中,根据预定义的规则检查网络或主机事件。它还可以检查攻击模式。一个基于知识的系统是STAT(状态转换分析工具)
1.基于规则和专家系统的方法:
专家系统是基于规则的系统,有或没有相关的知识库。专家系统有一个规则引擎。规则引擎根据系统的当前状态匹配规则。
2.基于本体和逻辑的方法:
通过结合约束和统计属性,可以使用表达性逻辑结构实时建模攻击签名。
F.结合学习方法和系统
在本节中,我们将介绍一些使用多种技术(通常是分类器)组合的方法和系统。
1.基于集成的方法和系统:
集成方法背后的思想是权衡几个单独的分类器。它将它们组合在一起,以获得一个整体分类器,该分类器的性能优于它们中的每一个。Octopus-IIDS是集成IDS的一个例子。
2.基于融合的方法和系统:
随着自动化决策需求的不断发展,提高分类精度显得尤为重要。这两者的适当组合是融合方法的重点。dLEARNIN是一个分类器的集合,它组合了来自多个源的信息。
3.混合方法和系统:
目前大多数网络入侵检测系统都采用了误用检测。他们还采用异常检测。误用检测无法检测未知的入侵。异常检测通常具有较高的误报率。为了克服现有技术的局限性,利用多种网络异常检测方法的特点,提出了混合检测方法。文中介绍了RTMOVICAB- IDS,一种混合智能IDS。

评估标准

为了评估性能,系统必须识别攻击。系统正确识别正常数据。有几个数据集和评价措施。这些可用于评估网络异常检测方法和系统。下面给出了最常用的数据集和评估方法。
g .数据集
在检测网络异常之前,捕获和预处理高速网络流量非常重要。不同的工具用于捕获和分析网络流量数据。
1.合成数据集:
合成数据集是为满足特定需求而生成的。它用于满足真实数据所满足的条件或测试。这在设计用于理论分析的任何类型的系统时都是有用的。设计可以改进。测试中使用了合成数据。它被用于创建许多不同类型的测试场景。
2.基准数据集:
我们提供了一些公开可用的基准数据集。它们是使用模拟环境生成的。它包括许多网络。他们执行不同的攻击场景。
a. KDDcup99数据集:
自1999年以来,KDDcup99数据集被用于评估基于网络的异常检测方法和系统。
b. NSL-KDD数据集:
对KDD数据集的分析表明,数据集中存在两个重要问题。它们严重影响被评估系统的性能,导致异常检测方法的评估效果不佳。为了解决这些问题,引入了一个名为NSL-KDD[14]的新数据集,由完整KDD数据集的选定记录组成。该数据集对研究人员是公开的。它与原始KDD数据集相比具有优势,例如它不包括训练集中的冗余记录。测试集中没有重复的记录。从每个难度级别中选择的记录数量,与原始KDD数据集中记录的百分比成反比。训练集和测试集的记录数量是合理的。
c. DARPA 2000数据集:
DARPA6评估项目[15]针对复杂攻击的检测。它包含多个步骤。
d. DEFCON数据集:
DEFCON7数据集是另一个常用的用于评估ids[16]的数据集。它包含黑客比赛“夺旗”(CTF)时捕获的网络流量。
3.真实生活数据集:
在本小节中,我们将展示通过收集几天的网络流量创建的三个真实数据集。它以适当的比例包括正常和攻击实例。
a. UNIBS数据集:
该数据集包括通过许多工作站捕获或收集的流量。它通过运行GT客户端守护进程的20个工作站来存储流量。
b. ISCX-UNB数据集:
对真实报文轨迹[17]进行分析。它为代理创建配置文件,生成HTTP, SMTP, SSH, IMAP, POP3和FTP协议的真实流量。
c. TUIDS数据集:
该数据集是在印度Tezpur大学的网络安全实验室根据几种攻击场景准备的。
B.评价措施
1)准确性:
准确度是一种度量。它度量IDS工作的正确程度。它测量检测和失败的百分比以及系统产生的错误警报的数量[18]。如果一个系统有80%的准确率,这意味着它正确地将100个对象中的80个分类为它们的实际类。
2.性能:
IDS性能评估是一项主要任务。它涉及许多超出IDS本身的问题。其中包括硬件平台、操作系统甚至IDS的部署。
3.完整性:
完整性标准表示漏洞的空间。它显示了可以通过ID掩盖的攻击。
4.及时性:
IDS尽可能快地执行其分析。它使人工分析人员或响应引擎能够在特定时间段内发生重大损害之前迅速做出反应。
5.数据质量:
评价数据质量是评价NIDS的另一项重要工作。影响数据质量的因素有:数据来源应可靠、来源适当、样本选择应无偏、样本量应不过抽样或过抽样、数据时间应经常更新实时数据以及数据的复杂性
C.网络流量异常检测中不同步骤使用的工具
1) Wireshark:
它是免费的开源数据包分析程序。可用于网络故障处理。它是用来分析的。它适用于软件和通信协议的开发。它也被用于教育。使用跨平台GTK+小部件工具包实现其用户界面。它使用pcap捕获数据包。它有一个图形前端。它还有一些集成的排序和过滤选项。它在镜像端口中起作用,以捕获网络流量以分析任何篡改。
2)杯:
它允许更高的数据包捕获率。它丢弃的数据包更少。它能够读取磁盘。如果数据速率增加,Gulp会重新调整写操作以使块边界均匀。它优化了写入效率。当它收到一个中断时,它停止填充它的环缓冲区。直到写入完环缓冲区中剩余的内容,它才会存在。
3) tcptrace:
它接受几个流行的包捕获程序生成的输入文件。包括tcpdump、snoop、etherpeek、HP Net Metrix、Wireshark、WinDump。它产生多种类型的输出,其中包含所看到的每个连接的信息,例如运行时间、发送和接收的字节和段、重传、往返时间、窗口广告和吞吐量。它还可以生成一些带有数据包统计信息的图形,以供进一步分析。
4) nfdump:
它在命令行上收集和处理净流数据。它仅受所有净流数据可用的磁盘空间的限制。它可以在速度上进行优化,以实现高效过滤。筛选规则的语法类似于tcpdump。
5) nmap:
它也被称为网络映射器。它是一个免费的开源实用程序。它用于网络探索和安全审计。它以新颖的方式使用原始IP包。它决定了网络上有哪些主机可用。它确定这些主机提供什么服务(应用程序名称和版本)。它决定了正在运行的操作系统。它决定了所使用的防火墙或包过滤器的类型,以及许多其他特征。它是一个简单、灵活、功能强大、文档丰富的工具,用于在大型网络中发现主机。

结论

在本文中,我们研究了现代网络入侵检测技术的最新进展。两个众所周知的标准可以用来分类和评估nids:检测策略和评估数据集。我们还展示了许多检测方法、系统和工具。此外,我们还看到了用于测试检测方法或系统性能的几种评估标准。讨论不同的现有数据集及其分类也提供了。

参考文献























全球科技峰会