所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

确定安全评价模式分类器的攻击

……是因为Mohana Priya1,S.Pothumani2
  1. 学生,CSE Bharath大学,173年,Agaram路,Selaiyur,钦奈,印度
  2. 助理教授,CSE Bharath大学,173年,Agaram路,Selaiyur,钦奈,印度
相关文章Pubmed,谷歌学者

访问更多的相关文章国际创新研究期刊》的研究在科学、工程和技术

文摘

模式分类是机器学习的一个分支,着重于数据中识别的模式和规律。在敌对的应用,比如生物认证,垃圾邮件过滤、网络入侵检测模式分类系统。因为这种情况不考虑敌对的经典设计方法,模式分类系统可能出现漏洞,剥削的可能严重影响其性能,从而限制其实用性。模式分类理论和设计方法扩展到敌对的设置是这样一部小说和非常相关的研究方向,它尚未以系统的方式。我们提出一个框架,用于安全评价模式,模型定义任何对手的攻击场景。报告结果显示,安全评价分类器可以提供一个更完整的理解的行为在敌对的环境中,并导致更好的设计选择

关键字

敌对的分类、对抗的场景中,绩效评估、安全评估。

介绍

在模式分类系统机器学习算法用于执行与安全相关的应用程序,如生物认证网络入侵检测,和垃圾邮件过滤,区分“合法的”和“恶意”的模式类。输入数据可以被敌人故意操纵,使分类器产生假阴性。与传统的应用,这些应用程序有一个内在的敌对的自然自输入数据可以通过一个智能和自适应对手故意操纵破坏分级机操作。这往往导致对手之间的军备竞赛和分类器设计。众所周知的攻击模式分类器的例子有:提交一个假的生物特征生物认证系统(欺骗攻击)[1],[2];众所周知的攻击的例子有:欺骗攻击一个人或程序故意伪造数据,从而获得一个非法的优势[1][2],修改网络数据包属于侵入性交通操纵邮件[3]的内容,修改网络数据包属于侵入性的交通。敌对的机器学习研究领域,处于十字路口的机器学习和计算机安全。它旨在使安全采用机器学习技术在敌对的环境中像垃圾邮件过滤,恶意软件检测和生物特征识别。在垃圾邮件过滤的例子包括:攻击,垃圾短信通过拼写错误混淆的坏词或插入的好词;攻击计算机安全,例如,代码混淆恶意软件在网络数据包或误导签名检测; attacks in biometric recognition, where fake biometric traits may be exploited to impersonate a legitimate user (biometric spoofing) or to compromise users’ template galleries that are adaptively updated over time.[16] To understand the security properties of learning algorithms in adversarial settings, one should address the following main issues:
识别潜在漏洞的机器学习算法在学习和分类;
设计适当的袭击,对应确定的威胁和评估其对目标系统的影响;
提出对策以提高机器学习算法的安全考虑攻击。

相关工作

生物识别系统被发现是有用的工具,人识别和验证。生物特征是一个人的任何行为的生理特征,可用于区分别人的那个人。的几个关键方面人类生理或行为特征,使强大的生物特征识别的普遍性、特殊性,永久,值得收藏。代的训练和测试数据集从收集数据是一个重要的任务在发展中一个分类器与高代的能力。组装技术是用于统计分析,用于模型选择的评估分类器的分类性能。组装技术是用于估计统计均值和中位数等通过随机选择从给定的数据集,数据计算统计数据和多次重复以上过程。
欺骗攻击在于提交假的生物特征的生物识别系统,这是一个安全的主要威胁。综合生物识别系统通常用于欺骗攻击。多通道生物识别个人身份识别系统从过去几年非常有用。它已经表明,结合信息来自不同生物特征可以克服限制,每个个体生物固有的弱点,导致精度高[1][2]。入侵检测系统分析网络流量,以预防和检测恶意活动,比如入侵企图,端口扫描,和拒绝服务攻击。发现疑似恶意流量时,发出警报的id和随后由系统管理员来处理。两种主要的ids存在:探测器和anomaly-based的滥用。
这些确保特征可以从所有的人,是充分变量中所有的人,随着时间的推移,变化不明显,合理能够被测量。任何人类的问题特征,符合这些标准在性能、可接受性和规避的生物特性。性能是一个问题从而主要来自缺乏变化的组合生物特征,噪音传感器数据由于环境因素,以及匹配算法的鲁棒性。可接受性表明愿意客户池将经常使用生物标识符。规避的可能性是一个非客户(骗子)通过系统使用欺骗的方法。创建一个安全的多通道生物识别系统的关键是如何从不同形式的信息融合做出最后的决定。有两种不同类别的多个分类器融合方案;基于规则和监督。监督方法,另一方面,需要培训,但通常可以提供更好的结果比基于规则的方法。例如,一个融合策略使用支持向量机(SVM)能够超过使用求和规则的融合算法。
引入质量测量融合算法是一种方法,已经在multibiometric系统用于提高性能。例如,如果更安全的高质量的生物给低匹配分数,安全的生物给高匹配分数,然后是高攻击的可能性。人们普遍认为一个多通道系统的优势之一是其能力,以适应个体形态的嘈杂的传感器数据。相比之下,更安全的算法,为了解决这一问题的欺骗攻击的部分子集生物识别模式,必须需要足够的性能在所有模式。这种类型的算法将总是否定,在某种程度上,多通道系统的性能的贡献在嘈杂的传感器数据。一个多通道系统提高了性能方面但仅略有增加的安全,因为它仍然容易受到局部恶搞的攻击。增强的融合方法,利用方法来提高安全性能将再次受到减弱,当面对嘈杂的数据。
支持向量机(SVM)是一种运动过程对知识组织和降级题目后统计数据,比如支持向量机可以回收研究多项式,圆形基础的目的(RBF),那么多层感知(MLP)分类支持向量机保持组织首席Vapnik可选的1960年代开发的一部分,渗透在调查欠增生的方法加上哲学与推迟降级和厚度近似。svm提升后算术知识哲学关注的目标存在单独解决问题没有解决其他问题作为一个中间阶段。支持向量机是建立在物理威胁最小化代码,小心翼翼地连接到普通无为哲学。这种信念加入体积开关停止过度学习,因此完整的应对偏见方差权衡窘境。二进制关键基础知识的应用支持向量机的方法是精确的软件设计和种子的目的。极限是由解决二次软件设计与直接平价和差距限制问题;稍微比通过解决一个非凸,畅通的优化问题。种子的柔韧性目的让SVM理论探索一个广泛的多样性的地方。
支持向量分类的几何澄清(SVC)是最好的解体的过程追求肤浅,即超平面即二进制课程后在一个情报,中间。

以前的工作在安全评估

以前的工作在敌对的学习可以根据分类的两个主要的步骤在前一节中描述的积极的军备竞赛。第一个研究方向集中在识别潜在漏洞的学习算法和评估相应的攻击目标分类器的影响;e。g(4、5, 18岁,36岁,40岁,41岁,42岁,46)。第二次探索适当的发展对策和学习算法健壮的已知attacks.e。g(26日,41岁的57)。
尽管一些之前工作的地址方面的经验评估分类器安全,这通常是隐式地定义为性能下降(模拟)下发生袭击,据我们所知这个过程的系统化治疗下统一的角度来看只有第一次描述了在我们最近的工作[12]。以前,进行安全评估通常是在一个特定的应用领域,如垃圾邮件过滤和网络入侵检测(例如,[26日31日,41岁,47岁,66]),在不同的依赖于应用程序的标准是单独为每个努力定义。安全评估由定义隐式地进行攻击和评估其对给定的分类器的影响。例如,在[31],作者展示了伪装网络数据包可以模仿合法交通逃避检测;,同样,在(26日,41岁,66),垃圾邮件的内容是为逃避操纵。尽管这样的分析提供不可或缺的洞察特定问题,他们的结果是很难推广到其他领域和提供一些指导来评估分类器安全在不同的应用程序。因此,在一个新的应用领域,安全评估通常必须重新开始,很难直接比较与先前的研究。这个缺点凸显了需要一个更一般的安全指导方针和更系统的定义分类器安全评估,我们开始地址[12]。
除了特定于应用程序的工作,对抗的学习的一些理论模型提出了[4,17岁,26岁,36岁,40岁,42岁,46岁,53)。这些模型框架的安全学习问题,并提供适当的安全评估计划的基础。特别是,我们建立的模型元素(4、5、36岁,38岁,40岁,42岁),这是用于定义我们的框架,用于安全评估[12]。下面我们总结这些基础。

垃圾邮件过滤的概述

在过去的几年里,垃圾邮件过滤软件已经得到普及由于其相对精度和易于部署。其根源在文本分类的研究中,垃圾邮件过滤软件试图回答这个问题:“是否消息x是垃圾吗?”。的手段解决这个问题在不同的类型分类算法。而统计过滤器之间的分类方法不同,其基本功能是相似的。的基本模型通常被称为包的话(多项)或多变量模型。从本质上讲,一个文档是蒸馏成一组特性,比如单词,短语,元数据等。
这组特征可以表示为向量的分量是布尔(多元)或实际价值(多项)。但值得注意的是,该模型的排序功能将被忽略。分类算法使用文档的特征向量为基础判断。的用法特征向量之间的不同分类方法。顾名思义,基于规则的方法分类文档根据他们是否满足一组特定的标准。机器学习算法主要是由统计数据(如词频)可由特征向量。广泛使用的方法之一,贝叶斯分类,试图计算基于之前的邮件是否为垃圾邮件的概率特征频率在垃圾邮件和合法的电子邮件。

垃圾邮件过滤

假设一个标识符必须区分合法和垃圾邮件的基础上他们的文本内容,选择bag-of-words特性表示,与二进制特征表示给定组词的发生。这种分类器被认为是由几个作者[6],[12],[13],它包含在几个真正的垃圾邮件过滤器。在这个例子中,我们关注的是模型的选择。我们假设设计师想要选择一个支持向量机(SVM)与线性内核,和逻辑回归(LR)线性分类器。他还想选择一个子集,在所有的单词出现在培训的邮件。一组D合法和垃圾邮件是用于这一目的。我们假设设计师不仅要评估分类器精度没有攻击,作为古典设计场景,也其安全与知名坏词模糊(回波振荡器)和好词插入(描述)攻击。
它们包括修改垃圾邮件插入“金玉良言”,可能会出现在合法的电子邮件,并通过模糊“坏话”,通常出现在垃圾邮件[6]。可以模仿攻击场景如下。攻击场景:目标。敌人旨在最大化的百分比垃圾邮件并被错误地归类为合法的,这是一个不违反完整性。知识:在[6],[10],对手是认为完美的知识的分类器,即。,(k.ii) the feature set, (k.iii) the kind of decision function, and (k.iv) its parameters (the weight assigned to each feature, and the decision threshold). Assumptions on the knowledge of (k.i) the training data and (k.v) feedback from the classifier are not relevant in this case, as they do not provide any additional information.
能力:我们假设对手:(c.i)只能影响测试数据(试探性攻击);(c.ii)不能修改类先验;(c.iii)可以控制每个恶意样本,但是没有合法的;(c.iv)可以操纵任何特性值(即。,she can insert or obfuscate any word), but up to a maximum number n max of features in each spam email [6], [10].

模式识别

模式识别是机器学习的一个分支,着重于识别模式和规律的数据,虽然在某些情况下被认为是几乎等同于机器学习。模式识别系统是在许多情况下训练从贴上“培训”数据(监督学习),但当没有标记的数据是可用的其他算法可以用来发现未知的模式(无监督学习)。
模式识别,机器学习,数据挖掘和知识发现(KDD)数据库是很难分开的,他们很大程度上重叠范围。机器学习是监督学习方法和常见词源于人工智能,而知识发现(KDD)和数据挖掘有更大的关注到业务用无监督方法和更强的连接。模式识别起源于工程,这个词很流行的计算机视觉:领先的计算机视觉会议是计算机视觉与模式识别会议。在模式识别中,可能有一个更高的利息形式化、解释和可视化模式;而机器学习传统上关注最大化识别利率。然而,所有这些领域已经进化实质上从根部在人工智能、工程和统计;变得越来越相似,互相整合发展和思想。
在机器学习、模式识别的分配一个标签到给定的输入值。在统计数据,辨别分析介绍了在1936年同样的目的。模式识别分类的一个例子,它试图将每个输入值分配给一个特定的组类(例如,确定是否一个给定的电子邮件是“垃圾邮件”或“封”)。然而,模式识别是一个更普遍的问题,包括其他类型的输出。其他的例子是回归,分配一个实值输出每个输入;序列标签,分配一个类序列的每个成员的值(例如,词性标注,分配每个单词的词性输入句子);和解析,解析树分配一个一个输入的句子,描述句子的句法结构。
模式识别算法通常旨在提供一个合理的答案,所有可能的输入和执行“最有可能”匹配的输入,考虑他们的统计变化。这是相对于模式匹配算法,寻找精确匹配的输入与预先存在的模式。模式匹配算法的一个常见的例子是正则表达式匹配,查找给定类型的模式在文本中包含数据和搜索功能的文本编辑器和字处理器。与模式识别、模式匹配通常不被认为是一种机器学习,虽然模式匹配算法(特别是在相当一般,精心设计模式)有时可以成功地提供同样质量的输出提供的那种模式识别算法。
模式识别研究在许多领域,包括心理学、精神病学、人种学、认知科学、交通流和计算机科学。
模式识别通常是根据类型的分类学习过程用于生成输出值。监督学习假设一组训练数据(训练集),组成的一组实例,进行适当的标签与正确的输出。学习过程生成一个模型,试图满足两个有时相互矛盾的目标:执行以及可能的训练数据,和推广以及可能的新数据(通常情况下,这意味着尽可能的简单,对于一些技术“简单”的定义,按照奥卡姆剃刀,下面讨论)。无监督学习,另一方面,尚未hand-labelled假设训练数据,试图找到固有模式的数据可以用来确定正确的新数据实例的输出值。[2]的组合两个最近研究semi-supervised学习,它使用标记和未标记数据的组合(通常是一个小的标签数据结合大量的未标记数据)。注意,在无监督学习的情况下,可能没有在所有的训练数据;换句话说,数据标记的训练数据。

结果

本节描述的屏幕截图上传文件到数据库。
图像
图1:上传文件的屏幕截图
本节显示了文件上传到数据库的用户。
图像
图2:从用户视图文件
本节解释如何下载文件的详细信息从用户上传。
图像
图3:下载文件

结论

在本文中,我们侧重于实证安全评估的模式分类器部署在敌对的环境中,并提出了如何修改经典的绩效评估设计步骤。本文实证安全评估的主要贡献是一个框架,正式从以前的工作和推广的想法,和可以应用到不同的分类器,学习算法和分类任务的内在限制我们的工作是,安全评价进行实证,并因此数据依赖;另一方面,模型驱动分析[12],[10]需要全面分析问题的模型和对手的行为,这可能是非常困难的现实世界的应用程序的开发。
另一个固有的局限性是由于我们的方法不是特定于应用程序的,和,因此,只提供了高级指南模拟攻击。事实上,详细的指导方针要求一个考虑到特定于应用程序的约束和对手模型。

引用

  1. 玫瑰油,。,Rad, R.M., Atani, R.E.: A survey of image spamming and filtering techniques. Artif. Intell. Rev. 40(1), 71{105 (2013)

  2. Barreno, M。,Nelson, B., Sears, R., Joseph, A.D., Tygar, J.D.: Can machine learning be secure? In: Proc. of the 2006 ACM Symp. on Information, Computer and Comm.Sec. pp. 16{25. ACM, NY, USA (2006)

  3. Biggio B。,Akhtar, Z., Fumera, G., Marcialis, G.L., Roli, F.: Security evaluation of biometric authentication systems under real spoofing attacks. IET Biometrics 1(1), 11{24 (2012)

  4. Biggio B。,Didaci, L., Fumera, G., Roli, F.: Poisoning attacks to compromise face templates. In: 6th IAPR Int'l Conf. on Biometrics. pp. 1{7.(2013)

  5. Biggio B。,Fumera, G., Pillai, I., Roli, F.: A survey and experimental evaluation of image spam filtering techniques. Pattern Rec. Letters 32(10), 1436 {1446 (2011)

  6. Biggio B。,Fumera, G., Roli, F.: Security evaluation of pattern classiers under attack. IEEE Trans. on Knowledge and Data Engineering 99(PrePrints), 1 (2013)

  7. d . Lowd和c温顺、“好词攻击统计垃圾邮件过滤器,”Proc。第二个相依。电子邮件和反垃圾邮件,2005

  8. p . Fogla m·谢里夫r . Perdisci o . Kolesnikov和w·李,“多态混合攻击,”Proc。15日相依USENIX安全协会。,2006年

  9. p·约翰逊、b . Tan和s . Schuckers“多通道融合脆弱性零努力(恶搞)冒名顶替者,“Proc。IEEE国际研讨会取证和安全信息,1 - 5,2010页

  10. 雷诺数罗德里格斯,L.L.凌,诉Govindaraju,”鲁棒性的多通道生物特征融合方法对欺骗攻击,”j .视觉语言和计算,20卷,没有。3、169 - 179年,2009页