所有提交的EM系统将被重定向到网上投稿系统.作者被要求将文章直接提交给网上投稿系统各自的日志。

数据驱动信息系统中的大数据分析安全问题

Chithik Raja1穆尼尔·艾哈迈德·拉巴尼2
  1. 印度金奈AMET大学信息技术系研究学者
  2. Abdurrahman大学,金奈,印度
有关文章载于Pubmed谷歌学者

更多相关文章请访问国际计算机与通信工程创新研究杂志

摘要

企业经常收集tb级的安全相关数据(例如,网络事件、软件应用程序事件和人员操作事件),用于法规遵从性和事后取证分析。大型企业根据规模的不同,每天估计产生100亿到1000亿个事件。这些数字只会随着企业启用更多的事件登录源、雇佣更多的员工、部署更多的设备和运行更多的软件而增长。不幸的是,这种数量和种类的数据很快就会变得势不可挡。现有的分析技术在大范围内效果不佳,通常会产生很多假阳性,从而削弱了其有效性。随着企业迁移到云架构并收集更多数据,这个问题变得更加严重。

关键字

CSA, SIEM, Hadoop, APT

I.INTRODUCTION

大数据分析是对多个领域中积极使用的信息进行大规模分析和处理,近年来,大数据分析以前所未有的规模高效地分析和关联安全相关数据的能力吸引了安全界的兴趣。然而,区分传统数据分析和安全大数据分析并不简单。毕竟,十多年来,信息安全社区一直在利用对网络流量、系统日志和其他信息源的分析来识别威胁和检测恶意活动,目前尚不清楚这些传统方法与大数据有何不同。“安全情报的大数据分析”,关注大数据在安全中的作用。该报告详细介绍了随着新工具的引入和广泛使用,以利用大量结构化和非结构化数据,安全分析领域正在发生怎样的变化。它还概述了与传统分析的一些根本区别,并强调了可能的研究方向。我们总结了报告的一些要点。

2相关的工作

数据驱动的信息安全可以追溯到银行欺诈检测和基于异常的入侵检测系统(ids)。尽管为取证和入侵检测分析日志、网络流和系统事件一直是信息安全社区几十年来的一个问题,但由于以下几个原因,传统技术并不总是足以支持长期、大规模的分析:首先,保留大量数据在经济上不可行。因此,在传统的基础设施中,大多数事件日志和其他记录的计算机活动在固定的保留期(例如60天)后被删除。其次,在具有不完整和噪声特征的大型非结构化数据集上执行分析和复杂查询是低效的。例如,一些流行的安全信息和事件管理(SIEM)工具并不是为分析和管理非结构化数据而设计的,而是严格绑定到预定义的模式。然而,新的大数据应用程序开始成为安全管理软件的一部分,因为它们可以帮助高效地清理、准备和查询异构、不完整和有噪声格式的数据。最后,大型数据仓库的管理传统上是昂贵的,而且它们的部署通常需要强大的业务用例。Hadoop框架和其他大数据工具现在正在使大规模、可靠的集群部署商品化,因此为处理和分析数据提供了新的机会。

3利用大数据技术进行欺诈检测

欺诈检测是大数据分析最明显的用途之一:几十年来,信用卡和电话公司已经进行了大规模的欺诈检测;然而,挖掘大数据进行欺诈检测所需的定制基础设施还不够经济,无法大规模采用。大数据技术的主要影响之一是,它们正在促进各种行业建立负担得起的安全监控基础设施。
特别是,新的大数据技术,如Hadoop生态系统(包括Pig、Hive、Mahout和rhadidi)、流挖掘、复杂事件处理和NoSQL数据库,正在以前所未有的规模和速度分析大规模的异构数据集。这些技术通过促进安全信息的存储、维护和分析,正在改变安全分析。例如,WINE平台1和Bot- Cloud2允许使用MapReduce来有效地处理数据以进行安全分析。我们可以通过观察反应性安全工具在过去十年中的变化来确定其中的一些趋势。当IDS传感器市场增长时,网络监控传感器和日志记录工具被部署在企业网络中;然而,管理来自这些不同数据源的警报成为一项具有挑战性的任务。因此,安全供应商开始开发siem,旨在汇总和关联警报和其他网络统计数据,并通过仪表板将所有这些信息呈现给安全分析师。现在,大数据工具通过在更长时间内关联、整合和背景化更多样化的数据源,正在改善安全分析师可用的信息。我们可以从Zions Bancorporation最近的一个案例研究中看到大数据工具的具体好处。它的研究发现,它必须处理的数据量和必须分析的事件数量对于传统的SIEM系统来说太多了(在一个月的数据负载中搜索需要20分钟到一个小时)。 In its new Hadoop system running queries with Hive, it gets the same results in approximately one minute.3 The security data warehouse driving this implementation lets users mine meaningful security information from not only firewalls and security devices but also website traffic, business processes, and other day to-day transactions. This incorporation of unstructured data and multiple disparate datasets into a single analysis framework is one of big data’s promising features. Big data tools are also particularly suited to become fundamental for advanced persistent threat (APT) detection and forensics.4,5APTs operate in a low-and-slow mode (that is, with a low profile and long-term execution); as such, they can occur over an extended period of time while the victim remains oblivious to the intrusion. To detect these attacks, we need to collect and correlate large quantities of diverse data (including internal data sources and external shared intelligence data) and perform long-term historical correlation to incorporate a posteriori information of an attack in the network’s history.

四、大数据分析中的安全问题

虽然大数据分析在安全问题上的应用前景广阔,但要实现其真正的潜力,我们必须应对几个挑战。在行业部门之间和执法部门之间共享数据的新呼吁违背了避免数据重用的隐私原则,即仅为收集数据的目的使用数据,因此隐私尤为重要。直到最近,隐私在很大程度上依赖于75项技术限制,这些技术限制了提取、分析和关联潜在敏感数据集的能力。然而,大数据分析的进步为我们提供了提取和关联这些数据的工具,使侵犯隐私变得更容易。因此,我们必须在理解隐私原则和建议的基础上开发大数据应用程序。尽管在某些领域存在隐私监管,例如,在美国,联邦通信委员会与电信公司合作,健康保险可移植性和责任法案处理医疗保健数据,几个州的公共事业委员会限制智能电网数据的使用,联邦贸易委员会正在为网络活动制定指导方针,所有这些活动在系统覆盖范围广泛,在大多数情况下可以解释。即使有隐私法规,我们也需要明白,大规模的数据收集和存储使这些数据存储对许多方面都有吸引力,包括行业(他们将使用我们的信息进行营销和广告)、政府(他们会辩称这些数据对国家安全或执法是必要的)和犯罪分子(他们想窃取我们的身份)。因此,作为大数据应用架构师和设计师,我们的角色是积极主动地创建安全措施,防止这些大数据存储被滥用。
另一个挑战是数据来源问题。因为大数据允许我们扩展用于处理的数据源,所以很难确定每个数据源都满足我们的分析算法产生准确结果所需的可信度。因此,我们需要重新考虑工具中使用的数据的真实性和完整性。我们可以从对抗性机器学习和稳健统计中探索想法,以识别和减轻恶意插入数据的影响。
这份特别的CSA报告主要关注大数据分析在安全方面的使用,但硬币的另一面是使用安全来保护大数据。随着大数据工具不断部署在企业系统中,我们需要提高系统安全性,不仅要利用传统的安全机制(例如,在Hadoop中集成传输层安全),还要引入新的工具,如Apache的Accumulo,以处理大数据管理中独特的安全问题。
最后,该报告没有涵盖但需要进一步发展的另一个领域是人机交互,特别是可视化分析如何帮助安全分析师解释查询结果。视觉分析是通过交互式视觉界面促进分析推理的科学。与为高效计算和存储而开发的技术机制相比,大数据中的人机交互受到的关注较少,但仍然是实现大数据分析“承诺”的基本工具之一,因为它的目标是通过最有效的表示将信息传递给人类。大数据正在改变网络监控、SIEM和取证等安全技术的格局。然而,在永恒的攻击和防御军备竞赛中,大数据并不是万能的,安全研究人员必须不断探索新的方法来遏制老练的攻击者。大数据还可以创造一个世界,在这个世界里,对个人信息泄露的控制不断受到挑战。因此,我们需要加大努力,教育新一代计算机科学家和工程师,让他们了解隐私的价值,并与他们合作,开发设计大数据系统的工具,这些工具遵循公认的隐私准则。

五、结论与未来工作

大数据无疑是IT行业最流行的技术,但由于其不成熟和潜在的安全问题,也引起了很多争议和担忧。该引擎旨在提高入侵检测报告的准确性,提高检测恶意入侵和攻击的效率和有效性。综上所述,虽然云系统防御还有很多工作要做,但我们相信我们已经走过了最困难的第一步,我们正在朝着正确的方向前进。在不久的将来,我们将提出一个有效和高效的模式来保护大数据环境。

参考文献












传记

M.Chithik拉贾1978年出生于印度泰米尔纳德邦的Periyakulam。他于1999年获得印度Madurai Kamaraj大学计算机科学学士学位,2001年获得印度Anna大学计算机科学硕士学位,2007年在印度AMET大学从事研究。2001年,他加入了Jayaraj Chelladurai学院计算机科学系,担任讲师,2007年成为维克拉姆工程学院高级讲师。自2009年6月以来,他一直在Surya工程技术学院计算机科学与工程系工作,在那里他是助理教授。在此之后,他在埃塞俄比亚埃塞俄比亚理工学院工作了两年。现就职于阿曼苏丹国萨拉拉理工学院。他目前的研究兴趣包括大数据分析、安全问题、无线传感器网络、云计算、网络安全和数据挖掘。他发表了超过13种国际期刊。他与德国LAMPERT出版社出版了三本计算机书籍。他在最近的IT技术方面举办了研讨会和研讨会。
全球科技峰会