数据驱动信息系统中的大数据分析安全问题

Chithik Raja先生¹穆尼尔·艾哈迈德·拉巴尼²

印度金奈AMET大学信息技术系研究学者
Abdurrahman大学，印度金奈

摘要

企业通常会收集数tb的安全相关数据(例如，网络事件、软件应用程序事件和人员操作事件)，用于法规遵从性和事后取证分析。根据规模的不同，大型企业每天产生大约100亿到1000亿个事件。随着企业在更多的数据源上启用事件日志，雇佣更多的员工，部署更多的设备，运行更多的软件，这些数字只会继续增长。不幸的是，这种数量和种类的数据很快就变得势不可挡。现有的分析技术在大规模上不能很好地工作，而且通常会产生很多误报，从而削弱了它们的功效。随着企业转向云架构并收集更多数据，这个问题变得更加严重。

关键字

CSA, SIEM, Hadoop, APT

I.INTRODUCTION

大数据分析是在多个领域积极使用的大规模信息分析和处理，近年来，它以前所未有的规模高效地分析和关联安全相关数据的能力吸引了安全界的兴趣。然而，区分传统数据分析和安全大数据分析并不简单。毕竟，十多年来，信息安全社区一直在利用对网络流量、系统日志和其他信息源的分析来识别威胁和检测恶意活动，目前还不清楚这些传统方法与大数据有何不同。“安全智能的大数据分析”，重点关注大数据在安全中的作用。该报告详细介绍了随着新工具的引入和广泛使用，利用大量结构化和非结构化数据，安全分析领域正在发生怎样的变化。它还概述了与传统分析的一些根本区别，并强调了可能的研究方向。我们总结一下报告的一些要点。

2相关的工作

数据驱动的信息安全可以追溯到银行欺诈检测和基于异常的入侵检测系统(ids)。尽管为取证和入侵检测分析日志、网络流和系统事件已经成为信息安全社区几十年来的一个问题，但传统技术并不总是足以支持长期、大规模的分析，原因如下:首先，保留大量数据以前在经济上是不可行的。因此，在传统的基础设施中，大多数事件日志和其他记录的计算机活动在固定的保留期(例如60天)之后被删除。其次，对具有不完整和噪声特征的大型非结构化数据集执行分析和复杂查询是低效的。例如，一些流行的安全信息和事件管理(SIEM)工具不是为分析和管理非结构化数据而设计的，而是严格地绑定到预定义的模式。然而，新的大数据应用程序开始成为安全管理软件的一部分，因为它们可以有效地帮助清理、准备和查询异构、不完整和嘈杂格式的数据。最后，大型数据仓库的管理传统上是昂贵的，它们的部署通常需要强大的业务案例。Hadoop框架和其他大数据工具现在正在商品化大规模可靠集群的部署，因此为处理和分析数据提供了新的机会。

3利用大数据技术进行欺诈检测

欺诈检测是大数据分析最明显的用途之一:几十年来，信用卡和电话公司一直在进行大规模的欺诈检测;然而，挖掘大数据进行欺诈检测所需的定制基础设施不够经济，无法大规模采用。大数据技术的主要影响之一是，它们正在促进各种行业建立负担得起的安全监控基础设施。

特别是，新的大数据技术，如Hadoop生态系统(包括Pig、Hive、Mahout和rha)、流挖掘、复杂事件处理和NoSQL数据库，正在以前所未有的规模和速度分析大规模、异构数据集。这些技术通过促进安全信息的存储、维护和分析，正在改变安全分析。例如，WINE平台1和Bot- Cloud2允许使用MapReduce有效地处理数据以进行安全分析。我们可以通过查看响应式安全工具在过去十年中的变化来识别其中的一些趋势。随着IDS传感器市场的增长，企业网络中部署了网络监控传感器和日志工具;然而，管理来自这些不同数据源的警报成为一项具有挑战性的任务。因此，安全供应商开始开发SIEMs，其目的是聚合和关联警报和其他网络统计数据，并通过仪表板将所有这些信息呈现给安全分析师。现在，大数据工具正在通过关联、整合和将更多样化的数据源置于更长的时间内，从而改善安全分析师可用的信息。我们可以从Zions bancoration最近的一个案例研究中看到大数据工具的具体好处。它的研究发现，它必须处理的数据量和必须分析的事件数量对于传统的SIEM系统来说太多了(在一个月的数据负载中搜索需要20分钟到一个小时)。 In its new Hadoop system running queries with Hive, it gets the same results in approximately one minute.3 The security data warehouse driving this implementation lets users mine meaningful security information from not only firewalls and security devices but also website traffic, business processes, and other day to-day transactions. This incorporation of unstructured data and multiple disparate datasets into a single analysis framework is one of big data’s promising features. Big data tools are also particularly suited to become fundamental for advanced persistent threat (APT) detection and forensics.4,5APTs operate in a low-and-slow mode (that is, with a low profile and long-term execution); as such, they can occur over an extended period of time while the victim remains oblivious to the intrusion. To detect these attacks, we need to collect and correlate large quantities of diverse data (including internal data sources and external shared intelligence data) and perform long-term historical correlation to incorporate a posteriori information of an attack in the network’s history.

四、大数据分析中的安全问题

尽管将大数据分析应用于安全问题具有重大前景，但我们必须解决几个挑战，以实现其真正的潜力。隐私问题尤其重要，因为要求在行业部门之间以及与执法部门共享数据的新呼声违背了避免数据重用的隐私原则，即仅将数据用于收集数据时的目的。直到最近，隐私在很大程度上依赖于提取、分析和关联潜在敏感数据集的能力方面的75项技术限制。然而，大数据分析的进步为我们提供了提取和关联这些数据的工具，这使得侵犯隐私变得更容易。因此，我们必须在理解隐私原则和建议的基础上开发大数据应用。虽然在某些领域存在隐私法规，例如，在美国，联邦通信委员会与电信公司合作，健康保险流通与责任法案处理医疗保健数据，几个州的公用事业委员会限制智能电网数据的使用，联邦贸易委员会正在制定网络活动的指导方针，所有这些活动在系统覆盖范围很广，并且在大多数情况下可以解释。即使有了隐私法规，我们也需要明白，大规模收集和存储数据使这些数据存储对许多方面都具有吸引力，包括行业(他们将使用我们的信息进行营销和广告)，政府(他们会认为这些数据是国家安全或执法所必需的)和犯罪分子(他们想要窃取我们的身份)。因此，作为大数据应用架构师和设计师，我们的角色是积极主动地创建保护措施，以防止这些大数据存储被滥用。

另一个挑战是数据来源问题。因为大数据让我们扩展了用于处理的数据源，所以很难确定每个数据源都符合我们的分析算法产生准确结果所需的可信度。因此，我们需要重新考虑工具中使用的数据的真实性和完整性。我们可以从对抗性机器学习和稳健统计中探索想法，以识别和减轻恶意插入数据的影响。

这份特别的CSA报告侧重于使用大数据分析来实现安全，但硬币的另一面是使用安全性来保护大数据。随着大数据工具不断被部署到企业系统中，我们不仅需要利用传统的安全机制(例如，在Hadoop中集成传输层安全)，还需要引入新的工具，如Apache的Accumulo，来处理大数据管理中独特的安全问题，从而提高系统安全性。

最后，报告中没有涉及但需要进一步开发的另一个领域是人机交互，特别是可视化分析如何帮助安全分析师解释查询结果。视觉分析是一门通过交互式视觉界面进行分析推理的科学。与为高效计算和存储而开发的技术机制相比，大数据中的人机交互受到的关注较少，但仍然是实现大数据分析“承诺”的基本工具之一，因为它的目标是通过最有效的表示将信息传达给人类。大数据正在改变网络监控、SIEM和取证等安全技术的格局。然而，在永恒的攻击和防御军备竞赛中，大数据并不是万灵药，安全研究人员必须不断探索新的方法来遏制复杂的攻击者。大数据还可以创造一个对个人信息泄露的控制不断受到挑战的世界。因此，我们需要加大努力，教育新一代计算机科学家和工程师了解隐私的价值，并与他们合作开发工具，设计遵循普遍认可的隐私指导方针的大数据系统。

五、结论及未来工作

大数据无疑是IT行业最热门的技术，但由于其不成熟和潜在的安全问题，也引起了很多争议和担忧。该引擎旨在提高入侵检测报告的准确性，提高对恶意入侵和攻击的检测效率和有效性。综上所述，虽然保卫云系统还有很多工作要做，但我们相信我们已经走过了最困难的第一步，我们正朝着正确的方向前进。在不久的将来，我们将提出一个有效和高效的模式来保护大数据环境。

参考文献

A. Rowstron等。没有人会因为在集群上使用hadoop而被解雇。在HotCDP, 2012。

E. Chickowski，“安全大数据分析的案例研究”，Dark Reading, 2012年3月9日。

E. Ryvkina等。流处理引擎中的修订处理:高级设计。在ICDE, 2006。

J. franois et al.，“僵尸云:使用MapReduce检测僵尸网络”，Proc. Workshop信息取证与安全，IEEE, 2011,pp。1 - 6。

N. Pansare, V. R. Borkar, C. Jermaine和T. Condie。大型mapreduce作业的在线聚合。PVLDB, 2011年。

P. Upadhyaya, Y. Kwon和M. Balazinska。在线并行查询计划的延迟和容错优化器。InSIGMOD, 2011年。

P. Giura和W. Wang，“使用大规模分布式计算揭示高级持续威胁”，《科学杂志》，第1卷，第1期。3, 2012, pp. 93-105。

T. Dumitras和D. Shou，“迈向计算机安全研究的标准基准:全球智能网络环境(WINE)”，Proc. EuroSys BADGERS研讨会，ACM, 2011，第89-96页。

T.-F。Yen等人，“蜂窝:用于检测企业网络中可疑活动的大规模日志分析”，将发表在《人工神经学报》上。计算机安全应用会议(ACSAC 13)， ACM, 2013年12月。

t .白色。Hadoop:权威指南。2009。

V. Raman, B. Raman, J. M. Hellerstein。交互式数据处理的在线动态重排序。VLDB 99年。

传记

M.Chithik拉贾1978年出生于印度泰米尔纳德邦的佩里亚库拉姆。他于1999年获得印度Madurai Kamaraj大学计算机科学学士学位，2001年获得硕士学位，2007年获得印度Anna大学硕士学位，并在印度AMET大学进行研究。2001年，他加入Jayaraj Chelladurai学院计算机科学系，担任讲师，并于2007年成为维克拉姆工程学院高级讲师。自2009年6月以来，他一直任职于Surya工程技术学院计算机科学与工程系，在那里他是助理教授。之后，他在埃塞俄比亚的埃塞俄比亚理工学院工作了两年。现在他在阿曼苏丹国的萨拉拉技术学院工作。他目前的研究兴趣包括大数据分析、安全问题、无线传感器网络、云计算、网络安全和数据挖掘。他发表了超过13种国际期刊。他在德国LAMPERT出版社出版了三本计算机书籍。他喜欢举办有关最新IT技术的研讨会和研讨会。