ISSN在线(2320 - 9801)打印(2320 - 9798)
大数据是庞大而复杂的数据集的集合很难过程使用现有数据库管理工具或传统数据处理应用程序。在线社交网络的发明,智能手机、微调的无处不在的计算和许多其他技术进步导致的生成多个pb级的结构化、非结构化和半结构化数据。这些大规模数据集已经导致一些分布式数据处理和存储技术的诞生如Apache Hadoop和MongoDB。在Hadoop来解决安全问题,Kerberos协议引入了第二版。然而,这种技术运动创造了一些安全漏洞处理和存储的数据集。本文列出的一些方向研究大数据挑战已经在过去的五年中连同相应的用例。
关键字 |
||||||
大数据,apache Hadoop, MongoDB, Kerberos、NoSQL和社会网络。 | ||||||
介绍 |
||||||
根据SINTF,世界上90%的数据已经生成的在过去的两年。新出现的 和先进的技术在过去的十年里提高了数据消费者的胃口来创建、存储和使用 数据[1][2]。思科VNI移动Focast强调,亚洲仅预计将有76%的复合年 增长率仅供移动数据[3]。这已经刺激了渴望解决的问题处理 存储大量的数据集。Apache Hadoop和许多其他技术的骑士 关于这个问题闪亮的盔甲。 |
||||||
这种发展有积极的影响正在处理大型数据集的方式一起存储 问题。然而,更少的活动来加强与大数据的安全基础设施 数据。一些研究人员想出了Kerberos协议在Hadoop但处理安全问题 显然有大量的安全问题,从分布式编程计算 框架的数据来源。大数据的现象已经存在于物理、生物、 环境生态、自动控制等科学领域。也至关重要的军事、通讯金融 和许多其他领域。这显然称得上大数据作为信息安全问题,有很多挑战 这必须加以限制。 |
||||||
相关工作 |
||||||
大数据的发展引发了一系列的眉毛的挑战。一些作者 发现大量的挑战包括数据存储和隐私。自汉代张存储描述等 大数据的挑战和他们使用社会网络分析为例。他们进一步分类相关 研究问题分为以下分类:小文件问题,负载平衡、副本一致性和重复数据删除。 名幸约翰逊也做了一些工作与大数据所涉及的隐私问题。他分类这些 挑战为以下分类:与个人、互动地攻击,可能与可证明的 结果,有针对性的识别攻击和经济效果。想象和理解他们的算法结果。Kapil 问题等[9]讨论了建筑考虑大数据得出结论,尽管不同 架构和设计决策,分析系统的目标水平扩展,弹性和高可用性。 Sachchidanand辛格等人在[10]描述了所有可用大数据的概念随着市场解决方案用于处理和探索非结构化大数据进行了讨论。分析的观察和结果显示 已经成为一个重要组成部分,为社会企业增加价值。 |
||||||
大数据的特点 |
||||||
大数据的收集是一个术语,用来描述大型和复杂的数据集使用库存数量很难处理 数据库管理工具或传统数据处理应用程序。大数据跨越七个维度 包括数量、品种、数量、价值、准确性、波动性和复杂性[4]。 |
||||||
•体积:这里的数据量非常巨大,是来自很多不同的设备。的大小 数据通常是在tb和pb。所有这些数据也需要加密的隐私保护。 |
||||||
•速度:它描述了实时属性中发现的一些数据集例如流数据。的 结果,忽略了合适的时间通常是没有价值的。 |
||||||
•品种:大数据包括各种不同类型的数据即结构化、非结构化和半结构式 数据。数据的形式也许博客,视频,图片,音频文件、位置信息等。 |
||||||
•价值:这指的是复杂,先进、预测、业务相关的分析和见解 大型数据集。 |
||||||
•真实性:处理不确定或不精确的数据。它指的是噪音,偏见和异常数据。 这是我们发现的数据被存储和挖掘有意义的问题 分析。 |
||||||
•波动:大数据波动是指多长时间的数据是有效的,应该存储多长时间。 | ||||||
•复杂:一个复杂的动态关系经常存在于大数据。一个数据的变化可能导致 多个数据集的变化引发的涟漪效应 |
||||||
安全用例 |
||||||
安全计算的分布式编程框架 |
||||||
分布式编程框架使用并行计算和存储过程中巨大的概念 大量的数据。分裂的MapReduce框架是一个流行的示例输入文件分成多个块。在 MapReduce的第一阶段,每个块的映射器读取数据,执行一些计算,并输出一个列表 键/值对。在下一阶段,减速机结合了属于每个不同的键值和输出 结果。有两个主要攻击的预防措施:确保映射器和保护数据的存在 一个不可信的mapper [6] [5]。 |
||||||
有可能不可信的映射器会返回错误的结果,这将反过来产生不正确的聚合 结果。大型数据集,这几乎是不可能确定的错,造成重大损害,特别是 科学和金融计算。 |
||||||
零售商消费者数据通常是由营销机构审查定向广告或customer-segmenting。 这些任务包括高度并行计算在大型数据集,并尤其适合MapReduce 诸如Hadoop框架。然而,数据映射器可能包含故意或无意泄漏。为 例子,一个映射器可能发出一个非常独特的价值通过分析私人记录,破坏用户的隐私。 |
||||||
非关系数据存储的安全最佳实践 |
||||||
非关系数据存储尚未达到成熟的安全基础设施。这些商店是主要设计的 通过使用NoSQL数据库。NoSQL数据库建立应对不同带来的障碍 分析世界,因此安全从未在任何点模型的一部分的设计阶段。开发人员使用 NoSQL数据库通常嵌入安全中间件。NoSQL数据库不提供任何支持 显式地在数据库中执行它。然而,NoSQL数据库的集群方面带来了额外的挑战 这种安全实践的健壮性[6][5]。 |
||||||
用例 |
||||||
由于大数据涉及大量的数据可能是结构化,半结构化或非结构化。得多 公司处理非结构化数据集更容易迁移从传统的关系中获益 NoSQL数据库的数据库容纳/处理大量的数据。一般来说,安全 哲学的NoSQL数据库依赖外部执行机制。减少安全事故,公司 必须检查中间件添加物件的安全策略引擎,同时强化NoSQL 数据库本身来匹配其对应rdb的前提下对其操作功能。 |
||||||
安全数据存储和事务日志 |
||||||
数据和事务日志存储在多层次存储媒体。层与层之间的手动移动数据给了它 经理直接控制移动,当什么数据。然而,随着数据集的大小,和 继续,呈指数级增长,可伸缩性和可用性需要auto-tiering大数据存储 管理。Auto-tiering解决方案不跟踪数据存储,这对安全构成新的挑战 数据存储。新的机制必须阻止未经授权的访问和维护24/7可用性[6][5]。 |
||||||
用例 |
||||||
制造商想要集成来自不同部门的数据。一些检索的数据很少,而一些 分歧不断利用相同的数据池。一个auto-tier存储系统将制造商省钱 把很少利用数据到一个较低的(便宜)层。然而,这些数据可能包括研发的结果,不是 受欢迎但包含重要的信息。作为二线经常提供减少的安全,公司应该研究 小心翼翼地分层策略[6]。 |
||||||
端点输入验证/过滤 |
||||||
许多大数据在企业设置用例需要从许多来源收集数据,如端点设备。为 例子,一个系统安全信息和事件管理(SIEM)可能从数以百万计的收集事件日志 在一个企业网络硬件设备和软件应用程序。数据收集过程中一个关键的挑战 输入验证:我们怎样才能信任数据?我们怎样才能验证输入数据的来源不是恶意的,如何 我们可以从我们收集过滤恶意输入吗?输入验证和过滤是一项艰巨的挑战 不受信任的输入源,特别是带着自己的设备(BYOD)模型[6][5]。 |
||||||
用例 |
||||||
气象传感器获取的数据和反馈票发送的iPhone应用程序共享一个相似的验证 问题。动机的对手可以创建“流氓”虚拟传感器,或恶搞iPhone id操纵的结果。 这是进一步复杂化收集的数据量,可能超过数以百万计的读数/票。执行 需要创建这些任务有效地算法为大型数据集验证输入。 |
||||||
实时安全/合规监控 |
||||||
实时安全监控一直是一个挑战,因为生成的警报的数量(安全)设备。 这些警报(相关)导致许多假阳性,大多忽略或简单的“点击” 人类无法应付剪切量。这个问题与大数据,甚至可能增加体积和 数据流的速度。但是,大数据技术也可能提供一个机会,在某种意义上,这些 技术允许快速处理和分析不同类型的数据。而其又可用于 例如,提供实时异常检测基于可扩展的安全分析[6][5]。 |
||||||
用例 |
||||||
大多数行业和政府(机构)将受益于实时安全分析,虽然可能用例 是不同的。用例,是常见的,比如,“是谁在什么时间访问的数据资源”; “我们受到攻击?”或“我们有违反合规标准C因为行动?“这些都不是真的 新,但不同的是,我们有了更多的数据在我们的处理速度和更好的决策(例如,不假 在这方面积极)。然而,新的用例可以定义或我们可以重新定义现有的用例来代替大 数据。例如,健康产业很大程度上受益于大数据技术,潜在的节省数十亿美元的纳税人, 变得更加准确,支付相关的索赔和减少欺诈索赔。然而,在 同时,记录存储可能是极为敏感的部位,必须符合HIPAA或地区/当地 条例》要求小心的保护同样的数据。实时检测异常检索 个人信息,有意或无意的,允许卫生保健提供者及时修复 并防止进一步的滥用。 |
||||||
可伸缩和可组合保护隐私的数据挖掘和分析 |
||||||
大数据可以被看作是一个令人不安的老大哥的表现可能使入侵隐私入侵 营销,降低公民自由,增加国家和企业控制。最近的一个分析公司 利用数据分析用于市场营销目的确定的一个例子如何能够识别一个零售商 青少年怀孕之前,她的父亲知道。同样,匿名分析不足以维持用户的数据 隐私。例如,美国在线发布的匿名搜索日志用于学术目的,但是用户很容易识别的 他们的搜索。Netflix面临类似的问题,当用户的匿名数据集被关联识别 与IMDB Netflix电影成绩分数。因此,重要的是要建立准则和建议 防止无意隐私披露[6][5]。 |
||||||
用例 |
||||||
用户数据收集的企业和政府机构由内部分析师和不断地挖掘和分析 也潜在的外部承包商或业务合作伙伴。一个恶意的内幕或不可信的伙伴可以滥用这些 数据和提取客户的私人信息。 |
||||||
类似地,情报机构需要收集大量的数据。数据来源很多,而且很可能 包括聊天室、个人博客和网络路由器。大多数收集数据,然而,无辜的性质,不需要 被保留,匿名保护。 |
||||||
健壮和可伸缩的隐私保护挖掘算法将增加的机会收集相关信息 增加用户的安全。 |
||||||
密码地强制访问控制和安全通信 |
||||||
确保最敏感的私人数据的端到端安全、访问授权的实体,数据 基于访问控制策略必须加密。基于属性的加密等具体的研究在这个领域 (安)必须富有,更高效和可伸缩的。确保认证,和公平的协议 分布式的实体,一个密码安全通信框架实现[6][5]。 |
||||||
用例 |
||||||
云中的敏感数据通常存储加密。加密数据的主要问题,特别是大型数据集, 是孤注一掷的检索加密数据的政策,禁止用户方便地执行细粒度操作如 分享记录或搜索。安倍缓解这个问题利用公钥密码系统相关属性数据加密解锁的钥匙。另一方面,我们也未加密敏感数据少,这样 数据用于分析。这些数据必须在安全沟通,达成一致的方式使用 密码安全通信框架。 |
||||||
细粒度的访问控制 |
||||||
重要的安全属性从访问控制的角度是secrecy-preventing访问数据 人们不应该访问。粗粒度访问机制的问题是数据可以 否则共享往往是被变成一个更加严格的分类,保证良好的安全。细粒度的访问控制 给数据经理手术刀而不是一把剑共享数据尽可能在不影响保密 [6][5]。 |
||||||
用例 |
||||||
大数据分析和云计算越来越集中在处理不同的数据集,这两个品种 的模式和各种安全需求。法律和政策限制数据来自许多来源。 萨班斯-奥克斯利法案堤坝保护企业财务信息需求,以及健康保险 可移植性和责任法案包括众多限制分享个人健康记录。行政命令 13526概述了一个精心设计的系统保护国家安全的信息。 |
||||||
隐私政策,分享协议,和公司政策也对数据处理的要求。管理这 迄今为止,过多的限制导致了成本的增加对开发应用程序和一个“围墙花园”的方法 很少人可以参与分析。细粒度的访问控制分析系统必须适应 这个日益复杂的安全环境。 |
||||||
细粒度的审计 |
||||||
实时安全监测、我们尽量通知目前发生的攻击。在现实中,这将不是 总是如此(例如,新的攻击,错过了真正的阳性)。为了得到错过了攻击的底部,我们所需要的 审计信息。这不仅是有关因为我们想知道发生了什么事,出了什么问题,但是 也因为合规监管和取证的原因。在这方面,审计并不是新东西,但范围 和粒度可能有所不同。例如,我们需要处理更多的数据对象,这可能是(但不是 一定)分布[6][5]。 |
||||||
用例 |
||||||
法规遵循需求(如HIPAA, PCI,萨班斯-奥克斯利法案)要求金融公司提供细粒度的审计 记录。此外,记录包含私人信息的损失估计为200美元/记录。法律行动, 根据地理区域——可能遵循的数据泄露。关键人员的金融机构 需要访问包含π的大型数据集,比如SSN。例如,营销公司想要访问的个人 社会媒体信息来优化他们的关于网络广告以客户为中心的方法。 |
||||||
数据来源 |
||||||
来源的元数据会导致复杂性大的起源从provenance-enabled生成的图表 在大数据应用程序编程环境。如此大的起源分析图形检测元数据 依赖的安全/保密程序是计算密集型[6][5]。 |
||||||
用例 |
||||||
几个关键的安全应用程序需要一个数字的历史记录,如成立的详细信息。例子 包括检测内幕交易对金融公司或确定数据源的准确性进行研究 调查。这些安全评估在本质上是对时间敏感的,并且需要快速算法来处理 包含这些信息来源的元数据。此外,数据来源补充合规审计日志 要求,如PCI或萨班斯-奥克斯利法案。 |
||||||
这些安全问题可以分为四个不同的方面大数据生态系统如下图2所示。 | ||||||
可能的解决方案对大数据的挑战 |
||||||
Kerberos |
||||||
Kerberos是一种网络系统对用户进行认证和服务。Kerberos是验证的目标节点 确保不必要的副本的数据或不必要的查询运行复制数据。在传统的,这似乎遥不可及, 但是在云计算和虚拟环境与数千个节点在一个集群中,这既简单又很难检测到。 Kerberos身份验证节点提供了一种方法之前被允许参加在集群上。这个解决方案 已经在最新一期的《Apache Hadoop实现。 |
||||||
TLS |
||||||
传输层安全性(Transport Layer Security, TLS)协议确保隐私之间的通信协议和他们的用户 互联网。这里的目标是保持私人通信。内置的Hadoop功能提供安全客户端- Web应用程序层通信,但不是节点之间的通信,也不是Mapper-Reducer输出之前 传递给应用程序。TLS为所有节点之间的安全通信提供了一种机制和服务,和 尺度为节点添加到集群如图3中所示。 |
||||||
文件层加密 |
||||||
这个想法是为了保护的内容集群管理它的人。如果管理员想 检查数据文件,通过一个基本的文本编辑器或通过快照和检查档案,加密保存 数据安全。File-layer加密数据库是透明的,尺度作为新节点被添加到集群中。 当然,这个特性的加密密钥必须保持安全有效。 |
||||||
密钥管理 |
||||||
作为一个扩展file-layer加密,密钥管理是加密部署成功的关键。经常 当我们回顾云和虚拟安全系统,我们发现管理员保持加密密钥存储 在磁盘上未受保护的。加密密钥时,必须随时可用集群重启;否则,数据 无法进入和离开键在开放是他们知道的唯一方法,确保安全系统重新启动。最中央 密钥管理系统提供关键谈判重启,而且还保证密钥的安全。 |
||||||
这里的目标,确保集群中的所有节点都适当地修补,正确配置,运行正确 (即。,not hacked) copies of software. It's easy to miss things when you have thousands of nodes running, so automated 节点验证使基本节点安全更加容易。脚本安装补丁和设置和测试配置设置 是一种简单的方法来验证没有节点进入集群没有适当的设置和安全。这也可以链接到 Kerberos身份验证和外部应用程序验证(安全作为服务)产品。 |
||||||
结论和未来的工作 |
||||||
摘要暴露的主要安全问题需要解决在大数据处理和存储。 一些研究人员带来的使用加密与Kerberos协议为了使数据 更加安全。然而,这些安全与隐私问题等不同形式,Kerberos可能不是 足以完全安全的数据。在Hadoop使用映射-规约模式框架,映射器节点处理一个给定的一组数据 在其本地文件并保存中间数据。减速机节点将复制这个数据映射器 节点和后来聚合产生的整体结果。我们想引入一个额外的中央节点 与映射器和减速器连接节点。中介的数据将被存储在这个节点 而不是映射器节点的本地文件系统。周边防御机制将被用于监控所有 车辆进出安全数据的节点。 |
||||||
数据乍一看 |
||||||
|
||||||
引用 |
||||||
|