所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

数据库安全方法为分布式数据集:一项调查

Kalpana k Palve和以R.W. Deshpande教授
计算机科学与工程系,Siddhant工程学院Sudumbare,普纳大学,浦那(MH、印度。
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

现在一天isa需要数据安全传播特征数据库,同时保留孤独。在拟议的工作,我们判断问题在出版相互连接anonymizingperpendicularly和并行分区数据的数据。我们认为的攻击可能使用通用数据的一个子集。针对整个调查工作后我们首先制定的分布式数据库的分类,我们先锋数据独处的概念保证匿名数据的隔离不同的数据来源。其次,我们目前的保密算法利用单调性约束检查数据隐私专业使用加密算法加密表示。第三,我们的数据分发给终端用户的匿名化算法以及安全,和检验TTP的验证模式,这将给目前的高水平保证安全数据库。我们使用医院持久数据集的实验表明我们提前达到改善或类似的实用性和能力比现有和基线算法而提出保护区工作的完成。

关键字

分布式数据库、隐私保护、安全、SMC, TTP

介绍

隐私保护技术主要是用来降低泄漏的配置特定的生物而发布的数据共享和社区。为此,敏感的序列不应披露。数据被修改,然后发表进一步的过程。遵循这各种各样的匿名化方法和简化,镇压,排列和扰动。通过各种匿名化技术数据被修改,保留足够的效用和无侧限安全地其他政党。单一的协会不持有绝对的数据。organizationrequire共享数据相互报酬或者出版第三收集。银行部门要整合他们的消费者数据开发计划为其客户提供改进的服务。然而,银行不希望不透露他们的数据等其他原因solitudedefense和商业竞争力。
主要目标是发布一个匿名的合并数据,T,抵抗攻击(图一)。攻击者的攻击,即一个或一组外部或内部实体要求违反隐私数据使用环境的知识。相互进行数据发布肥沃地借助可信第三方(TTP)或(SMC)安全多方计算协议,保证信息或数据对特定生物不披露任何,这意味着它保持机密性。这是未指定的部分数据提供者是诚实的。更可取的进步共同发布数据,首次全面然后匿名化(图1)[1]。
在上图,T1、T2、T3和T4是数据库数据由供应商提供像提供者P1提供数据目录T1。这些来自不同的分布式信息提供者被TTP(可信第三方)或集体与SMC协议。那么这些聚合数据由任何anonimizationmethod anonymizedadditional。P0验证客户端和P1试图违反隐私数据,由其他用户提供的协助BK(背景知识)。这类攻击我们保留称作为“内幕攻击”。我们包含捍卫我们的系统从这种类型的攻击。

LITERETURE调查

我们正在研究dissimilarmethod arebeforehand用于匿名化。我们learningsolitude保存数据发布(PPDP)[2]和LKC[3]模型能够比传统k improvedconsequence匿名化模型。以及两党协议DPP2GA[4],它孤独的隐私保护协议不是SMC因为它介绍某些推理困难。许多系统用k匿名化提供的隐私。攻击者可以攻击的帮助下anonymizedscheme BK(背景知识)。L多样性有助于克服这个问题。研究文档中[1],作者把在m隐私算法确认匿名化和L的多样性。他们相信泛化和bucketizationtechnique维持anonimizedvision数据,还提供了L分类有助于增加孤独的数据。这个手稿提出了一个系统,我们使用了一种新的knowledgei。我们另外使用e切片算法加密的数据可以改善预防措施。 Slicing is the procedure which gives improved result than characteristicsimplification and bucketizationmethod. It gives better results for high dimentional data. It can perform permutation within bucket. In slicing we can pool resources sensitive attribute with some quasi identifier. On this sliced data we utilizeconfirmationalgorithms[1] which verifies that whether information is secured or not.

相关工作

由于不同的攻击攻击者可以攻击我们的系统。对我们的方案我们认为某些内幕攻击像背景知识攻击。隐私强化行不通的是由于对手的环境知识的发生[6]。二是关系攻击,当对手能够链接记录所有人发布信息表中记录称为记录连接,在发表一个敏感质量数据表称为质量的链接,或发布的数据表本身称为台联系。在这种攻击对手可能会熟悉一些受害者QID等数据。在某些情况下,供应商自己可以攻击者。自己的证据,可能是数据库的一个子集。维护保管和隔离条没有与加密是一个具有挑战性的困难在分布式安排。各种方法和策略开发建设最大似然概率。征服这些磨难,我们提出了一个系统。问题的意义:我们的主要目标是传播一个匿名的合并数据,P *将抵抗攻击。 We recover the security and confidentiality with the help of slicing method, data privacy confirmation algorithm and protected data analysis with the assist of classifier.

目标和目的

•我们利用切片算法,给出了改进的结果比asbucketisation泛化
•二进制算法适用于验证数据隐私与修剪策略对于每个部分的数据。
•检查如单调用于检查等价组的隐居。
•我们要减少估计的系统。

范围

•方案是运行在局域网系统。
•分布式系统像医院病人数据管理、组织companiesemployer薪水,银行系统个人银行账户持有人信息等,我们需要安全的协作数据。

系统架构

我们第一次正式描述我们的问题。然后,我们提出我们的数据隐私定义对隐私约束data-adversary防止推理攻击,紧随其后的是这个新的隐私概念的属性。让T = {t1, t2,。}是一组具有相同属性的记录收集从n数据提供者P = {P1, P2,。,Ti的Pn},这些记录提供的π。让作为一个敏感的属性与域DS。如果记录包含多个敏感属性之后,我们把每个人当作唯一的敏感属性,而剩下的我们包括quasi-identifier [10]。然而,对于我们的场景中,我们使用一个方法,保留了更多的实用程序在不牺牲隐私[11]。我们的目标是发布一个anonymizedT *而阻止任何data-adversary推断对于任何单个记录。data-adversary是联盟的数据用户提供n数据提供商合作违反隐私匿名记录。当数据从不同的数据收集和综合提供商,主要完成两件事,匿名化过程。 To protect data from external recipients with certain background knowledge BK, we assume a given privacy requirement C is defined as a conjunction of privacy constraints: C1∧C2∧...∧Cw. If a group of anonymized records T* satisfies C, we say C(T*)=true. By definition C(Ø) is true and Ø is private. Any of the existing privacy principles can be used as a component constraint Ci. We now formally define a notion of data-privacy with respect to a privacy constraint C, to protect the anonymized data against data-adversaries. The notion explicitly models the inherent data knowledge of an data-adversary, the data records they jointly contribute, and requires that each QI group, excluding any of those records owned by an data-adversary, still satisfies C.
该系统中输入数据在加密的格式(属性名称将以加密格式)。选择切片[12]。检查输入数据对隐私约束C数据隐私。进一步检查是否切片是可能的。如果切片可能然后做如果没有解密数据。我们的最终输出T *匿名数据将看到只有通过身份验证的用户。任何对手不能违反隐私的数据。在这个系统中我们使用水平和垂直分区数据库。切片算法提供更好的分区列。正确地理解这让考虑医院管理系统实验。 Let different departments are the providers who provides data from different sources. We consider disease as a AS (sensitive attribute) and age and zipcode are QI(quasi identifier).

算法

切片算法:

定义1:分离和列(属性)。
在属性分离,D(数据库)由多个子集,这样每个属性属于一个子集。每个属性的子集被称为列。具体来说,要有C列C1;C2;。Cc,那么你我= 1 (c), c = D;和1≤我吗?≠i2 c≤, Ci吗?∩Ci2 = ?。简单的讨论之后,我们认为只有一个敏感属性s .如果数据包含多个敏感属性,可以分别考虑或考虑他们的联合分布[25]。 Exactly one of the c columns contains S. Without loss of generality, let the column that contains S be the last column C. This column is also called the sensitive column. All other columns{C1,C2…… Cc-1} contain only QI attributes.
定义2:(元组分区和桶)。
在元组分区,T由若干子集,这样每个元组属于一个子集。这个元组的子集称为桶。具体来说,要有b桶。B1、B2……Bb然后你? ?B ? ? ?= T和1≤我吗?≠i2≤b, Bi ?∩Bi2 = ?
定义3(切片):
微数据表T, T的切片是由一个属性分区和一个元组分区。
例如,假设表a和b两个切片表。在表一,属性分区{{时代},{性别},{Zipcode},{疾病}}和元组分区{{t1;t2;t3;t4}, {t5;t6;t7;t8}}。分区表b中,属性{{年龄、性别},{Zipcode、疾病}}和{{tuple分区t1;t2; t3; t4}, {t5; t6; t7; t8}}.
定义4(列概括)
给定一个T和微数据表列Ci =((ξ1,ξ2),Xi3…….Xij)ξ1,ξ2)……Xij属性,列概括词被定义为一组非重叠j-dimensional区域完全覆盖D[ξ1]* [2]*……D [Xij]。一列Ci的泛化映射每个值区域中包含的值。泛化确保列一列满足k-anonymity要求。它是一个多维编码和切片可以作为一个额外的步骤。具体来说,一般的切片算法由以下三个阶段组成:属性分区列泛化,tuple分区。因为每一列包含更少比整个表属性,属性分区使切片能够处理高维数据。切片的关键概念是匹配的桶。
定义5(匹配桶)
考虑切片数据,让(C1;C2;。;Cc)列。让t是一个元组,t (Ci)是Ci的t。B的值是一个桶的切片,和B (Ci)的多重集Ci值B我们说B是一个匹配的桶t如果所有t [C (i)] = = B C (i)和1组如果我组C, 1≤≤C、t (Ci) ?B (Ci)通过使用上面的切片算法我们可以获得匿名化和l的多样性。这两个技术维护他的隐私数据。

二进制算法:

数据:从提供者P匿名化记录数据,如单调C,健身得分得分函数F, n。
结果:如果数据是私人安全C那么真实,否则错误的
1。网站= sort_sites (P,增加订单,scoreF)
2。应用切片
3所示。而验证数据隐私(数据、n、C) = 0
4所示。超级= next_instance大小(n−1) & & (size_of_tupples(Σ)/ /列的识别
5。如果隐私breached_by (Psuper C) = 0
6。prune_all_sub-instances_downwards (Psuper)
7所示。继续
8。Psub = next_sub-instance_of (Psuper, n)
9。ifprivacy_is_breached_by (Psub C) = 1
10。返回0 / /早期停止
11。whileinstance_between (Psub Psuper)
12。I = next_instance之间(Psub Psuper)
13。如果隐私breached_by (P C) = 1
14。Psuper = P
15。其他的
16。Psub = P
17所示。prune_all_sub-instances_downwards (Psub)
18岁。prune_all_super-instances_upwards (Psuper)
19所示。返回1

结论

我们考虑一个潜在攻击协作数据发布。我们使用切片匿名化算法和L多样性和验证它使用二进制算法的数据安全和隐私的隐私。切片算法是非常有用的,当我们使用高维度数据。它将数据在两个垂直和水平。由于我们可以增加安全性的加密技术。但是限制是可能有损失数据的实用程序。
以上系统可以用于许多应用程序像医院管理系统,许多工业领域我们要保护敏感数据如员工的工资。制药公司敏感数据可能的组合成分的药物,在银行业中敏感数据是客户的账号,我们的系统可以使用。它可以用在军事领域从不同来源收集数据,需要获得这些数据彼此保持隐私。这个提议系统有助于改善数据隐私和安全从不同来源收集数据时应该以合作的方式和输出。这个系统在未来可以考虑临时数据分布的网格计算。系统也可以考虑套价值数据。

未来的工作

我们可以在hadoop实现建议的体系结构的基本系统多维数据集实体化和地图减少。
我们也可以识别整体措施部分代数的一个子集,提出了技术价值的分区,使它们容易并行计算。设计算法,分区立方晶格到批处理领域有效地利用MapReduce的并行处理能力和立方体实体化的修剪算法。此外,并展示有趣的立方体表面组织的能力作为立方体的计算过程。实验在真实和合成数据显示,我们的MR-Cube算法有效地计算工作负载分配到各机器和能够完成cubing任务之前在规模算法失败。

数据乍一看

图1
图1

引用











全球技术峰会