所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

数据保护技术的叙述方法

K.S.Gangatharan1,M.S.Thanabal2
  1. PG学者,计算机科学与工程系,PSNA工程与技术学院Dindigul Tamilnadu、印度
  2. 计算机科学与工程系,副教授PSNA工程与技术学院Dindigul Tamilnadu、印度
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

在最近一年,隐私需要重要的角色,以确保数据从各种潜在的黑客。隐私技术是用来避免偷窃和减少泄漏对特定或个人信息的数据共享和意识到公众。本文集中协作数据发布匿名化问题多个数据提供者和生成的隐私安全的新型内部攻击者的数据。提出了不同方法产生的隐私匿名化等问题的概括,bucketization,切片他们每个人的解决方案创建一个隐私数据发布。然而,由于额外的改进的可能性,系统提出了m-privacy和重叠的技术。该技术克服先前技术,显示了更好的结果比现有的技术。



关键字

匿名化、合作出版、安全、隐私,切片。

介绍

通过使用匿名化技术对数据进行修改,然后向公众发布。这个过程被称为隐私保护数据发布。通过三种类型的键属性进行分类属性,准标识符属性和敏感。等关键属性代表一个独特的识别名称,地址,电话号码,它总是删除之前出版。Quasi-identifiers段的信息不是惟一标识符,但与一个实体可以结合其他quasi-identifier创建一个惟一的标识符。出生日期,性别,可联系工会与其他数据集。最后一个是死亡敏感属性例子,薪水,等从图1考虑组记录t1, t2…。tn,由供应商提供。记录一些数据的集合。在向公众发布记录匿名化技术应用于数据,然后生成的子集记录t1, t2…… tn. Our goal is secure the original data or individual information from the different malicious user by using the anonymization when the data is published to the public. In the previous year varies techniques are used to private the data such as generalization and bucketization, slicing, m-privacy technique etc. But yet owing the additional improvement we are proposed the novel approach, which is the combination of generalization, bucketization, m-privacy and over lapping technique for private the data with high secure. It ensures the better privacy compared with the existing approaches.

相关工作

答:Bucketization
Bucketization几条记录的过程,根据他们的敏感或敏感属性值分组[1][2]。的明确的敏感值属性识别和基于频率按升序排序。排序后,连续的敏感值分成相等的桶。只有桶包含吗?不同的敏感值用桶装过程完成后保存。桶拼接到组后,敏感属性的值是相互关联的,其关联不敏感或准标识符属性。表2说明了如何从表I桶形成表我由一些的记录集d r .每个记录由一组属性的指定值。考虑d = {a1, a2……}是一组属性。基于这些设置,确定敏感属性,分为一组桶B = {B1、B2、B3….Bn}。 Table II explains the sample dataset comprises with set of sensitive and non-sensitive attributes. In the dataset zip code, age, sex are non-sensitive attributes. Disease is a sensitive attribute. With the set of sensitive attributes obtained, the buckets are created in which it arbitrarily generates each set of sensitive attribute values among each set of bucket formed.
在表二世,敏感的属性,比如疾病有一些值,比如流感,消化不良,胃,和支气管炎是交换其位置和不相关的敏感属性,比如年龄、性别和邮政编码。我们可以看到bucketization表来自原始表不同。这样做,当表或数据库向公众发布。bucketization确保相关协会的属性生成数据的隐私而向公众发布。
b .泛化
泛化是一个匿名方法[3]。它取代QID值不太具体,但是值是一致的。在这种方法中至少两个事务在一个单独的组有一个单独的列中不同值,那么所有的个人信息项特定组的丢失。推广时,记录不会失去太多的信息如果记录在同一个桶必须彼此接近。然而,在高维数据,大多数数据值彼此有相似的距离。
表3描述了关于泛化的方法。表上有两个木桶的拼接基于年龄属性的排序顺序。然后年龄属性是广义的间隔,间隔级别是这样,第一个值的年龄水平起始值在每个bucket和时代属性,最后一个值的级别是最后一个值的属性在每个bucket,这意味着22年龄属性的初始值和52结束第一桶的时代属性的价值。然后间隔形成像[20-52]年龄属性考虑为这个区间值。另一个quasi-identifier如性属性值意味着匿名值进行加密,另一个准标识符,如价值观的邮政编码是匿名的位置敏感属性值的值没有改变。
c .切片
切片前将属性分为列,每列包含属性的一个子集。每列在表4显示了一个属性切片。时代属性和邮政编码属性的属性列和性别属性的子集年龄属性(或性别列的子集是年龄列)一样的邮政编码属性的子集是疾病的属性和性属性子集的邮政编码属性和邮政编码属性的子集是性属性。加密或匿名技术是不习惯但是元组分组进桶里。敏感属性的值并不是改变了立场。
表中的V描述切片。这里每个桶都包含一个值的元组的年龄和性别的价值就形成一列和子集的值改变其位置这种方式相关协会价值属性如表年龄和属性值在第一桶(22日,22日,33岁,52)和(F, F, F),那么它形式像(22日),(22 F), F(33岁),(52岁,F)。该方法后剩余的属性,如邮政编码和疾病。这种方法保证,提供安全。

算法

答:m-privacy
定义:给定一个n组的记录是由提供者P和笛卡儿积的方法适用于所有敏感的属性。然后匿名化技术适用于所有敏感数据而向公众发布的数据。我们考虑T = {t1、t2、t3…tn}被设置的记录水平分布在多个数据提供者作为P = {P1, P2, P3,…。Pn},如Ti E T是一组记录由π。让假设的敏感属性域Ds。如果记录有更敏感属性那么新获得的敏感属性,它可以被定义为笛卡儿积的敏感属性。然后问隐私约束定义为连词:Q1 ^ ^……^ Qn。如果T *满足Q,然后它说Q (T *) = true。
表六世描述了m-privacy方法示例数据。假设医院,这意味着数据提供商提供的数据与一组记录如T1、T2、T3、T4如表所示。然后每条记录包含一个拟恒等式属性(姓名、年龄、邮政编码压缩)和敏感的属性(疾病)。和隐私约束定义为Q = Q1 ^ Q2,在Q1 k-anonymity k = 3和Q2是l-diversity l = 2,然后两个匿名表T * a和T * b满足问:在T1, T2、T3和T4表中加入一个表然后年龄属性的值是排序表。表吐三桶。在每一个桶。年龄属性的值有一个限制,这样意味着区间值。这间隔的值分配给每个元组的记者桶。在T *,年龄的间隔属性是第一桶(20 - 30),[31-35]第二桶和36-40第三桶。和邮政编码属性的值是加密和敏感属性的值是崩溃,比如第一个值的敏感属性被分配给第一个元组的偏好,是隐私的方法之一,T *表所示。m-privacy的概念,抑制数据madversaries的知识对一个给定的隐私约束。 From the Table VII, T*b is an anonymized data which satisfies m-privacy (m = 1) with respect to k-anonymity (k=3) and l-diversity (l = 2). The value of the age attribute has taken the same interval levels for all tuples and the value of the zip attribute are encrypted differently for different buckets. In previous linguistic it ensure the increase the privacy to data while published to the public.

伪代码

图像

实验结果

答:用公式表示为m-privacy
让T组数据表包含d属性。= {a1, a2……{}及其域属性(a1), d d (a2)…[一]}。元组可以表示成t = (t (a1), t (a2)……t[一]),t (ai)的值是人工智能的元组t。定义:分区包含一个属性的某个子集a .这意味着每个属性属于一个子集。因此每个属性的子集被称为列,让C1, C2。
表七m-privacy方法说明。原始表包含原始数据,然后第一个QID(年龄)数据与秩序,做空表拼接成两个水桶。之后第一个值的属性在第一桶作为第一间隔级别,最后一个值的属性在第一桶作为结束间隔级别和应用区间水平为每个元组在第一桶年龄属性。这种方法适用于每一个桶。那么性属性和邮政编码的数据都是加密的。第四表说明的一个attribute-per-column切片数据的属性列的数据不是交换,而是其他QID列互换了位置,然后年龄属性和性别属性合并邮编和性属性合并这样的邮政编码。和敏感属性合并最后敏感属性列的数据是匿名的。重叠分割表通过重叠属性表中的V &七世。属性表5中的m-privacy表七世所取代。它显示了更好的数据效用比现有的匿名化技术。

结论和未来的工作

在本文中,我们提出一个新的方法称为切片m-privacy技术来保护隐私微数据发布。切片克服的局限性泛化和bucketization保留更好的效用,同时也保护隐私的威胁。我们说明如何使用切片,以防止属性信息披露和会员信息披露。我们的实验表明,切片保存数据比一般化效用,是更有效的比bucketization在工作负载敏感属性。在未来它可以形成与重叠策略每列有三个属性。

表乍一看

表的图标 表的图标 表的图标 表的图标
表1 表2 表3 表4
表的图标 表的图标 表的图标 表的图标
表5 表6 表7 表8

数据乍一看

图1
图1

引用