一个调查数据挖掘中避免歧视行为

Malpani完婚年代¹,Dr.Sulochana Sonkamble²

PG学者、计算机工程系、JSPM NTC, Savitribai Phule普纳大学,印度浦那
头&教授,计算机工程系,JSPM NTC, Savitribai Phule普纳大学,印度浦那

文摘

文摘:为了获取有用的知识隐藏在大的数据集,数据挖掘是一个非常重要的技术。有一些关于数据挖掘的负面看法。这种看法可能包含不公平对待的人属于某些特定群体。分类规则挖掘技术覆盖的自动决策贷款批准/拒绝和保险费计算等。这些都是自动数据收集和数据挖掘技术。根据歧视属性如果训练数据集是偏见歧视的决定就会随之降低。因此在数据挖掘技术的反歧视歧视包括发现和预防。它可以直接或间接的。当决策基于敏感属性是间接的歧视。当决策是基于非敏感属性强烈敏感那些时间的歧视与偏见是间接的。提出系统试图解决歧视预防数据挖掘。 It proposes new improved techniques applicable for direct or indirect discrimination prevention individually or both at the same time. Discussions about how to clean training data sets and outsourced data sets in such a way that direct and/or indirect discriminatory decision rules are converted to legitimate classification rules are done. New metrics to evaluate the utility of the proposed approaches are proposes and comparison of these approaches is also done.

关键字

的反歧视、数据挖掘、预防、直接和间接歧视规则保护,规则泛化、隐私。

介绍

社会学、歧视被认为是有害的治疗一个人基于他们加入某个团体或类别[1]。它包括拒绝的机会,一个群体的成员可以被其他组。有一个列表的一个反歧视行为。这些法律的目的是限制歧视的基础上的属性在不同的设置。基本属性可以种族、宗教、性别、国籍、残疾、婚姻状况和年龄。不同的设置可以就业和培训、访问公共服务、信贷和保险。即使有一些反歧视法律,都是被动的,而不是积极主动。技术可以增加积极立法贡献歧视发现和预防技术。

歧视是适得其反的个体。它是基于他们的特定组的成员加入某个团体或类别。它可以吸收反驳的机会,一个群体的成员。这些机会是那些可用于另一组。有些法律旨在防止歧视。

自动和常规收集大量的数据是信息社会所允许的。针对自动化决策,这个数据是用来训练协会/分类规则。自动化决策可以像贷款批准/拒绝,保险费计算,人员选择,等。一种公平是由自动化决策乍一看:分类规则不指导自己的个人喜好。但在仔细地看,它是意识到分类规则由系统在现实中学会从训练数据。学模型可以显示一个歧视性偏见行为如果训练数据是偏向任何一个特定的社区。只是系统可能会得出这样的结论:否认只是一个被外国贷款的原因。是非常理想的发现潜在的偏见和消除他们从训练数据而不损害自己的决策效用。

作为数据挖掘任务生成从偏见歧视模型数据集作为自动决策的一部分,我们必须防止数据挖掘本身成为一个歧视的来源。实验证明在[2],数据挖掘可以歧视的来源和发现歧视的一种手段。

相关工作

Pedreschi et al。[2],[3]提出的第一个发现歧视性的决策。这是基于分类规则挖掘(感应部分)和推理(演绎部分)。它使用定量措施的歧视,歧视的法律形式化定义。考虑我们同工同酬法案的例子。它说,选择率对任何种族,性别,或民族小于4/5的利率最高的组率通常会被视为不利影响的证据。这种方法是先进的,包括统计学意义的提取模式[4]和歧视的原因关于反歧视行动和偏袒[5]。它被实现为一个Oracle-based工具[6]。目前歧视单独考虑每个规则发现方法。每个规则是用来测量歧视不考虑其他规则或它们之间的关系。歧视预防是数据挖掘的其他大型的反歧视的目标。 It consists of inducing patterns which do not lead to discriminatory decisions even if the original training data sets are biased. There are three approaches.

预处理:转换的源数据中包含的歧视性偏见,原始数据可以删除,所以没有不公平的决策规则可以从转换后的数据挖掘和应用任何标准的数据挖掘算法。数据转换的预处理方法和不能泛化可以改编自文学隐私保护。沿着这条线,[7],[8]执行控制分类器的训练数据的失真是学会通过最小程度的修改导致公正的数据集。预处理方法是有用的应用程序在一个数据集应该发表和/或数据挖掘需要执行也由外部各方(而不仅仅是数据持有者)。

在处理:数据挖掘算法更新这样的不公平的决策规则并不包含生成的模型。例如,对于清洁的歧视从原始数据集提出了[9],虽然这是一视同仁的限制是嵌入到决策树学习者通过改变其砍准则和修剪策略在小说叶重新标记方法。是可访问的,报到歧视避免技术必须等待新的特定目的的数据挖掘算法。

后期处理:而不是打扫真实数据集或改变后处理的数据挖掘算法流程修改生成的数据挖掘模型。例如在[10],信心改变走向提出了分类规则由CPAR推断算法。的权威发布的数据没有后处理。他们只发布修改后的数据挖掘模型。由于数据挖掘的过程可以由数据持有人。

在分类,没有歧视,优惠抽样(f . Kamiran和t·考尔德,2010)[8]分类没有歧视,优惠抽样是一个预期解决歧视问题。它给保证结果的稳定和不稳定的分类器。它降低了安全级别精度保持高级别。它给可比执行“按摩”但是不改变数据集和塌实拍“reweighing”计划。

整合归纳和演绎寻找证据的歧视Pedreschi et al。(2009)[5]提供了一个参考模型检查和启示的歧视在社会敏感性选择DSS。方法包括首先提取频繁的分类规则,然后检查他们在定量措施的前提下的歧视和可测量的意义。关键受法律保护的合法的想法组织,直接歧视,间接歧视,诚实善良职业的先决条件,平权活动和偏爱正式化为组集中运行和解释,或许,额外的基础信息。

数据挖掘中歧视发现Ruggieri et al。(2010)[3]提出的问题通过数据挖掘的数据集记录找到歧视选择记录,由人或通过编程框架。他们形式化技术的直接和间接歧视启示通过显示保护法律组织和连接歧视发生的地方为基础的分类提取。从本质上讲,分类规则提取的数据集允许泄露连接的非法歧视,负载在受法律保护群体的水平在哪里形式化的增加电梯的一个分类规则。

在DCUBE:歧视在数据库发现车et al .(2010)[6]说DCUBE是一个分析工具支持歧视的互动和迭代过程检测。DCUBE未来的用户包括:反歧视,数据库所有者社会敏感的决定,和审计人员,研究人员在社会科学,经济学和法律。

关联规则隐私隐藏方法的调查(诉Verykios和A . Gkoulalas-Divanis 2008)[11]提出了分类和最近的调查方法,实际的关联规则隐藏的困难。关联规则隐藏是指调整原始数据库的过程,相信敏感关联规则消失没有严重影响数据和敏感规则。

间接歧视预防规则保护数据挖掘Hajian et al。(2011)[10]显示第一个在数据挖掘技术可以避免间接歧视,因为有偏见的训练数据集。有贡献本文专注于提供训练数据是免费或自由间接歧视,维护他们的乐于助人的数据挖掘算法。在一个数据集,以避免间接歧视第一步包括寻找是否存在间接歧视。如果找到任何歧视,数据修改,直到歧视是把下面某个阈值或完全删除。

歧视在数据挖掘的入侵检测和犯罪预防Domingo-Ferrer et al。(2011)[12]分析了歧视如何影响网络安全应用程序,尤其是IDSs。ids使用计算知识的进步,例如,数据挖掘。很明显,这些框架可能是歧视性的训练数据,这将带来他们解决当预见中断或歧视性的决定,更在大多数情况下,不法行为。

三个朴素贝叶斯方法Discrimination-Free分类(t·考尔德和s . Verwer 2010) [13] discrimination-aware分类研究了三种贝叶斯方法。他们是改变经验概率在朴素贝叶斯模型以这样一种方式,其预测成为discrimination-free。下一个方法有关学习两种不同的模型;他们S_0 S_1和补充这些模型。最后和最关心的方法他们发起一个潜变量L反映了潜在的“真正”类的一个对象不受歧视。

在大型数据库中挖掘关联规则的快速算法(r . Agrawal和r . Srikant 1994)[1]表现出两种新的算法,先天Aprioritid,寻找所有巨大的商品之间的关联规则在一个巨大的数据库事务。我们对比与前一段时间已知的算法,这些算法AIS[4]和SETM[13]算法。

结论在欧盟指令2004/113 / EC在反歧视(2004)[14]可能有另一个属性例如邮政编码是高度敏感的和允许推断歧视性规定。自从两个关于歧视预防是最重要的挑战;第一个挑战是,而不是只考虑直接歧视我们既要考虑直接和间接歧视。第二个挑战是发现好安排在消除歧视和质量产生的训练数据集和数据挖掘的模型。

分类不受歧视(f . Kamiran和t·考尔德2009)[7]表明歧视非小,造成道德的思想而且合法的问题也阻碍常识的应用程序。CND还为我们提供一个基本的影响力开始阶段安排的歧视问题。CND分类未来的信息(包括歧视性的和非歧视性的)最不歧视,准确性高。它同样处理注销的问题。

由于每种方法已经提出了一些方法我们上面提到,防止歧视的概念是研究人员研究的主题。

比较分析

这里比较研究来理解不同的方法如何影响矿业的歧视。新的不同的研究在寻找可靠的结果没有歧视存在于数据库没有数据丢失。

结论和未来的工作

作为数据挖掘的歧视是一个非常重要的问题。本文的目的是开发新的预处理预防歧视包括不同的数据转换方法,可以防止直接歧视,以及同时间接歧视。也包括支持歧视的发现,即歧视性的揭幕决定隐藏,直接或间接,历史决定记录的数据集,可能建成应用分类器的结果。作为未来的工作,我们正在探索的歧视措施不同于那些认为本文数据挖掘中的隐私保护。进一步实施歧视预防后处理将完成。算法实现精度高和效率。

表乍一看

表1

引用

莎拉Hajian和约瑟Domingo-Ferrer”,直接和间接歧视预防方法在数据挖掘”,IEEETRANSACTIONS知识和数据工程,25卷,没有。2013年7月7日。

d . Pedreschi s Ruggieri, f .车Proc Discrimination-AwareData挖掘。14日ACM国际会议。知识发现和这(KDD ' 08),页。560 - 568年,2008年。

s . Ruggieri d Pedreschi f .车,“数据挖掘发现歧视,”ACM反式。知识发现与数据,卷。4,没有。2,article 9, 2010.

d . Pedreschi s Ruggieri f .车,“测量歧视社会敏感性决定记录,”Proc。九暹罗MiningConf数据。(长效磺胺' 09),页581 - 592年,2009年。

d . Pedreschi s Ruggieri f .车,“整合归纳和演绎寻找歧视的证据,“Proc。12日ACM Int 'lConf。人工智能和法律(ICAIL ' 09),页。157 - 166年,2009年。

s . Ruggieri d Pedreschi f .车,“DCUBE:歧视在数据库,发现“Proc。ACM国际相依数据的管理(SIGMOD 10),第1130 - 1127页,2010年。

f . Kamiran t·考尔德,“分类不受歧视,”Proc。IEEE第二次国际会议上。计算机,控制和通讯。(IC4 ' 09), 2009年。

f . Kamiran t·考尔德,“分类没有歧视,优惠抽样,“Proc。19机器学习相依比利时和荷兰,2010年。

s . Hettich D.J.纽曼中一段布莱克,C.J.梅尔兹,“UCI机器学习数据库的存储库”,http://archive。ics.uci.edu/ml,1998年。

s Hajian j . Domingo-Ferrer, a马蒂´nez-Balleste´,“间接歧视预防规则保护数据挖掘”Proc.Eighth如相依建模决策的人工智能(MDAI 11),第222 - 211页,2011年。

VERYKIOS和A . GKOULALAS-DIVANIS”关联规则隐私隐藏方法的调查,“保护隐私的数据挖掘:模型和算法,林祖嘉AGGARWAL另外YU, EDS。施普林格,2008年。

s . Hajian j . Domingo-Ferrer, a马蒂´nez-Balleste´,“歧视在数据挖掘的入侵检测和犯罪预防,”Proc.IEEE计算机协会。计算智能网络安全(CICS 11),页47-54,2011年。

t·考尔德和美国Verwer Discrimination-Free分类三种朴素贝叶斯方法”,数据挖掘和知识发现、卷。21日,没有。2、277 - 292年,2010页。

欧洲委员会”,欧盟指令2004/113 / EC反歧视,http://eurlex.europa.eu/LexUriServ/LexUriServ.do? uri =橙汁:L: 2004:373:0037:0043: EN: PDF, 2004。