欺诈检测使用一种新的多层检测系统

Kaminee Gurav, Manisha Gurabe、Priyanka Suryawanshi Prof.Sinu马修

大学是学生,部门的CSE孟买Atharva工程学院,印度孟买
大学是学生,部门的CSE孟买Atharva工程学院,印度孟买
大学是学生,部门的CSE孟买Atharva工程学院,印度孟买
大学助理教授,部门CSE孟买Atharva工程学院,印度孟买

文摘

身份盗窃是一种盗用他人身份的人假装别人,通常是作为一个方法来访问资源或获得利益的人的名字。身份犯罪是普遍的,昂贵的;和信贷申请欺诈是一个特定的身份犯罪或身份盗窃。现有的数据挖掘检测系统,使用业务规则和记分卡,和已知的欺诈匹配有局限性。克服这些限制和打击身份犯罪在实时,我们提出一个新的多层次共同组成的检测系统检测(CD)和峰值检测(SD)层弹性。弹性是一个系统的长期能力应对变化和继续发展公共检测(CD)发现真正的社会关系来减少怀疑分数,并防伪造合成的社会关系。这是一组固定的白名单的方法[1]属性。CD算法匹配所有的链接与白名单找到公共关系和减少他们的链接得分。光盘可以检测更多类型的攻击;更好的账户改变法律的行为和峰值检测(SD)补充CD。

关键字

单位犯罪,共同检测、峰值检测。

我的介绍。

身份犯罪在一个极端有合成身份欺诈是指使用可信,但虚构的身份。这些很容易创建更难以成功应用。在另一个极端,我们真实的身份盗窃,指的是无辜的人民完成身份的非法使用细节。这些应用可以难以获得但毫不费力。在现实中,身份犯罪可以进行合成和真实身份的细节。身份犯罪已经成为著名的,因为有很多的真实身份在网络上数据,机密数据是通过无担保邮件来访问。

重复有两种类型:精确和重复.Exact附近(或相同)副本(或近似)附近的所有相同的值而重复一些相同的值(或人物),略有一些相似的价值观改变了拼写,或两者兼而有之。每个成功的信贷申请欺诈模式由突然飙升在副本在很短的时间内,相对于建立基线水平。重复是很难避免从骗子的角度来看,因为重复增加成功率。合成身份诈骗犯成功率较低,可能会重用虚构的身份已被成功之前[1]。

二世。相关工作

欺诈检测已经存在了许多年。欺诈行为增加了金融机构提供电子支付选项通过发行信用卡和借记卡。银行和其他机构担心可能的欺诈行为。信用卡欺诈检测一直是一个具有挑战性的工作的应用程序。弹性数据挖掘算法的一个完整的检测系统没有明确解决尽管许多数据挖掘算法设计和实现。

很多工作在信贷程序欺诈检测仍是专有的和准确的性能数据未发表,因此CD和SD算法不能对主导产业相比的方法和技术。

在示例中,[2]检测提供四类策略规则的信号欺诈,其中之一是检查一个新的信贷应用程序对历史应用程序数据的一致性,一个检查的有效性,检查应用程序是否触发任何欺诈指标,最后检查应用程序是否匹配任何记录在国家政策欺诈数据库。

案例推理(CBR)是唯一已知之前出版的筛查信贷应用[3]。CBR最困难的情况下已被错误归类,分析现有的方法和技术。检索使用阈值近邻匹配。诊断利用多个选择标准(概率曲线,最佳匹配,消极的选择、选择、密度和默认)和解决战略(顺序解析缺省值、猜测和信心)相结合来分析检索到的情况。贝叶斯网络[4]从真正的急诊科数据揭示模拟炭疽袭击。黄[5]调查算法寻找可疑活动在疾病暴发的时候了。戈登伯格等。[6]使用时间序列分析跟踪合成炭疽疫情的早期症状从日常的销售零售药物(喉咙,咳嗽、鼻)和一些杂货(面部组织,橙汁,和汤)。该系统包括几层;每个定制杂货店数据和优化找到脚印的流行病。Control-chart-based统计数据、指数加权移动平均线和广义线性模型进行了测试在同一生物恐怖主义检测数据和报警率。

三世。目的和目标

答:目标

数据泄露涉及丢失或被盗消费者的身份信息会导致纳税申报表等欺诈行为,房屋净值,和支付信用卡欺诈。消费者可以在实付费用支付数千美元。为了防止这一点,我们正在设计一个有弹性的欺诈检测系统,检测欺诈信贷应用程序使用一种新的多层CD和SD方法组成的两个算法。

b .客观

韧性是能够完全降低当在大多数真正的攻击。要求所有检测系统的基本问题是他们是否能实现弹性。为此,检测系统交易从一个小程度的效率(降低处理速度)更大程度的有效性(提高安全性检测最真实的攻击)。检测系统需要与多个“纵深防御”,连续的,国防和独立层[7]不同的攻击类型。这些层需要减少假阴性。

面临的两大挑战。国防数据具有层自适应性和质量数据的使用。

二世。自适应性变形占欺诈行为,试图观察欺诈改变其行为。但是不明显,但同样重要的是,也需要考虑改变法律(或合法的)行为在一个变化的环境。

三世。在信贷应用领域,改变法律行为所展示的公共关系(如数量上升/下降的兄弟姐妹),可以由外部事件(如引入组织营销活动)。这意味着法律行为很难区分欺诈行为,但它将在本文后面,他们确实彼此区分开来。与应用程序检测系统需要的),运动则要谨慎反映公共关系。它还需要体谅某些外部事件。

iv。质量数据是高度的数据挖掘和数据质量可以提高通过实时删除数据错误(或噪声)。检测系统来过滤重复已重返由于人为错误或其他原因。它还需要忽略了许多冗余属性缺失值,和其他方面的问题。

三世。系统架构

系统架构描述如下

最初显示进入信用卡应用程序的GUI的细节,然后客户端接受系统的细节。客户端也提交一个新的应用程序。比较新的应用程序与现有的完成。然后CD和SD算法执行。后确定应用程序是否被接受是一个真正的应用程序。

图1演示了系统架构

四、方法

我们提出一个新的多层检测系统实时战斗身份犯罪,补充与另外两层:公共检测(CD)和峰值检测(SD)。

答:公共检测

公共关系是社会或家庭关系,如父子、兄弟、姐妹等公共的可用性检测可以用一个例子来解释。假设有两个信用卡应用程序相同的地址,固定电话号码、出生日期;与约翰·史密斯和其他琼·史密斯。名称;这个应用程序可以从三方面解释:-

1。这是一个诈骗犯试图获得多个信用卡使用附近复制数据。

2。可能他们是双胞胎生活在同样的房子,都是申请信用卡。

3所示。也可以是同一个人申请两次,并做了一个打字错误。

社区检测算法层检测欺诈行为从公共关系。占法律行为和数据错误,CD whitelist-oriented方法是一组固定的属性。白名单,一个应用程序之间的公共和self-relationships列表,是至关重要的,因为它减少了大量的这些法律行为和假阳性[1]。假阳性是一个错误在某些条件测试的评估过程是错误地发现被发现。

b .峰值检测

SD层补充CD层。加强CD通过提供属性权重反映的重要性程度的属性(如姓名、电话号码)。

c系统[8]的基本流程

步骤1:最初我们从用户输入一个新的应用程序。

步骤2:现在比较新的应用程序和其他应用程序在数据库和计算链接类型。链接类型只是一个二进制字符串(例如00101011),其中“1”代表匹配字段和“0”代表无与伦比的字段。

第三步:应用程序与无与伦比的领域弥补最初的白名单。的白名单列出验证应用程序链接类型,对应于一个特定的链接类型的应用程序的数量和重量。

下两个步骤是公用的检测和峰值检测。

步骤4:CD层

吗?新应用程序与应用程序在白名单找到公共应用程序之间的关系。

吗?如果四个或更多字段匹配那么CD记分少猜疑。

吗?其他应用程序添加到白名单。

第五步:SD层

吗?峰值检测验证字段匹配他们的优先级。惟一的ID字段给出更高的优先级。

吗?如果独特的id匹配那么可疑的分数会增加申请表是声明为欺诈,因此最终拒绝了。

吗?如果没有匹配的惟一id然后申请表格添加到白名单作为一个真正的人。

VI。应用程序模块

我注册和登录

这个模块便于验证各种用户,从而提供所选用户的系统。

二世。申请信用卡

这个特性将允许不同的用户申请信用卡使用不同的细节需要在应用程序中执行无效的应用场景。

三世。跟踪细节

所有应用程序的细节和用于检测跟踪机制。

四、更改密码

这个模块将促进改变密码的用户的细节。

诉程序验证

应用程序将使用欺诈检测分析技术来识别身份的冲突场景与系统和显示管理。

vi。应用程序接受

这将是一个管理模块显示系统中的冲突和最后允许管理员拒绝或接受这些应用程序。

七世。结果

答:真正的应用程序的数据集

数据集大量身份犯罪可以在私人和商业数据库包含信息收集的关于客户,员工,供应商和违反规则。同样的情况也出现在公众和政府监管数据库如出生、死亡、病人和疾病登记;纳税人,居民地址、破产和罪犯名单。降低身份犯罪,最重要的文本属性,如个人身份的名字,社会安全号码(SSN),出生日期(捐赠),必须使用和地址。

因此最高权重必须永久属性(SSN和捐赠等),其次是稳定的属性(如姓名和状态),和瞬态(或不断变化的)属性(如手机号码和电子邮件地址)。最重要的身份属性不同于数据库的数据库。在我们的系统中我们给了潘卡没有。(pan),许可没有(lno)和选民id (vid)最高的权重;如下图所示:-

和属性像手机和电子邮件得到相对较低的权重如下图所示:-

b .结果集

白名单是构造形式输入数据集和CD可疑分数分配给每个应用程序的公共检测算法。表显示了示例白名单由信贷应用在图3中。

峰值检测算法输出SD可疑的分数。CD和SD分数组合在一起给一个分数。SD更新CD属性的权重。最后计算链接类型后,CD可疑得分,得分多属性,系统给出了结果后应用程序接受或拒绝申请光盘& SD算法。

八世。结论

有弹性的身份犯罪检测;换句话说,实时搜索模式多层、有原则的方式,保障信贷申请信贷生命周期的第一阶段。

本文描述了一个重要的领域,有很多问题相关的其他数据挖掘研究。它记录了开发和评估数据挖掘层防线的一个实时信用欺诈检测系统中的应用。在这一过程中,本研究产生的三个概念(或“力量倍增器”),大大提高检测系统的有效性(牺牲一些效率)。这些概念是韧性(多层防御),自适应性(占改变欺诈行为和法律行为),和质量数据(实时的数据错误)。

这些概念是基本的设计、实现和评价所有的欺诈检测,adversarialrelated检测、和身份犯罪相关检测系统。CD和SD算法的实现是可行的,因为这些算法是为实际使用来补充现有的检测系统。然而,有局限性。第一个限制是有效性、可伸缩性问题,极端不平衡类,和时间约束决定重新平衡数据的使用。反对的观点则认为,在实践中,算法可以用明显更大的移动搜索窗口,链接类型的白名单和数量的属性。第二个限制是在展示自适应性的概念。在实验中,CD和SD更新每个时期后,它不是一个真正的评价作为骗子不有机会做出反应,改变他们的策略以应对CD和SD会发生,如果他们被部署在现实生活中(实验进行历史数据)。

第九。确认

我们感谢主Shrikant Kallurkar博士项目协调员迪帕莉。Maste教授和其他高级技术援助和能力的计算机部门反馈通过讨论我们的感谢我们的一些同事对这个项目的成功做出了贡献。

x未来的工作

未来工作可以提高系统的安全性,使一个安全交易基于阈值。基于这个事务应用程序可能被接受或拒绝。

数据乍一看


图1	图3	图4


图5	图6	图7

引用

凯特Smith-Miles,克利夫顿Phua,会员,IEEE高级会员,IEEE,文森特•李和罗斯·盖勒,“弹性CrimeDetection身份”,IEEE知识和数据工程,卷。24号3year 2012.

益百利。ExperianDetect:应用程序欺诈防范体系,白皮书,http://www.experian.com/products/pdf/experian_detect.pdf,2008年。

威滕·e·弗兰克,数据挖掘:实用机器学习与Java工具和技术。2000年摩根考夫曼。

a . w . Wong摩尔、g·库珀和m .瓦格纳,”贝叶斯网络异常检测DiseaseOutbreaks模式检测,“Proc。20国际会议。机器学习(ICML ' 03),第815 - 808页,2003年

w . Wong“早期疾病暴发探测数据挖掘,”博士论文,卡内基梅隆大学,2004。

戈登伯格,g·史慕丽,r . Caruana, s . Fienberg”早期的统计检测炭疽疫情通过跟踪Over-the-CounterMedication销售,“Proc。Nat国际科学院美国制造业(PNAS 02),卷99,没有。8,5237 - 5240年,2002页。

r·博尔顿和d的手,“无监督为欺诈检测分析方法,统计科学,17卷,没有。3、235 - 255年,2001页。

AniruddhaKshirsagar拉多尔,“认识到身份盗窃使用数据挖掘”,国际期刊的新兴技术和先进的工程(ISSN 2250 - 2459、ISO 9001:2008认证日报》卷4,问题4,2014年4月)

p . Brockett r . Derrig l .黄金a . Levine和m·阿尔珀特“RIDITs欺诈分类使用主成分分析,”TheJ。风险和保险,69卷,没有。3、341 - 371年,2002页

Mr.ShakadwipiAmolJ,教授。期票Kalavadekar”实时信用申请欺诈检测系统基于数据挖掘,“ThirdPost研究生研讨会上计算机工程由计算机工程系,MCERC Nasik cPGCON2014。

Bifet和r·科克比大规模的在线分析,技术手册,怀卡托大学,2009。

和a . r . Caruana Niculescu-Mizil”,在度量空间数据挖掘:监督学习性能标准的实证分析,“Proc。10日ACM SIGKDD如相依知识发现和数据挖掘(KDD ' 04), 2004年

p . Christen和k . Goiser”质量和复杂性措施数据链接和重复数据删除,“质量度量数据挖掘中,F。Guillet和h·汉密尔顿,eds。,43卷,施普林格,2007年