使用数据挖掘调查活动检测

桑托什S.Gurav¹s . r . Todmal教授²

学生,计算机工程系,JSPM帝国理工学院的工程与研究,Wagholi,印度浦那。
教授,计算机工程系,JSPM帝国理工学院的工程与研究,Wagholi,印度浦那。

通讯作者:SHARMA VIVEK,电子邮件:(电子邮件保护)

文摘

今天,各种各样的应用程序需要的能力监控细粒度数据的连续流的发生某些高级活动。许多电脑来自ATM网络、web服务器、和入侵检测systems-systematically跟踪所执行的每个原子动作,从而产生大量流*夯实观测数据,可能来自多个并发活动。在本文中,我们解决这个问题的有效检测等高级活动出现交叉数据流。这一重要问题的解决方案将大大受益范围广泛的应用程序,包括欺诈检测、视频监控、网络安全。我们定义算法插入和批量插入tMAGIC指数和显示,这可以有效地完成。我们还定义算法来解决两个问题:“证据”的问题,试图找到出现的所有活动(与概率阈值)在给定序列的观测,“识别”问题,试图找到最佳匹配的活动序列的观测。我们引入了复杂性减少限制和修剪策略,使问题的严重性是内在exponential-linear观测的数量。我们的实验证实tMAGIC时间和空间复杂性线性输入的大小,并可以有效地检索实例的监视活动。

关键字

活性检测、索引、随机自动机,乘以盖章数据,数据挖掘的应用。

介绍

有很多应用程序,我们需要监控是否某些(正常或异常)活动中发生一连串的交易数据。例如,网上商店可能要监控的活动发生在一个远程登录会话在其网站上以更好的帮助用户或识别用户从事可疑活动。公司提供安全在机场可能需要监视活动在行李认领处或在一个安全的一部分,停机坪上为了识别可疑活动。银行可能需要监视活动的自动柜员机出于类似的原因[2]。

我们认识到模型的活动可能是不确定的。我们很少能预测如何执行特定活动可能,尤其是大量的无关紧要的活动可能混杂在一起。因此,尽管早期的模型的活动是“肯定”什么构成了一个活动并使用逻辑方法或上下文无关文法,最近活动检测是基于图形模型,或者随机自动机的顶点对应可观测的原子事件[2]。

然而,大多数现有的随机活动识别工作有两个主要的局限性。首先,他们通常不占观测之间的时间与一个活动相关联。例如,图1显示了一个示例的在线账单支付活动[1]。

数据挖掘的过程

数据挖掘已经吸引了大量的注意力在信息产业和近年来社会作为一个整体。广泛可用的大量的数据和迫在眉睫的需要将这些数据转化为有用的信息和知识。

数据挖掘就是发现见解统计可靠的、先前未知的、可执行的数据(埃尔坎,2001)。这个数据必须是可用的,相关的,足够和清洁。同时,必须定义良好的数据挖掘问题,不能解决查询和报告工具,由数据挖掘过程模型(Lavrac等,2004)。这里欺诈是指盈利组织的系统的滥用而不一定导致直接的法律后果。在竞争激烈的环境中,欺诈可以成为业务关键的问题如果是非常流行和预防程序没有自动防故障装置。欺诈检测,作为整体的一部分欺诈控制、自动化和有助于减少手动部分筛选/检查过程。这个地区最成熟的行业/政府已经成为数据挖掘应用程序。是不可能绝对确定的合法性和意图在应用程序或事务。考虑到现实,最好的成本有效的选项是梳理出可能的欺诈证据使用数学算法从可用的数据。

进化从众多研究社区,尤其是来自发达国家,这些解决方案和软件的分析引擎是由人工免疫系统、人工智能、审计、数据库、分布式和并行计算、计量经济学、专家系统、模糊逻辑、遗传算法、机器学习、神经网络、模式识别、统计、可视化等。有很多专门的欺诈检测解决方案和software1保护企业,如信用卡、电子商务、保险、零售、电信行业。[4]

数据挖掘技术的好处[3]

•问题大型数据库可能包含有价值的隐含的规律,可以自动发现。

•与程序的应用,对传统手工编程太难了。

•软件应用程序定制个人用户的偏好,比如个性化的广告

有几个原因数据挖掘方法在这三个领域中发挥作用。首先,对安全事故的分类,大量的数据必须包含历史数据分析。人类很难找到一个模式在这样一个巨大的数据量。然而,数据挖掘似乎适合解决这个问题,因此可以用于发现这些模式。[3]

时间随机活动模型

文本挖掘和数据挖掘之间的区别是基于数据的来源。在文本挖掘中,基本上输入是数据挖掘的非结构化文件时输入的结构化数据。这意味着从非结构化文本中提取的模式是在数据挖掘、文本挖掘而使用结构化数据。

图1显示了一个示例流程建模法案付款时间随机活动在网上银行系统。用户将首先访问她的账户页面(goAccounts)和检查她的平衡(checkBalance)或继续直接向票据支付页面(goBillpay)。假设时间粒度的分钟,goAccounts及其继任者之间的边缘是解释为在例2.1中,例如,有一个0.5的概率checkBalance观察会发生在than1分钟和0.2的概率,它将发生在1 - 3分钟。剩下的活动需要用户选择一个帐户(selectSource),选择一个收款人(selectPayee),安排付款金额和日期(selectSchedule),最后确认转让(confirmTransfer)。在每个阶段的过程中,用户可以取消序列并返回到票据支付页面。

同时,必须定义良好的数据挖掘问题,不能解决查询和报告工具和由数据挖掘过程模型(Lavrac等,2004)。

这里欺诈是指盈利组织的系统的滥用而不一定导致直接的法律后果。在竞争激烈的环境中,欺诈可以成为业务关键的问题如果是非常流行和预防程序没有自动防故障装置。欺诈检测,作为整体的一部分欺诈控制、自动化和有助于减少手动部分筛选/检查过程。这个地区最成熟的行业/政府已经成为数据挖掘应用程序。是不可能绝对确定的合法性和意图在应用程序或事务。考虑到现实,最好的成本有效的选项是梳理出可能的欺诈证据可用数据使用数学算法。[2]

识别和证据问题

本节正式的证据和识别问题。不失一般性,我们假设观测都存储在一个关系的观察表,表示t 2 D D .每个元组对应于一个单一的观察,表示老师:观察者,观察到在给定的时间,表示老师:ts。当我们的框架是用于实时检测活动,我们建议的插入算法(4.1节)中描述流程收到每一观察,更新索引和存储观察表中的元组。相反,当先前的框架是用于检测活动获得的数据,我们的批量插入算法可以把所有的观察从表中元组和构建整个指数[2]。

此外,在某些应用程序中,每个观测可能与上下文相关信息(如IP地址,全名、空间位置),这可能有助于区分属于不同活动的观察事件。然而,我们不承担这些信息是可用的。例如,在入侵检测系统中,多个攻击者从事不同的活动,可能需要执行一些常见的步骤,他们似乎来自同一来源,如果它们使用代理来掩饰自己的真实身份。我们使用t:为观察元组t上下文来表示上下文信息,并提出限制两个元组被认为是同一活动的一部分发生只有当他们的上下文信息是“等价的。“注意,t:上下文通常可以用来表示给定谓词的结果评价t。

颞MULTIACTIVITY图索引

颞multiactivity图创建索引tMAGIC缩写。为了监视一个观察表出现的多个活动,我们第一次将所有时间活动定义合并到一个图。我们用来表示活动和IA的惟一标识符来表示[2]。

颞multiactivity图合并的随机活动。它可以以图形方式由标签与观察和边缘节点id包含他们的活动,以及相应的时间间隔分布。颞multiactivity图可以计算时间的多项式a .此外,大小的颞multiactivity图必须在构建索引之前只计算一次。图5显示了两个时间随机活动和相应的multiactivity图。

找到所有这不是可行的活动出现每个观察可能被认为是被连接到许多事情。然而,在现实世界中,每个元组可以由只有一个活动。找到所有可识别的活动出现因此不可行和不受欢迎的,因为它会导致识别的实例数量远远大于观察表中出现的实际数量。因此,我们定义什么是一个有效的合理的限制出现,以减少可能出现的数量。我们提出三个最小跨度的限制,最大概率,和最早的行动适用于大多数真实的场景。我们不主张这些限制的:很多人可以很容易地定义,根据应用程序的需求,增加了我们的框架。此外,我们将展示最重要的复杂性减少我们的框架是通过引入剪枝策略,利用。

提高时间和空间性能

我们现在提出两种修剪策略,提高的时间和空间性能tMAGIC指数,同时保证结果的正确性。第一个策略被称为时间修剪。这是基于这样的观察:“最近”记录的数量在一个tMAGIC指数,即。,those records whose corresponding observations still have a chance of being linked to a new one, is basically independent of the size of the observation table [2].

修剪时间:

修剪策略避免表扫描整个前任当大多数表中记录的不能与其他表,因为太长时间以来通过相应的观测,导致整体的概率是零。下列命题确保策略是正确的,分析结果的时间复杂度[2]。

使用数据挖掘技术滥用和异常检测[1]

误用检测使用监督学习:

误用检测方法,利用基于模型的监督方法的分类与标签训练模式[7]。培训模式是贴上正常或攻击。分类器训练后,可以进行分类或标签新标记模式。这些方法也能够发现先前已知的攻击良好的精度,但同时也有一些缺点。他们无法检测新兴威胁和训练数据的标签过程是昂贵和费时。

异常检测使用监督学习:

监督异常检测方法训练分类器与纯粹的“正常”标签模式。异常检测到(攻击)的一个子集作为重大偏离正常行为模型。这种方法的理由是正常的数据更容易获得比标记攻击一个纯异常探测器是无偏对于任何组pre-trained攻击,和,因此,它可能是能够检测全新的攻击。计数器参数是敌对活动出现类似于正常行为可能未被发现,它未能利用先验知识对许多已知的攻击,而且,到目前为止,纯假警报率异常检测系统仍然无法使用高。

误用检测使用无监督学习:

众所周知非监督学习不是基于预定义的训练数据集误用检测完成主要利用监督学习和无监督学习不是首选了误用检测。

应用程序

数据挖掘是一种最受欢迎的技术用于从大量的数据库中提取数据。和利用数据挖掘活动检测得到的靴子为其输出以下应用程序活动检测

1)安全应用程序:用于监测和分析活动转变,从电子商务的网站上买东西。[5]

2)银行应用程序:每家银行需要监控每笔交易由银行可能是网上银行的用户或自动取款机。

3)客户关系管理(CRM):文本挖掘也有用在客户关系管理(CRM)提供直接的常见问题的答案

4)活动检测也用于以下领域[6]

一。监控媒体微博活动或新闻活动等。

b。电信、能源和其他服务行业。

c。信息技术部门和互联网。

d。银行、保险和金融市场。

e。医药研究公司和医疗保健。

优点

•监测活动得到改善业务电子商务和管理用户异常检测和保护系统免受未经授权的任务。

•数据快速增长在任何组织一样,所以它不可能将这些数据存储在数据库由于其大小限制。所以大部分的组织存储数据以文本的形式。文本挖掘应用在数据模式的提取。[5]

缺点

•数据收集需要处理大量的非结构化文本数据挖掘。

•使用自然语言文本包含模棱两可,需要人工干预。

•分析非结构化文本,没有任何程序处理这对文本挖掘文本。

结论

本文研究的问题自动、高效地检测活动非常大的观察收集的数据库系统,如web服务器、银行和安全设施。

我们提出时间随机自动机模型感兴趣的活动和定义一个数据结构,称为颞多活动图,多个活动图合并在一起,使并发监控多个活动。我们介绍了时序多活动图索引,索引非常大量的时间从交叉活动的观察。

数据乍一看


图1	图2	图3

引用

A . m .艾博年r . Chellappa诉Moscato Picariello, V.S. Subrahmanian p . Turaga o . Udrea,限制人类活动检测概率PetriNet框架的视频,Ieee反式。8号多媒体,卷。10日,页。1429 - 1443年12月。2008年。

诺阿艾博年,安德里亚Pugliese V.S. Subrahmanian快速活动检测:索引时间StochasticAutomaton-Based活动模型,Ieee知识和数据工程,25卷,2号,2013年2月

克利夫顿Phua,文森特·李,凯特Smith &罗斯·盖勒一个全面的调查数据具有欺诈检测研究。

r . Chellappa n . p . Cuntoor s . w . Joo) v . s . Subrahmanian和p . Turaga事件:理解人类如何看,代表,AndAct事件。牛津大学出版社,2008年1月,Ch。计算视觉事件的建模方法。

a . m .艾博年诉Moscato Picariello, V.S. Subrahmanian, O。Udrea,检测随机安排活动视频,Proc。20 Int L联合会议。人工智能(Ijcai 07年展出),页。1802 - 1807年,2007年1月。

Www.Ise.Bgu ~ Hanj / Pdf

En.Wikipedia.Org/Wiki/Data_Mining

国际期刊的创新在计算机和通信工程的研究