关键字 |
文本数据、非结构化数据,cybercriminal犯罪网络。 |
介绍 |
在许多刑事案件,计算机设备所拥有的怀疑,如台式电脑、笔记本电脑,智能手机,是法医发作的目标对象。这些设备不仅可以包含重要证据相关的案例进行调查,但他们也可能有重要的社交网络信息的嫌疑人,其他罪犯可能被识别。大部分收集数字证据的形式通常是文本数据,如电子邮件、聊天记录、博客、网页、文本文档。由于这些文本数据的非结构化性质,调查人员通常使用一些现有的架子上搜索工具来识别和从文本中提取有用的信息,然后手动输入有用片段到一个结构良好的数据库进行进一步调查。显然,本手册过程是繁琐和错误倾向;完整性的搜索和分析的质量很大程度上依赖于研究者的经验和专业知识。可能会错过重要信息犯罪打算隐藏它。 |
在本文中,我们提出一种数据挖掘方法发现刑事调查社区和提取有用信息从文本文档的集合从嫌疑人的机器。目的帮助调查人员有效地识别相关的信息从大量的非结构化的文本数据。该方法特别有用的早期调查时,调查人员可能很少了解。 |
相关工作 |
计算机设备由怀疑是意图对象法医痉挛,这些设备不包含重要证据与本案有关的其他罪犯可能被识别。大多数的形式收集的数据是文本文件,以电子邮件的形式,聊天记录,博客、网页、文本文档。 |
犯罪网络分析习惯从研究者的重视。一个不败的应用数据挖掘技术从大量的提取犯罪关系警察局的事件摘要。他们使用的同现频率来确定重量对罪犯之间的关系。杨和ng(2007)提出一个方法来提取犯罪网络的web站点提供博客服务通过使用一个特定主题探索机制。在他们接近,他们识别网络中的演员通过使用web爬虫程序(程序收集在线文档和暗示链接),搜索博客用户参与讨论一些有关犯罪的话题。网络建立之后,他们使用一些文本分类技术分析文档的内容。最后他们提出一个可视化的网络,允许一个概念网络视图或社交网络视图。我们的工作不同于这些作品在三个方面。 |
首先,我们的研究着重于非结构化文本数据从嫌疑人的硬盘,不是从数据库结构——警察。第二,我们的方法可以发现雄心勃勃的社区组成的任何大小,即。不限于对罪犯。第三,虽然大多数之前的工作重点确定直接关系,本文中提出的方法还可以确定间接关系。 |
一个犯罪网络社交网络原型。因此,用于社会网络分析的方法可以采用的犯罪网络。集群通常用于感知犯罪模式,加快行动。许多研究已经引入了各种方法来构造一个社交网络从文本文件。一个框架从文本文档中提取社交网络在网络上可用。方法基于社交网络对公司进行排序从网页中提取。这些方法主要依赖于web挖掘技术来寻找演员社交网络从web文档。 |
社交网络的另一个方向研究目标的一些特定类型的文本文档,如电子邮件。提出一个概率方法不仅可以识别社区邮件还提取使用语义关系信息标签的关系。然而,该方法只适用于电子邮件和网络中的演员仅限于作者和收件人的电子邮件。在知识发现领域的研究人员提出的方法来检查条款之间的关系在法医上下文的文本文档。概念关联图论方法寻找最佳证据跨一组文件,连接两个给定的主题。通过研究,他们提出了开放和封闭发现算法来提取证据文档中出现的两个主题之间的路径设置,但不一定在同一个文档。打开发现方法来搜索用户提供的关键字并返回包含其他不同但相关的主题的文档。他们进一步聚类技术应用于排名结果和现在的用户提供集群概念上相关的新信息初始查询条件。他们打开发现方法从网上搜索小说概念之间的联系与改善的目标web查询的结果。相比之下,本文侧重于从文本文件中提取信息进行调查。 |
算法 |
答:社区发现从非结构化的文本数据 |
一些社交网络分析工具可用于支持调查人员犯罪网络分析。然而,这些工具通常认为输入是一个结构化的数据库。所以,结构化数据通常不是在现实生活中调查。相反,可用的输入通常是一个非结构化的文本数据的集合。我们的第一个贡献是提供一个端到端解决方案来自动发现、分析和可视化犯罪社区从非结构化的文本数据。 |
引入知名社区的概念。 |
在本文的上下文中,两个或两个以上的人组成一个社会如果他们的名字出现在至少一个调查文档。社区是突出如果相关的名字经常出现在一些最小数量的文件,这是一个用户指定的阈值。我们提出一个方法来发现所有知名社区和测量在这些社区成员之间的亲密关系。衡量社区之间的亲密关系聚类技术用于帮助识别评价重心位置和侧面的距离。 |
假设c代的间接关系。 |
著名的哲学社区和便利其成员国拘留之间的直接关系调查文件中确定的人。我们最近的研究工作提供了一个前奏的直接关系。在许多情况下,间接关系也很有趣,因为他们可能揭示埋的关系。例如,a和b是间接相关的如果他们有提到一个会议在酒店x在写电子邮件,即使他们可能没有任何直接通信。我们提出一个方法来生成所有间接关系假设最大,用户指定,深度。4所示。可伸缩的计算。 |
著名的社区和亲密的计算研究文本文档集是不平凡的。幼稚的方法是枚举所有2 juj组合社区和扫描文档设置为确定突出社区和亲密,juj是独特的个人姓名的数量确定在输入文档集。该方法通过有效地修剪来实现可伸缩的总计非突出社区和检查的亲密的可以突出。我们方法的可扩展性支持实验后果。这样做可以提高效率和减少错误也可以协助警方工作,使调查人员分配他们的时间到其他有价值的差事。 |
伪代码 |
步骤1:让D是一组文件。 |
第二步:让你在D是一组不同的名称 |
步骤3:让C4U知名社区和p˛(U ?C)是一个人的名字不是C。 |
第四步:让D表示文档的集合包含封闭参数,封闭的参数可以是一个社区,一个个人的名字,或一个文本。 |
第五步:让D (C)和D (p)在D组文件包含C和p,分别。一种间接的关系 |
深度d C和p之间被定义为一系列的条款(t1,。,td]这样 |
D (C) X D¼(p) |
ðt1˛DðCÞÞ^ðtd˛DðpÞÞ |
ðtr˛Dðtr吗?1ÞÞ^ðtr˛Dðtrþ1ÞÞ for 1 < r < d |
D (tr吗?1)X D (trþ1)¼ |
1 < r < d |
第六步:结束。 |
条件(1)要求突出社区C和个人姓名p不共现的任何文档。条件(2)指出,第一项t1must发生在至少一个文档,其中包含C和上学期必须发生在至少一个文档,其中包含p。条件(3)要求中间条款与前面的词共现至少有一个文档,必须与下一项共现1快乐至少一个文档。这个需求定义文档链接链C和p。条件(4)要求前一项和下一项不同时出现在任何文档。间接关系的问题假设一代正式定义如下:让D是一组文本文档。让你的独特的个人姓名中确定D让G组突出社区发现根据定义3.2 D。间接关系的问题假设一代是识别所有间接关系的最大深度max_depth任何突出社区之间C˛G和任何个人的名字在D p˛U, max_depth指定的正整数的阈值。 |
仿真结果 |
该算法用MATLAB实现。获得的数据集文件系统包含40 GB的文件从第一作者的个人电脑。随着最小支持度阈值的增加,雄心勃勃的社区的数量迅速减少,因为文档包含所有成员在一个社区的数量迅速减少。接下来,我们权衡我们建议的方法通过测量它的运行时的可伸缩性。评价con -导管在PC与英特尔3 GHz Core2双核3 GB内存,对文档集的大小变化从10 GB到40 GB min_sup¼8。这个项目需要1430年代完成40 GB的数据,整个过程不包括所花费的时间从硬盘读取文档文件。如图,总运行时间是由著名的社区发现过程。间接关系的运行队列和幻觉程序是微不足道的总运行时间。 |
结论和未来的工作 |
我们提出一个方法来发现和分析犯罪网络调查文本文档的集合。犯罪网络分析以往的研究主要集中在分析罪犯结构化警方数据之间的联系。由于广泛讨论与数字取证团队的执法单位,我们引入了雄心勃勃的犯罪社区的概念和一种有效的数据挖掘方法高架桥提取犯罪网络信息的差距和非结构化文本数据。此外,我们提出的方法可以发现两个直接和间接犯罪社区成员之间的关系。开发的软件工具已经被一个有经验的犯罪调查员和评估未来的工作可以集中在预测犯罪网络使用基于密度的方法,以浓缩缺失值。 |
数据乍一看 |
|
|
图1 |
图2 |
|
|
引用 |
- Agrawal R, Imieli吗?nski T,阁下。,Mining association rules between sets of items in large databases. ACM SIGMOD Record 1993;22(2):207–16.
- Fung BCM Al-Zaidy R,约瑟夫。对发现犯罪社区从文本数据。:Proc.第26届ACM SIGAPPsymposium应用计算(SAC);2011年。台中,台湾。
- 陈H,钟W,徐JJ,王G,秦Y,洲m .犯罪数据挖掘:一般框架和一些例子。计算机2004;(4):37 50-6。
- 小芬克尔,Grenager T,曼宁c将非本地信息纳入信息提取系统吉布斯抽样。:Proc。the43rd年会的计算语言学协会(ACL);2005年。p . 363 - 70。
- fiedl的用于检查电子邮件地址中。掌握正则表达式。第三。O ' reilly媒体;2006年。Geobytes Inc . Geoworldmap, http://www.geobytes.com/;2003年。
- 寄Getoor L CP。链接挖掘:一项调查。ACM SIGKDD探索简报2005;7 (2):3 - 12。
- 希望T, T西村,武田h .社交网络集成方法提取。第十五届国际会议:Proc。万维网(WWW);2006年。845 - 6页。
- 金W,斯里赫里RK, HH。文本挖掘模型假设的一代。:Proc。19 IEEE国际会议上与人工智能ICTAI工具;2007年。p . 156 - 62。
- 金Y, Y松尾,不能m .排名公司在网络上使用社会网络挖掘。:Ting IH吴HJ编辑器。Web miningapplications服务。研究计算智能。
|