所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

回顾在动态网络的稳定的关系模式挖掘

SushamaPatil
打开学者,部门的计算机工程、GHRCEM Wagholi,印度浦那
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

动态网络作为伟大的手段表示行为的变化数据来自几个复杂的系统。发生复杂的实体之间的关系分析了这些网络在指定时间内稳定的发现这些实体之间的关系模式。这将有助于确定实体从一个状态转换到下一个和外部因素负责关系模式的改变。本文代表概述的所有数据挖掘技术可以用来分析实体之间的关系或状态随时间保持持久的动态网络。

关键字

动态网络,稳定的关系模式、持久、外部因素、派系、集群等。

介绍

动态网络通常是通过一个基于时间序列模型图。连续快照也使用网络在给定的时间间隔。实体、或节点在网络连接通过边缘,或链接也称为关系。最真实的网络本质上是动态的,因为他们不断地添加和删除节点和链接。因为它的灵活性和可用性的理论和应用工具,有效分析动态网络被用作通用的模型来表示各种实体之间的关系在不同的应用程序和捕获时间变化和底层数据的动态方面,。一些广泛使用的网络的例子包括广受欢迎的社交网站如Facebook,电子邮件网络和生物网络[1]。图被视为universaldata结构模型实体及其关系,因为所有常见的数据结构,向量,字符串和时间序列,可以表示成图。graphstructured数据的数量是不断增加在广泛的应用领域如生物信息学、医学、大型数据库管理和web日志分析。
有进化的数量和种类的数据存储和交换大量的信息在不同的应用程序。大多数最近的子图挖掘方法专用于静态网络的拓扑特征。但实际系统模型,往往时间组件必须被考虑,因为对象之间的关系在这里通常只发生在一段时间。因此,一个实际的模型必须考虑边缘将插入和/或删除。一个新的数据结构是导致称为动态图。动态网络灵活的捕获时间的变化,在这些应用程序表示实体之间的关系。数量的工具都可以在动态网络进行有效的分析。这种分析的网络可以提供重要的见解稳定的关系模式及其演变。

背景

当我们看到everythingaround我们以某种方式连接,形成链接,连接,或在一些理论图边缘。在过去的几年中许多算法被发现有助于提取图形的事实。图形模式挖掘发现显著的路径,树,子图,频繁的诱导子图[5],和派系在图形数据集。从图中得到的信息对解决许多有用的挑战在计算生物学等不同领域,化学信息学和通信网络。频繁的诱导子图挖掘用于生物信息学应用程序域检测组的功能与遗传因素[3]。树模式挖掘可以发现常见化合物的数据集的子树。Web access连杆轨迹模式让互联网服务提供商来预测经常访问的资源,应该被缓存。除了模式挖掘、聚类是另一种常用的数据挖掘技术应用于图。在社会图,聚类被用来确定高度一致截然不同的族群,如社区。在化学和生物信息学领域中,集群已经被证明非常有用的药物发现过程。 Clustering is often applied for grouping datasets where the items are graphs, rather than nodes in a large graph.
图挖掘算法大多是基于熟悉的关联规则挖掘,或频繁项目集的问题。频繁项集挖掘算法通常基于晶格或向下关闭属性的支持。这propertystates itemset不能频繁即使它的一个子集并不频繁。频繁项集挖掘算法指定所有频繁项集,有效地修剪搜索区域。在图挖掘方面,向下关闭翻译的频繁子图是只有在所有的频繁子图。大多数现有的图挖掘算法推广最新的频繁项集挖掘算法结构化数据。

文献调查

Kuramochi, M。Karypis, G。

“多年来,频繁项目集发现算法被用来在各种应用领域找到有趣的模式。然而,随着数据挖掘技术被越来越多地应用于非传统领域,现有的频繁模式发现方法不能使用。假设这是因为交易框架,通过这些算法不能有效地使用模型在这些领域的数据集。另一种建模对象的方法在这些数据集是代表那些使用图表。在这个模型中,制定频繁模式发现的问题的一个方法是发现频繁出现的子图的整个图形。他们提出一个计算有效的算法,称为最为,寻找所有频繁子图在大型图像数据集。他们通过实验评估的性能最为使用各种真实和合成数据集。我们的结果表明,尽管潜在的复杂性与频繁子图发现,最为有效地找到所有频繁子图发生在数据集包含超过200000图事务和尺度线性对数据集的大小。”

a . Chapanond m . s . Krishnamoorthy,日元

“分析识别社区和社交网络模型的进化一直是一个活跃的研究领域。分析了安然公司的电子邮件数据集发现组织内部的结构。分析是基于构建电子邮件图并研究其属性图理论和光谱分析技术。图理论分析包括几个图的计算指标如度分布、平均距离比,电子邮件图聚类系数和密实度。光谱分析表明,电子邮件邻接矩阵有一个2近似。结果表明,预处理的数据对结果产生重大影响,因此需要一个标准的形式建立一个基准数据。”

l·瑟夫·t·阮,j . Boulicaut

“几个算法,即Cumbeminern、三叠系和Data-Peeler,最近提出了矿山关闭模式的三元关系。他们认为这里的特定上下文表示一个三元关系图的邻接矩阵的值在不同的时间戳。然后,我们讨论了基于提取的模式在这种动态图。我们形式化的概念δ-contiguous 3-clique关闭,我们讨论一个完整的算法挖掘他们的可用性。它是基于枚举的专业化策略中实现数据——削皮器。事实上,集团结合相关性可以通过指定的约束可以有效地利用。的附加值战略评估一个真实的数据集公共自行车租赁系统。原始数据编码之间的关系租车站在一年。提取的δ-contiguous封闭3-cliques证明是符合我们的领域知识视为城市。”

j .贝聿铭j .汉b . Mortazavi-Asl h·平托,问:陈,新德里和m .许

“序列模式挖掘是数据挖掘的一个重要问题广泛应用。它具有挑战性,因为一个可能需要检查数量组合爆炸的可能的子序列模式。大部分以前开发的序列模式挖掘方法遵循的方法论先天可能大幅减少组合的数量检查。然而,先天仍然遇到问题时一个序列数据库是大型和/或当序列模式挖掘众多和/或长。摘要theye提出一种新的序列模式挖掘方法,称为前缀跨度(即。,Prefix-projected Sequential pattern mining), which explores prefix projection in sequential pattern mining. Prefix Span mines the complete set of patterns but greatly reduces the efforts of candidate subsequence generation. Moreover, prefix-projection substantially reduces the size of projected databases and leads to efficient processing. Their performance study shows that Prefix Span outperforms both the Apriori-based GSP algorithm and another recently proposed method, Free Span, in mining large sequence databases.”

b . Wackersreuther p . Wackersreuther a·奥斯瓦尔德c·b·欧姆和k . Borgwardt

“在许多应用领域,利用图模型实体及其关系,和图挖掘检测模式在这些关系是很重要的。虽然最近的大多数数据挖掘技术处理静态图,不随时间变化,近年来越来越多的出现的时间序列图。本文定义一个小说框架执行频繁子图指出发现在动态网络。特别是,我们正在考虑动态图形边缘边缘插入和删除。现有的子图指出挖掘算法可以很容易地集成到我们的框架让他们处理动态图。最后,一个广泛的实验评价大量现实案例研究证实了我们的方法的实际可行性。”

算法

动态图是用来表示实体之间的关系随时间而变化。有意义的模式在这些结构化数据必须捕获强相互作用以及它们的进化。在社交网络上,这样的模式可以被视为动态社区结构,即。,集个人反复强烈相互作用。

基于采矿方法:

在这种方法的时间演化模式是被关联时间事件类型每个确定子图发现进化模式[2]。这使用了一个新的算法,发现子图的时间序列图增量。这认为evolving-pattern矿业动态图和问题提出了五种新模式类型,依赖于两件事:首先,稠密子图的提取其次,识别他们的进化。五种基本时态事件使用是:形成、终止、增长、降低和稳定的子图从一个时间戳。
这个任务分为局部到全局框架:本地模式是首先开采在静态图;然后他们加上一个在前面的图中提取,形成演化模式。这些模式定义的约束EVOLVING-SUBGRAPHS所使用的算法。以这种方式都有效的矿山发展模式,满足约束。基于挖掘算法优势的约束来修剪搜索空间的巨大部分不能包含有效的模式。

DFS算法:

在许多应用程序中,图挖掘检测模式的关系是很重要的。虽然最近的大多数数据挖掘技术处理静态图,不随时间改变。如今有越来越多的时间序列图。小说框架提出了执行频繁子图发现在动态网络[4]。
动态频繁subgraphdiscovery可以分两步进行。联盟中的第一个算法寻找频繁子图的图的时间序列图。第二个结果静态搜索频繁动态模式的频繁子图。DFS算法提供了一个规范化表示基于稀疏邻接表的数据结构,并实现了一个广度优先枚举算法在动态网络发现频繁子图。主要考虑动态图形边缘边缘插入和删除。

基于关系挖掘方法:

一个新的动态图论关系挖掘方法也发展到学习结构模式在生物网络随时间变化[6]。动态网络的分析不仅是重要的理解生活在系统级,但也发现原始数据在其他结构模式。最新graphbased数据挖掘方法只注重静态图。这种方法分析的序列图和发现规则捕获之间发生的变化对序列图,有助于理解生物系统随时间变化的。两步算法:学习图重写规则和学习转换规则。第一个图重写规则学习算法在动态graphand代表两个顺序图是不同的。第二算法学习重复在智者图重写规则和转换规则描述了graphchanges如何随着时间的推移,在修订的变化实际上是表示成一个序列图。对两种算法之前开发的方法寻找最好的压缩子图使用一组图形。firstalgorithm,重复应用这种方法允许为了所有子图的集合共同一双consecutivegraphs。这种方法允许第二算法为了动态图的子图反复添加和删除。 A frequent subgraph miner is used for this purpose. As the quality and quantity of network and interaction data increases rapidly, the problem of effectively analyzing this data becomes significant. We can understand biological processes at a modular level by providing a framework for understanding cellular organization, functional hierarchy, and evolutionary conservation and using molecular interaction data.
MULE算法:
也是一个创新的新算法,矿业Unique-LabeledEdgesets(驴)用于检测常出现在生物网络模式和模块[10]。算法考虑了问题的计算可伸缩并大量网络通过一个创新的图形简化技术是基于直接同源收缩,适合生物网络。骡子是基于频繁项集提取发现频繁子图的图表。它考虑分子间相互作用的性质数据。现有配方基于同构的频繁子图提取遭受由于np困难问题规模的指数爆炸的采矿和子图同构问题。这些现存的方法相比,骡子子图同构问题,避免了重复解决赋权也保存的生物相关性识别模式。该算法利用递归子程序扩展edgesets频繁。

寻找周期或接近周期子图:

罕见,很难检测交互模式在一个社交网络,因为社会互动经常发生。识别这样的常规行为,附近的一个新采矿问题找到周期性或周期性的子图在动态社会网络[8]。这个问题的计算复杂性分析,表明,不同于任何相关的子图挖掘问题,它是多项式。实用、高效、可扩展的算法来找到这样的子图,考虑了不完美的周期性。高效、单次的挖掘算法动态网络中的所有封闭的周期性的子图。该算法是多项式时间算法和空间。
算法是一个模式树的基础。这种模式树保持所有的信息模式目前定期或在未来可能成为周期性的时间戳。读取每一个新的时间戳,模式树遍历和更新信息。任何模式不再定期刷新,和新周期可能创建模式。该算法保持两个数据结构:模式树和一个散列映射的子图。
有一些缺点现有的技术,如:
1。现有的技术只能检测在动态网络中频繁模式或遵循相关模式。
2。他们并不是设计来确定稳定的关系模式。
3所示。他们不关注跟踪保留关系模式的变化。
稳定的模式挖掘的应用如下:
1。它是有用的在矿业生化结构。
2。程序控制流分析可以确定使用稳定模式挖掘。
3所示。挖掘XML结构或网络社区也是可能的。
4所示。社交网站、电子邮件网络进行分析。

结论和未来的工作

本文概述的方法开采动态网络的稳定的关系模式。它还比较方法基于静态图挖掘与网络中使用的组件。在许多情况下,这两种算法导致类似的时间复杂度。许多新的算法似乎老在动态网络挖掘算法基础。两件事帮助生产有效的算法对某些挖掘任务是使用特定的数据结构,加快操作和极端修剪的搜索空间。我们还可以确定守恒的关系在动态网络理解实体从一个状态到另一个状态的变化。

表乍一看

表的图标
表1

引用

  1. d·博伊德和n .埃里森”社交网站:定义、历史和奖学金,“电脑仲介通信学报,13卷,没有。2007年10月11日。

  2. c . Robardet基于动态图模式挖掘,在IEEE ICDM pp.950955, 2009年。

  3. “寻找频繁模式在大型稀疏图,“数据挖掘和知识发现,11卷,没有。3、243 - 271年,2005页。

  4. m . Kuramochi g . Karypis,一个高效的算法发现频繁子图,IEEE TKDE, 16卷,不。9日,10381051,2004页。

  5. K M。Borgwardt H.-P。Kriegel, p . Wackersreuther“动态模式挖掘频繁子图”,IEEE ICDM。华盛顿特区,818 - 822年,2006页。

  6. B . Wackersreuther p . Wackersreuther a·奥斯瓦尔德c B欧姆,和k . Borgwardt频繁子图在动态网络,发现Proc. 8日研讨会的矿业和学习图形、pp.155162, 2010年。

  7. m . Lahiri和t . Berger-Wolf矿业周期行为动态社会网络,IEEE ICDM pp.373382, 2008年。

  8. m . Koyuturk y金苏,w . Szpankowski和a·格兰马草,检测守恒的交互模式在生物网络,计算生物学杂志》上,13卷,没有。7,12991322,2006页。

  9. m . Deshpande m . Kuramochi:条痕,g . Karypis substructure-based方法分类化合物频繁,“IEEE TKDE, 17卷,没有。8,1036 - 1050年,2005页。

  10. Chapanond、m . s . Krishnamoorthy和b .日圆”图理论和安然电子邮件数据的光谱分析,“第一版。数学。器官。没有理论,卷。11日。3、265 - 281年,2005页。

  11. l·瑟夫·t·阮,j . Boulicaut”发现相关cross-graph派系在动态网络,“智能系统的基础,513 - 522年,2009页。

  12. j .贝聿铭j .汉b . Mortazavi-Asl h·平托,问:陈,美国新德里和m .许”prefixprojected Prefixspan:挖掘序列模式的增长,”ICDE, 215 - 224页。(在线),2001年。

  13. B . Wackersreuther p . Wackersreuther a·奥斯瓦尔德c B“欧姆,k . Borgwardt”频繁子图在动态网络,发现“Proc. 8日研讨会的矿业和学习图表,第162 - 155页,2010年。

全球技术峰会