所有提交的EM系统将被重定向到网上投稿系统.作者被要求将文章直接提交给网上投稿系统各自的日志。

失忆时间序列数据流的视觉探索

Kaushal Chauhan1, Mukta Takalikar2
  1. 研究学者,计算机工程系,浦那计算机技术研究所,印度浦那
  2. 印度浦那计算机技术研究所计算机工程系副教授
有关文章载于Pubmed谷歌学者

更多相关文章请访问国际计算机与通信工程创新研究杂志

摘要

时间序列数据是一种面向时间的数据,其中每个数据项指的是一个特定的点,通常是在时间空间的连续实例中测量的。流数据是实时的,可能是大量的,快速的数据信息序列,以有序的项目顺序连续到达。已经进行了各种研究,重点是在批处理模式下处理的表示,并以几乎相同的可靠性可视化每个值。在许多领域,最近的信息比旧的信息更有用。我们称这种输入数据为失忆数据,因为它包含更大的数据分析价值。本文提出了一种新颖的动态失忆时间序列数据监测系统,采用滑动窗口和内存管理方法对数据流进行处理,利用加权移动平均算法对失忆数据进行汇总。最后阶段包括以动态折线图可视化的形式对失忆和汇总数据流进行可视化,并以快照的形式生成汇总数据报告,最终便于分析人员识别流时间序列数据背后的各种模式。

关键字

数据流,摘要,失忆,时间序列数据,可视化。

介绍

时间序列数据在科学、工程和商业中有着重要的应用。可视化通过利用人类的感知来帮助个人解释信息,并扩大视觉的心理特征。统计图形,最著名的时间-值对折线图,被大量用于检查单个或微小的时间序列集合[1]。然而,理解大量的时间序列数据仍然很困难。我们倾向于将大型系统管理作为一个站点,其中个人必须被迫在多个细节级别上感知大量时间序列信息,并参考经常不断变化的分组[2][3]。
托管托管服务的数据仓库将存储有关数万个物理和虚拟服务器的详细信息。对于每个系统,大型机负载和内存使用等参数通常记录为[4]。这些信息也可以被存档多年。系统管理员工应该准备好询问详细的信息,以满足个别客户的需求,同时保持对托管环境的全局状态[5]的认识。

相关工作

许多无限流算法在滑动窗口模型中没有明显的对应。例如,虽然在无限流中计算最大值是微不足道的,但在大小为N的滑动窗口中进行计算需要Ω (N)空间;考虑一个不增加的值序列,其中最大项总是在窗口向前移动时过期。因此,基本的问题是,当新项到达时,旧项必须立即删除,以便进一步处理[6]。
一般来说,面向时间的数据是与时间相关的数据。在另一种意义上,我们可以假设它是用时间戳生成的数据。当然,当用户需要选择或开发人员需要开发适用的可视化方法时,这种一般描述是不够的。实现交流和有效可视化的一个重要需求是考虑要给出的信息的特征,在我们的例子中,这些特征与时间维度显著相关。在几个工程领域,以及人工智能、数据处理、仿真、建模、数据库等,已经衍生出了各种按时制定的方法。存在许多消息类型提取和事件识别技术。这些技术中的大多数都是通过对日志文件进行两到三次扫描来生成消息类型,并通过一次扫描来识别使用消息类型[8]的事件。
为每个不同的标记使用正则表达式就是这些技术之一。这有一些缺点,例如它需要对系统有充分的了解,并且适合于包含很少不同事件的日志文件。由于我们的重点是日志分析,这种技术很有用,因为它简单,与其他技术相比花费的时间更少。
传统数据库用于需要持久数据存储和复杂查询的应用程序。通常,信息由一组对象组成,插入、更新和删除的频率低于查询。查询在输入后立即执行,因此答案反映了数据库的这种状态。由于前几年已经出现了一些不使用这种知识模型和查询范式的应用程序。相反,数据自然发生在序列流值的变化中;例如传感器数据、网络流量、货币报价、在线拍卖和交易日志,如互联网使用日志和电话记录[10][11]。
除了窗口抽样[14]之外,在子线性空间中计算滑动窗口查询的一种可能的解决方案是将窗口划分为称为基本窗口[12]的小部分,并且仅存储每个部分的概要和时间戳。当最老的基本窗口的时间戳过期时,它的概要将被删除,一个新窗口将被添加到前面,并增量地重新计算聚合。该方法可用于计算流之间的相关性[12],查找频繁出现的项[15],计算各种聚合[4][16]是对数据流执行的一些操作。
但是,一些窗口统计信息可能无法从一组概要中递增计算。对称哈希连接和类似的对称嵌套循环连接可以通过定期扫描哈希表(或整个窗口)并删除过期项来扩展到两个[19]或更多滑动窗口。有趣的权衡是,如果元组过期执行得太频繁,那么维护大型哈希表的成本就会很高。时间序列数据可以通过各种近似方法进行分析,[29]中描述的一些聚类技术提供了更好的分析方法,这些处理后的流可以通过各种可视化方法进行可视化,以表示面向时间的数据[30]。针对数据流[32][33]的不同属性,从可视化方法、变量类型、映射技术、维数等方面综述了相应的可视化方法。为了方便用户访问和分析,必须考虑到动态和交互式的视觉效果。[34]中简要描述和总结了目前存在的各种时间序列数据流可视化技术。

数学建模

图像
图像
图像
图像

成功:

汇总时间序列数据流。
动态图表形式的交互式图形流可视化。

失败:

时间序列数据流错误超过阈值级别。
图形内存缓冲区溢出
动态视觉滞后或反应缓慢。

仿真结果

本节提供时间序列可视化系统的性能和精度结果。
1.显示时间
图像
由图1可知:
要在图表上显示一个数据点,平均显示时间为1.2 ms。
随着数据点数量的增加,每个数据点的显示时间趋于稳定,不会增加。
2.处理时间
图像
从表1的数据中,我们可以得出预处理时间与流数据存在的序列数和窗口权值成正比。处理时间还取决于提供数据的时间间隔的数量和分析变量的数量;然而,层次结构级别的数量并不影响这一次。
性能已经测试了360000条记录和200+数据流的数据。
3.数据点绘制时间
图像
结论:
绘制的时间取决于要绘制的数据点的数量。
4.摘要准确
摘要的计算采用加权移动平均法和趋势指数平滑法。MAPE (Mean Absolute Percent Error)用于检测精度。MAPE %越少越准确的是总结。
图2显示了两种方法的对比分析。
图像
从上图中可以看出,加权移动平均具有MAPE <= 20%,因此提供了>= 80%的精度。
时间序列可视化系统采用加权移动平均可以提供80% ~ 98.5%的准确汇总。如果在前视界进行汇总,系统可以预测到达的数据点,准确率为>=75%。作者提到75%的准确结果是可以接受的[21]。
5.为可视化开发的用户界面:
开发了以下图表组件,以便用监视视图可视化正在监视的健忘症数据(图3和图4)。
图像
图像

结论及未来工作

运行时视图更新能力在许多系统中是缺乏的,因为这些系统提供的是静态的图表视图;相比之下,我们的系统是动态的,帮助用户进行视觉探索。累积功能是新的,在任何其他可视化系统中都没有。
有许多工具可以进行视觉探索;然而,我们的系统提供了在财务背景下进行总结的能力,这对业务分析师的决策非常有用。时间序列可视化系统通过数据预计算和分级存储,实现最短的显示时间。
数据流的汇总和数据点的积累是采用带趋势的加权移动平均来实现的,这种方法是预测技术的前提。该算法为系统默认算法,用户不能自行选择。该系统可为预测算法的选择和结果的比较提供方便。
该系统未来的方法将是在各种便携式设备上传输视觉,如移动电话、平板电脑、台式电脑和个人电脑。

鸣谢

第一作者对他的项目经理Dinesh Apte表示感谢,感谢他在硕士论文这一部分的学习过程中提出的有用的意见、评论和参与。本研究由SAS研究与发展(印度)有限公司赞助。

参考文献

  1. Aggarwal, Charu C.编,《数据流:模型和算法》。31卷。施普林格,(2007)。
  2. 阿拉比,菲普斯和劳伦斯·j·休伯特。组合数据聚类和分类概述。(1996)。
  3. 芭芭拉,丹尼尔。“聚类数据流的需求。”ACM SIGKDD探索通讯3,Vol. 2, pp. 23-27,(2002)。
  4. 巴布科克,布莱恩,马尤尔·达塔尔,拉吉夫·莫特瓦尼,还有利亚丹·奥卡拉汉。“在数据流窗口上维护方差和k中值。”第22届ACM SIGMOD-SIGACT-SIGART数据库系统原理研讨会论文集,234-243页。ACM,(2003)。
  5. 陈宜鑫和李图。“基于密度的实时流数据聚类。”第13届ACM SIGKDD知识发现和数据挖掘国际会议论文集,第133-142页。ACM,(2007)。
  6. Gama Joäao, Mohamed MedhatGaber编著。从数据流学习:传感器网络中的处理技术。施普林格,(2007)。
  7. 伽马,若昂,佩德罗·佩雷拉·罗德里格斯,爱德华多·j·斯皮诺萨和André卡洛斯·庞塞·莱昂·费雷拉·德·卡瓦略。从数据流中发现知识。伦敦:Chapman & Hall/CRC,(2010)。
  8. 法亚德,乌萨马,格雷戈里·皮亚茨基-夏皮罗和帕德瑞克·史密斯。从数据挖掘到数据库中的知识发现AI杂志第17期,no。3,(1996)。
  9. Guha, Sudipto, Adam Meyerson, Nina Mishra, Rajeev Motwani和Liadan O'Callaghan。聚类数据流:理论与实践《知识与数据工程》,IEEE会刊第15期。3, pp. 515-528,(2003)。
  10. Golab, Lukasz和M. Tamer Özsu。“数据流管理方面的问题。”ACMSigmod记录32,no。2, pp. 5-14,(2003)。
  11. 任嘉栋,马瑞清。“基于密度的数据流聚集在滑动窗口上。”《模糊系统与知识发现》,2009。FSKD ' 09。第六次国际会议,第5卷,第248-252页。IEEE,(2009)。
  12. 周,奥英,曹峰,钱维宁,车清津。“通过滑动窗口跟踪不断变化的数据流中的集群。”知识与信息系统15,no。2, pp. 181-214,(2008)。
  13. 朱云跃和丹尼斯莎莎。“Statstream:实时监控成千上万的数据流。”第28届超大数据库国际会议论文集,第358-369页。VLDB捐赠基金,(2002)。
  14. Keogh, Eamonn, Selina Chu, David Hart和Michael Pazzani。一种用于分割时间序列的在线算法《数据挖掘》,2001年。2001, IEEE国际会议论文集,第289-296页。IEEE,(2001)。
  15. 巴布科克,布莱恩,马尤尔·达塔尔和拉吉夫·莫特瓦尼。“从流动数据上的移动窗口进行采样。”离散算法第十三届ACM-SIAM年度研讨会论文集,第633-634页。工业与应用数学学会,(2002)。
  16. Golab, Lukasz, David DeHaan, Erik D. Demaine, Alejandro Lopez-Ortiz和J. Ian Munro。“在在线信息流的滑动窗口中识别频繁项目。”第3届ACM SIGCOMM互联网测量会议论文集,第173-178页。ACM,(2003)。
  17. Boehm, b.w.,“软件风险管理:原则和实践”,软件,IEEE, 1991年1月,第8卷,第1期,第32-41页,(1991)。Roger S. Pressman,软件工程-从业者方法,第6版(1992)。
  18. Datar, Mayur, Aristides Gionis, Piotr Indyk和Rajeev Motwani。“在滑动窗口上维护流统计数据。”SIAM计算杂志第31期,no。6, pp. 1794-1813,(2002)。
  19. 吉本斯,菲利普B和斯里坎塔·提塔普拉。“滑动窗口的分布式流算法。”第14届ACM年度并行算法和体系结构研讨会论文集,第63-72页。ACM,(2002)。
  20. 威尔舒特,安妮塔·N.和彼得·MG·阿珀斯。并行主存环境中的数据流查询执行。分布式和并行数据库1, pp. 103-128,(1993)。
  21. Kang, Jaewoo, Jeffrey F. Naughton和Stratis D. Viglas。“在无界流上计算窗口连接。”《数据工程》,2003。第19届国际会议论文集,第341-352页。IEEE,(2003)。
  22. Golab, Lukasz和M. Tamer Özsu。在数据流上的连续查询中处理滑动窗口多连接。第29届超大数据库国际会议论文集,第29卷。VLDB基金,(2003)
  23. Koski, Antti, MarttiJuhola和MerikMeriste。有限自动机对心电信号的句法识别。模式识别28.12,(1995)。
  24. 弗林斯著,H. J. L. M. M. H. G.费尔海根,亨克B.韦尔布鲁根著。“使用时间扭曲的心电分割。”《智能数据分析的进展》,第275-285页。施普林格柏林海德堡,(1997)。
  25. 瞿,Y。,c & Wang美国“支持快速搜索时间序列的运动模式在倍数尺度。”第七届信息与知识管理国际会议论文集(1998)。
  26. 王,常州,和x·肖恩·王。“通过近似,支持基于内容的时间序列搜索。”《科学与统计数据库管理》,2000年。第十二届国际会议论文集,第69-81页。IEEE,(2000)。
  27. Shatkay Hagit和Stanley B. Zdonik。大型数据序列的近似查询和表示。数据工程,1996。第十二届国际会议论文集,第536-545页。IEEE,(1996)。
  28. Park, Sanghyun, Dongwon Lee和Wesley W. Chu。“长序列数据库中相似子序列的快速检索。”《知识与数据工程交流》1999。(KDEX'99)论文集。1999年研讨会,第60-67页。IEEE,(1999)。
  29. Keogh, Eamonn, Kaushik Chakrabarti, Michael Pazzani和Sharad Mehrotra。大型时间序列数据库中快速相似度搜索的降维方法。知识与信息系统3, pp. 263-286,(2001)。
  30. 帕尔帕纳斯,忒弥斯,米歇尔·弗拉科斯,埃蒙·基奥和迪米特里奥斯·古诺普洛斯。使用用户定义的失忆函数进行时间序列汇总《知识与数据工程》,IEEE汇刊第20期,no。7, pp. 992-1006,(2008)。
  31. 席尔瓦,乔纳森·A,伊莱恩·r·法里亚,罗德里戈·c·巴罗斯,爱德华多·r·赫鲁什卡,André CPLF德·卡瓦略,João伽马。“数据流聚类:调查。”ACM计算调查(CSUR) 46, no。1(2013)。
  32. 艾格纳,沃尔夫冈,西尔维娅·米克斯,沃尔夫冈·穆勒,海德润·舒曼和克里斯蒂安·托明斯基。“分析面向时间的数据的可视化方法。”可视化与计算机图形学,IEEE会刊第14期,no。1, pp. 47-60,(2008)。
  33. Kaushal Chauhan, Mukta Takalikar, Dinesh Apte。时间序列数据流的可视化。在国际计算机科学与软件工程高级研究杂志(ijarsse),第3卷,pp. 879-891, 2013年12月。
全球科技峰会