所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

视觉探索失忆症时间序列数据流

Kaushal Chauhan1,Mukta Takalikar2
  1. 研究学者、计算机工程系、普纳计算机技术研究所、印度浦那
  2. 计算机工程系副教授,浦那计算机技术研究所、印度浦那
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

时间序列数据是面向数据,每个数据项是指一个特定的时间点测量通常在连续情况下空间。实时流媒体数据,潜在的大规模、快速的序列数据信息不断到达项目的有序序列。各种研究进行了重点以批处理模式处理和可视化表示每个值几乎相等的可靠性。在许多领域最近的信息比老年人更有用的信息。我们称之为失忆症等传入的数据作为数据分析它包含更大的价值。论文提出了一个新颖的系统监控流失忆的时间序列数据,处理数据流采用滑动窗口和内存管理方法,总结了失忆症的帮助下数据加权移动平均算法。最后阶段包括可视化失忆症和总结数据流的形式动态折线图可视化和生成的报告总结数据快照,最终促进分析师识别不同模式底层流时间序列数据。

关键字

数据流,总结,失忆症,时间序列数据,可视化。

介绍

时间序列数据是极其用于科学、工程和业务。可视化有助于个人解释信息利用人类感知和视觉效果的心理特征。统计图形,尤其是线图表的时间价值对,主要是用于检查个人或小组时间序列[1]。然而,了解大量的时间序列数据的集合仍然艰难。我们倾向于精英大型系统管理作为网站无论个人必须被迫感知大型组时间序列信息在不同层次的细节和参照经常不断变化的组织[2][3]。
数据仓库管理托管服务将存储成千上万的物理和虚拟服务器的详细信息。对于每一个系统,参数如主机负载和内存使用经常登录[4]。这些信息也可以为多个年存档。系统管理的员工都应该准备好问题阐述了信息参加个人客户的希望,而维护管理的意识环境的全局状态[5]。

相关工作

许多无限流算法没有明显的滑动窗口模型中的同行。例如,计算无限流的最大价值是琐碎的,这样做在一个滑动窗口大小为N需要Ω(N)空间;考虑无添加值的序列,其中最大的项目总是过期当窗口往前移动。因此,最根本的问题是,随着新的项目到老项目必须立即删除[6]进行进一步的处理。
一般面向数据的时间是与时间有关的数据。在另一种意义上我们可以假定它是生成的数据的时间戳。当然,这个一般描述不是足够一旦用户需要选择或开发人员需要开发适用的可视化方法。实现交际的重要需求和有效的可视化是考虑信息的特点,这在我们的例子中,随着时间的维度显著相关。各种方法已经得到关于制定准时在几个领域的工程,以及人工智能、数据处理、模拟、造型、数据库和更多的[7]。存在许多消息类型提取和事件识别的技术。这些技术使两到三个扫描日志文件生成消息类型和一个通过使用这个信息来确定事件类型[8]。
使用正则表达式为每个不同的令牌是这些技术之一。这有一些缺点,如需要完整的知识系统和适合日志文件包含几个不同的事件。作为我们的重点是日志分析这种技术是有用的,因为它很简单,花更少的时间比其他技术[9]。
利用传统的数据库应用程序,需要持久数据存储和复杂的查询。通常,信息包含一个对象集合,插入,更新和删除经常出现低于查询。查询执行一次输入,因此答案反映了这个国家的数据库。自从前几年已经观察到应用程序的出现不工作该知识模型和查询模式。相反,数据自然发生在各种各样的序列流值;例子接受传感器数据,网络流量,资金行情、在线拍卖、和事务日志像互联网使用日志和电话记录[10][11]。
除了有窗的抽样[14],一个可能的解决方案来计算滑动窗口查询子线性空间中把窗口分成一小部分称为基本windows[12],只存储每个部分的简介和一个时间戳。最古老的基本窗口的时间戳过期时,它的剧情简介,一个全新的窗口添加到前面,和总增量重新计算。这种方法可用于计算流[12]之间的相关性,发现经常出现项目[15],并计算各种骨料[4][16]的一些操作上执行数据流。
然而,一些窗口数据可能不是增量可计算的梗概。对称的散列连接和一个类似的对称嵌套循环联接操作可以延长超过两个[19]或滑动窗口通过周期性地对哈希表扫描(或整个windows)和删除过期物品。有趣的权衡中出现大的哈希表是昂贵的维护如果元组执行过期太频繁[20]。时间序列数据可以通过应用各种近似方法,分析[29]中所述的一些集群技术提供更好的方法来分析和处理后这些(数据)流可以通过各种视觉可视化方法代表了时间的数据[30]。适当的可视化方法可以应用的基础上,综述了可视化方法等各个方面类型的变量映射技术,参照不同维度的属性数据流[32][33]。动态和交互式可视化必须在考虑用户很容易访问和分析的目的。时间序列数据流的各种可视化技术存在至今简要描述和总结[34]。

数学建模

图像
图像
图像
图像

成功:

总结了时间序列数据流。
交互和图形流可视化动态图表的形式。

失败:

错误的时间序列数据流超出阈值水平。
图形内存缓冲区溢出
动态视觉滞后或反应缓慢。

仿真结果

本节提供的性能和精度结果时间序列可视化系统。
1。显示时间
图像
从图1中,我们得出:
图表显示数据点,显示平均时间是1.2毫秒。
随着数据点数量的增加,每个数据点的显示时间稳定,不增加。
2。处理时间
图像
从表1中的数据,我们得出这样的结论:预处理的时间成正比系列的数量和重量的窗口流数据。处理时间也取决于数量的时间间隔数据分析变量的存在和数量;然而许多层次水平并不影响。
性能测试了360000条记录的数据为200 +数据流。
3所示。数据点绘制时间
图像
结论:
策划的时间取决于将要绘制的数据点的数量。
4所示。摘要准确
加权移动平均、指数平滑法用于计算总结趋势。日军(平均绝对百分比误差)是用于检测的准确性。总结的日军%更准确更少。
图2显示了比较分析的方法。
图像
从上面的图表,可以看出加权移动平均有日军< = 20%,从而提供> = 80%的准确率。
时间序列可视化系统采用加权移动平均能够提供80%至98.5%准确的总结。如果总结在地平线上,系统可以预测准确的到达的数据点> = 75%。作者提到,75%准确的结果是可接受的[21]。
5。可视化的用户界面开发:
下面的图表组件开发可视化一个失忆的数据与监测监控视图(图3和4)。
图像
图像

结论和未来的工作

运行时视图更新能力缺乏许多系统,因为这些系统提供的静态视图图;相比之下我们的系统是动态的,帮助用户在视觉探索。积累功能是新的和在任何其他可视化系统。
许多工具存在视觉勘查;但是我们的系统提供了功能总结金融环境将是非常有用的业务分析师的决策。时间序列可视化系统提供最小的显示时间数据并不是预先计算和分层存储。
总结的数据流和积累的数据点是使用加权移动平均等趋势,实现方法是预测技术的先决条件。这是默认的算法所使用的系统和用户不能选择要使用的算法。系统可以增强提供设施选择预测算法和比较结果。
未来系统的方法将流视觉上各种便携式设备如手机、平板电脑、台式电脑和个人电脑。

承认

第一作者表达感激他的项目经理迪的利润率为有用的评论,评论和参与通过硕士论文的学习过程的一部分。这项研究是由SAS研发(印度)分公司。

引用

  1. Aggarwal, Charu C。,ed. Data streams: models and algorithms. Vol. 31. Springer, (2007).
  2. Arabie、菲普斯和劳伦斯·j·休伯特。“组合数据聚类和分类的概述”。(1996)。
  3. 芭芭拉,丹尼尔。“聚类数据流要求。”ACM SIGKDD Explorations Newsletter 3, Vol. 2, pp. 23-27, (2002).
  4. 巴布科克、脑、MayurDatar, Rajeev Motwani Liadan奥卡拉汉。“维持方差和k-medians数据流窗口。”In Proceedings of the twenty-second ACM SIGMOD-SIGACT-SIGART symposium on Principles of database systems, pp. 234-243. ACM, (2003).
  5. 陈,鑫和李图。“Density-based集群实时流数据”。In Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining, pp. 133-142. ACM, (2007).
  6. 伽马、Joaao Mohamed MedhatGaber eds。学习从数据流:在传感器网络处理技术。施普林格,(2007)。
  7. 伽马,若昂,佩德罗·佩雷拉罗德里格斯,爱德华多·j·、和安德烈·卡洛斯·庞塞莱昂费雷拉·德·卡瓦略。知识发现fromdata流。伦敦:查普曼&大厅/ CRC (2010)。
  8. 法亚德,奥萨马,格里高利Piatetsky-Shapiro Padhraic史密斯。“从数据挖掘在数据库知识发现。”AI magazine 17, no. 3, (1996).
  9. 安德森·古Sudipto,亚当,尼娜Mishra, Rajeev Motwani, Liadan奥卡拉汉。“聚类数据流:理论与实践”。Knowledge and Data Engineering, IEEE Transactions on 15, no. 3, pp. 515-528, (2003).
  10. Golab、卢卡斯和m . Ozsu降服。数据流管理”问题。32岁的“ACMSigmod记录没有。2为5 - 14页。(2003)。
  11. 任,Jiadong Ruiqing马。“Density-based滑动窗口的数据流聚类。”In Fuzzy Systems and Knowledge Discovery, 2009. FSKD'09. Sixth International Conference on, Vol. 5, pp. 248-252. IEEE, (2009).
  12. 周,奥盈丰曹,威宁钱,CheqingJin。“跟踪集群演化数据流滑动窗口。”Knowledge and Information Systems 15, no. 2, pp. 181-214, (2008).
  13. 朱、Yunyue和丹尼斯沙沙村。“Statstream:成千上万的统计监测实时数据流。”In Proceedings of the 28th international conference on Very Large Data Bases, pp. 358-369. VLDB Endowment, (2002).
  14. 朱伊蒙·基奥,塞琳娜大卫·哈特和迈克尔Pazzani。“网上对时间序列分割算法。”In Data Mining, 2001. ICDM 2001, Proceedings IEEE International Conference on, pp. 289-296. IEEE, (2001).
  15. 巴布科克,布莱恩,MayurDatar, Rajeev Motwani。“抽样流数据从一个移动的窗口。”In Proceedings of the thirteenth annual ACM-SIAM symposium on Discrete algorithms, pp. 633-634. Society for Industrial and Applied Mathematics, (2002).
  16. Golab,卢卡斯·大卫·DeHaan埃里克·d·Demaine Alejandro Lopez-Ortiz, j .伊恩·芒罗。“确定滑动窗口内频繁项的在线数据包流。”In Proceedings of the 3rd ACM SIGCOMM conference on Internet measurement, pp. 173-178. ACM, (2003).
  17. Boehm, B.W.,“Software risk management: principles and practices”, Software, IEEE, Jan 1991, Vol. 8, Issue 1, pp. 32-41, (1991). [18] Roger S. Pressman, Software Engineering – A practitioners Approach, 6th Edition (1992).
  18. 塔尔、Mayur,阿里司提戴斯Gionis,彼得亚雷迪克,Rajeev Motwani。“维护流统计滑动窗口。”SIAM Journal on Computing 31, no. 6, pp. 1794-1813, (2002).
  19. 吉本斯,菲利普·B。,and SrikantaTirthapura. "Distributed streams algorithms for sliding windows." In Proceedings of the fourteenth annual ACM symposium on Parallel algorithms and architectures, pp. 63-72. ACM, (2002).
  20. Wilschut Annita N。,and Peter MG Apers. "Dataflow query execution in a parallel main-memory environment." Distributed and Parallel Databases 1, no. 1, pp. 103-128, (1993).
  21. Kang Jaewoo,杰弗里·f·诺顿,层云Viglas。“评估窗口连接在无界流。”In Data Engineering, 2003. Proceedings. 19th International Conference on, pp. 341-352. IEEE, (2003).
  22. Golab、卢卡斯和m . Ozsu降服。“滑动窗口multi-joins处理连续数据流上的查询。”Proceedings of the 29th international conference on Very large data bases, Vol. 29. VLDB Endowment, (2003)
  23. 人类,Antti MarttiJuhola, MerikMeriste。“句法识别心电信号的有限自动机。”Pattern Recognition 28.12, (1995).
  24. Vullings h·j·l·M。,M. H. G. Verhaegen, and Henk B. Verbruggen. "ECG segmentation using time-warping." In Advances in Intelligent Data Analysis Reasoning about Data, pp. 275-285. Springer Berlin Heidelberg, (1997).
  25. 曲,Y。,Wang, C. & Wang, S. “Supporting fast search in time series for movement patterns in multiples scales.” Proceedings of the 7th International Conference on Information and Knowledge Management, (1998).
  26. 王、常州和x肖恩·王。“支持基于内容的搜索时间序列通过近似。”In Scientific and Statistical Database Management, 2000. Proceedings. 12th International Conference on, pp. 69-81. IEEE, (2000).
  27. Shatkay,即刻,斯坦利Zdonik。“近似查询和表示大数据序列”。In Data Engineering, 1996. Proceedings of the Twelfth International Conference on, pp. 536-545. IEEE, (1996).
  28. 公园,Sanghyun Dongwon李,韦斯利·w·楚。“快速检索相似子序列在长序列数据库。”In Knowledge and Data Engineering Exchange, 1999. (KDEX'99) Proceedings. 1999 Workshop on, pp. 60-67. IEEE, (1999).
  29. 基奥,方,Kaushik Chakrabarti迈克尔·Pazzani Sharad Mehrotra)。“快降维在大型时间序列数据库相似性搜索。”Knowledge and information Systems 3, no. 3, pp. 263-286, (2001).
  30. 忒弥斯,Palpanas Michail Vlachos,伊蒙·基奥,DimitriosGunopulos。“流使用用户定义的失忆症函数时间序列总结。”知识和数据工程,IEEE 20,不。7日,页。992 - 1006年(2008年)。
  31. 席尔瓦,乔纳森。,Elaine R. Faria, Rodrigo C. Barros, Eduardo R. Hruschka, André CPLF de Carvalho, and João Gama. "Data stream clustering: A survey." ACM Computing Surveys (CSUR) 46, no. 1 (2013).
  32. Aigner,沃尔夫冈·西尔维亚Miksch,沃尔夫冈•穆勒Heidrun舒曼,基督教Tominski。“视觉分析timeoriented数据的方法。”Visualization and Computer Graphics, IEEE Transactions on 14, no. 1, pp. 47-60, (2008).
  33. Kaushal Chauhan, Mukta Takalikar, Dinesh利润率。”时间序列数据流的可视化。”在国际先进研究期刊》的研究在计算机科学和软件工程(IJARCSSE), 3卷,页。879 - 891年12月(2013)。
全球技术峰会