在线刊号(2320-9801)印刷刊号(2320-9798)
Kaushal Chauhan1, Mukta Takalikar2
|
有关文章载于Pubmed,谷歌学者 |
更多相关文章请访问国际计算机与通信工程创新研究杂志
时间序列数据是一种面向时间的数据,其中每个数据项指的是一个特定的点,通常是在时间空间的连续实例中测量的。流数据是实时的,可能是大量的,快速的数据信息序列,以有序的项目顺序连续到达。已经进行了各种研究,重点是在批处理模式下处理的表示,并以几乎相同的可靠性可视化每个值。在许多领域,最近的信息比旧的信息更有用。我们称这种输入数据为失忆数据,因为它包含更大的数据分析价值。本文提出了一种新颖的动态失忆时间序列数据监测系统,采用滑动窗口和内存管理方法对数据流进行处理,利用加权移动平均算法对失忆数据进行汇总。最后阶段包括以动态折线图可视化的形式对失忆和汇总数据流进行可视化,并以快照的形式生成汇总数据报告,最终便于分析人员识别流时间序列数据背后的各种模式。
关键字 |
数据流,摘要,失忆,时间序列数据,可视化。 |
介绍 |
时间序列数据在科学、工程和商业中有着重要的应用。可视化通过利用人类的感知来帮助个人解释信息,并扩大视觉的心理特征。统计图形,最著名的时间-值对折线图,被大量用于检查单个或微小的时间序列集合[1]。然而,理解大量的时间序列数据仍然很困难。我们倾向于将大型系统管理作为一个站点,其中个人必须被迫在多个细节级别上感知大量时间序列信息,并参考经常不断变化的分组[2][3]。 |
托管托管服务的数据仓库将存储有关数万个物理和虚拟服务器的详细信息。对于每个系统,大型机负载和内存使用等参数通常记录为[4]。这些信息也可以被存档多年。系统管理员工应该准备好询问详细的信息,以满足个别客户的需求,同时保持对托管环境的全局状态[5]的认识。 |
相关工作 |
许多无限流算法在滑动窗口模型中没有明显的对应。例如,虽然在无限流中计算最大值是微不足道的,但在大小为N的滑动窗口中进行计算需要Ω (N)空间;考虑一个不增加的值序列,其中最大项总是在窗口向前移动时过期。因此,基本的问题是,当新项到达时,旧项必须立即删除,以便进一步处理[6]。 |
一般来说,面向时间的数据是与时间相关的数据。在另一种意义上,我们可以假设它是用时间戳生成的数据。当然,当用户需要选择或开发人员需要开发适用的可视化方法时,这种一般描述是不够的。实现交流和有效可视化的一个重要需求是考虑要给出的信息的特征,在我们的例子中,这些特征与时间维度显著相关。在几个工程领域,以及人工智能、数据处理、仿真、建模、数据库等,已经衍生出了各种按时制定的方法。存在许多消息类型提取和事件识别技术。这些技术中的大多数都是通过对日志文件进行两到三次扫描来生成消息类型,并通过一次扫描来识别使用消息类型[8]的事件。 |
为每个不同的标记使用正则表达式就是这些技术之一。这有一些缺点,例如它需要对系统有充分的了解,并且适合于包含很少不同事件的日志文件。由于我们的重点是日志分析,这种技术很有用,因为它简单,与其他技术相比花费的时间更少。 |
传统数据库用于需要持久数据存储和复杂查询的应用程序。通常,信息由一组对象组成,插入、更新和删除的频率低于查询。查询在输入后立即执行,因此答案反映了数据库的这种状态。由于前几年已经出现了一些不使用这种知识模型和查询范式的应用程序。相反,数据自然发生在序列流值的变化中;例如传感器数据、网络流量、货币报价、在线拍卖和交易日志,如互联网使用日志和电话记录[10][11]。 |
除了窗口抽样[14]之外,在子线性空间中计算滑动窗口查询的一种可能的解决方案是将窗口划分为称为基本窗口[12]的小部分,并且仅存储每个部分的概要和时间戳。当最老的基本窗口的时间戳过期时,它的概要将被删除,一个新窗口将被添加到前面,并增量地重新计算聚合。该方法可用于计算流之间的相关性[12],查找频繁出现的项[15],计算各种聚合[4][16]是对数据流执行的一些操作。 |
但是,一些窗口统计信息可能无法从一组概要中递增计算。对称哈希连接和类似的对称嵌套循环连接可以通过定期扫描哈希表(或整个窗口)并删除过期项来扩展到两个[19]或更多滑动窗口。有趣的权衡是,如果元组过期执行得太频繁,那么维护大型哈希表的成本就会很高。时间序列数据可以通过各种近似方法进行分析,[29]中描述的一些聚类技术提供了更好的分析方法,这些处理后的流可以通过各种可视化方法进行可视化,以表示面向时间的数据[30]。针对数据流[32][33]的不同属性,从可视化方法、变量类型、映射技术、维数等方面综述了相应的可视化方法。为了方便用户访问和分析,必须考虑到动态和交互式的视觉效果。[34]中简要描述和总结了目前存在的各种时间序列数据流可视化技术。 |
数学建模 |
成功: |
汇总时间序列数据流。 |
动态图表形式的交互式图形流可视化。 |
失败: |
时间序列数据流错误超过阈值级别。 |
图形内存缓冲区溢出 |
动态视觉滞后或反应缓慢。 |
仿真结果 |
本节提供时间序列可视化系统的性能和精度结果。 |
1.显示时间 |
由图1可知: |
要在图表上显示一个数据点,平均显示时间为1.2 ms。 |
随着数据点数量的增加,每个数据点的显示时间趋于稳定,不会增加。 |
2.处理时间 |
从表1的数据中,我们可以得出预处理时间与流数据存在的序列数和窗口权值成正比。处理时间还取决于提供数据的时间间隔的数量和分析变量的数量;然而,层次结构级别的数量并不影响这一次。 |
性能已经测试了360000条记录和200+数据流的数据。 |
3.数据点绘制时间 |
结论: |
绘制的时间取决于要绘制的数据点的数量。 |
4.摘要准确 |
摘要的计算采用加权移动平均法和趋势指数平滑法。MAPE (Mean Absolute Percent Error)用于检测精度。MAPE %越少越准确的是总结。 |
图2显示了两种方法的对比分析。 |
从上图中可以看出,加权移动平均具有MAPE <= 20%,因此提供了>= 80%的精度。 |
时间序列可视化系统采用加权移动平均可以提供80% ~ 98.5%的准确汇总。如果在前视界进行汇总,系统可以预测到达的数据点,准确率为>=75%。作者提到75%的准确结果是可以接受的[21]。 |
5.为可视化开发的用户界面: |
开发了以下图表组件,以便用监视视图可视化正在监视的健忘症数据(图3和图4)。 |
结论及未来工作 |
运行时视图更新能力在许多系统中是缺乏的,因为这些系统提供的是静态的图表视图;相比之下,我们的系统是动态的,帮助用户进行视觉探索。累积功能是新的,在任何其他可视化系统中都没有。 |
有许多工具可以进行视觉探索;然而,我们的系统提供了在财务背景下进行总结的能力,这对业务分析师的决策非常有用。时间序列可视化系统通过数据预计算和分级存储,实现最短的显示时间。 |
数据流的汇总和数据点的积累是采用带趋势的加权移动平均来实现的,这种方法是预测技术的前提。该算法为系统默认算法,用户不能自行选择。该系统可为预测算法的选择和结果的比较提供方便。 |
该系统未来的方法将是在各种便携式设备上传输视觉,如移动电话、平板电脑、台式电脑和个人电脑。 |
鸣谢 |
第一作者对他的项目经理Dinesh Apte表示感谢,感谢他在硕士论文这一部分的学习过程中提出的有用的意见、评论和参与。本研究由SAS研究与发展(印度)有限公司赞助。 |
参考文献 |
|