所有提交的EM系统将被重定向到网上投稿系统.作者被要求将文章直接提交给网上投稿系统各自的日志。

基于度量的场景分割加速视频帧分类

亚当·布劳库斯,简·辛纳斯基,亚当·布热斯基
波兰Gda´nsk工业大学计算机体系结构系
有关文章载于Pubmed谷歌学者

更多相关文章请访问国际计算机与通信工程创新研究杂志

摘要

本文讨论了在所有视频都必须被标记的情况下,视频流中图像的有效分类问题。为了实现连续帧的相似性,我们引入了一组简单的度量标准来衡量这种相似性。为了使用这些观察数据来减少必要的分类数量,我们提出了一种场景分割算法。实验评估了该算法使用不同相似度度量所获得的场景大小和分类精度。因此,我们已经从考虑的集合中确定了那些指标,这些指标显示了用于场景分割的最佳特征。



关键字

场景分割,图像距离,图像分类

介绍

医学成像技术正在不断改进,其中包括新的视频数据采集的发展
方法(例如无线胶囊内窥镜- WCE[1])和不断加速处理获取的数据。在
这些领域中有许多与收集和处理大量视频数据相关的问题。例如,
单个WCE视频最长可达8小时,需要医学专家花2-3小时检查[2]。
根据特定的应用,可能需要提供关于整个视频的一般性结论
或者对每个单独的框架进行详细分析。前一种情况与诊断有关,这是最重要的
信息是病人是否有任何内出血或病变,以及关于它们的任何附加信息。
在为图像识别算法或教育目的创建数据库时,可以考虑后一种情况
当最终用户(这里:一个人或算法)对各种图片进行操作时,将疾病病例与健康病例进行比较
组织。
在现实生活中的视频中,特别是当保证足够高的帧率时,连续的帧非常相似,并且
对相邻的帧进行微小的修改。在医学应用中,这意味着记录的流可以
让玩家觉得这是“连续的”[3],物体逐渐进入和离开场景[4]。
视频的连续特性允许考虑划分为场景[5]-相似帧的较短序列,
共享一个给定的标签。寻找这种划分的方法已经发展出来,特别是针对真人电影[6],[7],
场景和镜头的变化是即时的,通过快速变化的帧特征明显更容易发现。
在医学成像中,一种流行的方法包括检测特征帧或特定帧以获得图像
叫做视频总结[8][9][10][11]。这些框架代表了它们的直接邻域
假设场景之间的变化。
视频的变化速度是通过指定连续帧的相对差异的度量来衡量的。
这些函数及其性质已在第二节中定义。
在本文中,我们将给出一种新的场景分割算法的评估结果
具有不同参数集的度量。的最终分类的准确性进行了评价
所有的场景都是一个整体。整个过程已在第三节中进一步描述,而其结果可以找到
第四节。

预赛

A.图像度量
为了确定两帧有多少不同以及视频中的视图有多少变化,一个用于比较的函数
框架必须被定义。这样的函数将进一步称为度量。度规d的定义要求它
完成以下属性:
图像(1)
图像(2)
图像(3)
图像(4)
在考虑的使用中,度量的值被期望以某种方式量化图像的视觉相似性。
上面的定义允许任何非负的度量值。值得注意的是,所有可能的集合
图像保持有限2,这意味着存在一个图像距离的上边界M。为了更简单
比较和评估,度量值线性归一化到范围[0;1](除以a的值
由考虑的图像大小的上限M度量)。
出于我们的目的,我们选择考虑以下指标:
•简单距离(SD) -图像之间的l1距离(像素值向量)
•处理图像上的简单距离(SP) -模糊和降尺度后的两张图像的简单距离
•k个箱子的直方图距离(HD, HDk) -图像的k-bin HSV颜色直方图之间的l1距离。
图像
严格地说,所提出的条件定义了图像空间上的伪度量,因为d(a;b) = 0对于某些a 6= b
所考虑的函数是仅针对以为每个度量定义的方式获得的处理向量的适当距离函数。
对于给定的分辨率和颜色深度,所有可能的像素值的数量是有限的。
B.算法
在本节中,我们提出了一个简单的算法,用于(大部分)连续视频的场景分割。对于每个场景
选择定义它的特定框架。接下来,场景的创建分为两个主要步骤:
扩展-连续的帧被分配到场景中,直到到达一个帧
特定帧超过给定阈值。这个坐标系就是下一个特定的坐标系。
还原-当前场景结束时的帧,与下一特定帧相比更相似
当前的一个被重新分配到下一个场景。
算法的伪代码已在算法1中给出(精确地处理某些边界
例)。

实验

所进行的实验包括评估一组典型的内窥镜录音算法
考试。六部具有代表性的影片被选出,符合以下标准:
至少1000帧长
被识别的属性出现在20%到80%的帧之间
视频中识别状态至少有5次变化
这些要求已经设置,以防止高估算法只是传播一个单一的结果在所有帧和
罕见“混沌”视频的算法评估。
场景分割算法已经应用到每部电影有五个不同的指标,使用阈值
表i中列出了不同的阈值集是不同指标特征的结果- SD和SP
显示更大的价值变化。

结果

评估的第一个观察结果是,在SD和SP度量中看似相似的距离相对较高
图像。这一观察结果与这两个指标有关,它们对微小的变化都很敏感,并允许进行检测
具有大量常见静态区域的图像。
对于各种测试阈值,已经计算了平均场景长度,结果如表II所示
和表三。正如预期的那样,阈值与场景长度之间都可以看到明显的正相关关系
指标。
图1给出了识别精度与度量阈值的关系。可以看到负相关
在这两个值之间。H8度量得到了Hk度量中最好的结果,结果表明,可能距离的25%的可接受变化(或:将差异量增加6倍)会导致变化
准确率低于10%。
由于已经为两组指标测试了不同的阈值,因此重要的是要注意这些值
这张图中各组之间没有可比性。
图2中的图表展示了获得的平均场景大小与最终分类之间的关系
准确性。可以看出,所有的Hk指标都获得了相似的结果,并优于SD和SP指标。
结果表明,采用Hk指标的场景分割算法能够较好地分割场景和图像
特定坐标系的分配。
在高达6帧的场景大小中,保留了95%以上的高精度值。有这样的结果。昂贵的
识别算法可能会得到改进,以适用于整个场景,并加入场景分割算法
考虑给定的时间限制,这取决于可接受的性能/精度权衡。

总结

本文提出了一种加快视频序列帧分类的新方法。保存
可靠性高,分类算法处理的帧数可减少1 / 4以上
80%。基于HSV直方图的位移不敏感指标已经评估了三种一般类型的指标
执行简单的图像距离。
广泛的可能的度量定义和参数化为进一步的实验留下了开放的空间
这个主题。

表格一览

表的图标 表的图标 表的图标
表1 表2 表3

数字一览

图1 图2
图1 图2

参考文献












全球科技峰会