ISSN在线(2319 - 8753)打印(2347 - 6710)
其子as Raihanath1,Chithra王妃P R2
|
相关文章Pubmed,谷歌学者 |
访问更多的相关文章国际创新研究期刊》的研究在科学、工程和技术
本文提出一种基于卓越的视频对象提取和识别框架。提取框架自动提取感兴趣的前景对象没有任何训练数据的使用。事先识别系统使用的训练数据列表。从视频中提取前景对象的,它使用视觉和运动特点特征。有效结合的条件随机域用来显著诱导功能。我们的方法能够保留空间连续性和时间一致性。各种视频实验结果表明,我们建议的系统提供定性满意的视频对象提取(小海湾)的结果。
关键字 |
视频对象识别、视觉特点,条件随机场。 |
介绍 |
人类很容易解释的突出对象从一个视频,使用人类大脑的功能。但是,在计算机视觉识别是非常具有挑战性的重要对象。研究人员正在试图关闭电脑和人类的视觉之间的差距。是非常具有挑战性的计算机视觉算法自动从视频中提取前景对象没有任何人类的交互。然而,如果需要形成一个计算机视觉算法,提前考虑一些因素。 |
1)未知的学科分类和未知的对象实例视频帧。 |
2)由于姿势变化复杂的突出的运动对象。 |
3)模糊的出现在杂乱的背景。 |
它是不可行的事先操纵所有前景对象。一个人可以从视频中提取前景对象使用前景或背景信息。提取的对象可以用于进一步处理的视频对象识别框架。因此,对象识别的任务就完成了。 |
除了上面的方法,基于图的方法已经被证明是有效的前景对象分割。使用这种方法,一个图像通常是由一个图表,每一个观测节点表示一个图像像素和相关的隐藏节点对应于其标签。相邻的隐藏节点之间通过确定成本使用的颜色,运动,等等信息,可以部分前景对象除以图成不相交的部分,同时最小化总成本。在本文中,我们专注于在单一概念视频捕捉到一个小海湾单眼相机在静态或任意类型的背景。而不是假设背景运动一直占主导地位,不同于前台(如[13]),我们放松这个假设和al低前景物体在场景的边缘但是复杂背景运动(如运动引起的海浪,随风摇曳的树木,等等)。我们也忽视了视频帧与显著的运动变化由于镜头变化或突然的相机运动。健壮和使我们的方法不需要任何用户交互,我们开始从多个地方运动信号,诱导形状和颜色模型和集成CRF。在第二部分,我们将讨论形状特性比运动更好的前景对象的保存本地信息线索,和我们建议的框架允许使用前景和背景颜色模型来制定相关的CRF模型中提供更好的泛化。值得注意的是,我们的方法不需要对象的先验知识范畴,因此不需要训练数据或对象探测器部分。所有的功能模型中我们利用CRF自动提取测试输入视频在一个无人管理的设置,这不能轻易通过之前的大部分工作。 |
相关工作 |
以前的工作,如[8]和[9]关注交互式方案和要求用户手动提供地面实况的标签信息。尽管优秀的业绩,方法不需要真实世界的应用程序的用户交互更实用。最近,一些自动分割技术。例如,吴et al。[10]使用一个立体相机设置,提供深度信息作为地面实况的提示标签。视频捕捉到一个单眼相机,文献等(11、12)使用CRF框架最大化联合概率的颜色、运动等模型来预测每个图像像素的标签。虽然颜色特征从输入视频,可以自动确定这些方法要求培训对象探测器提取形状或运动特性。最近提出的方法[13]小海湾的问题解决,而无需使用任何训练数据。它假定背景的运动主要在整个视频,所以作者使用RANSAC[19]前景提取候选区域,其次是CRF相结合相关的颜色和运动特性来确定最终的前景区域。 |
另一方面,无监督方法不提前任何特定对象探测器或训练分类器。由静态摄像机拍摄的视频,提取前景对象可以被视为背景减法问题。换句话说,前景对象可以发现仅仅通过减去当前帧从一个视频序列[24],[25]。然而,如果背景不断变化或由前景物体阻挡,背景建模成为一个非常具有挑战性的任务。这种情况下,研究人员通常旨在学习从输入视频,背景模型和前景对象被视为异常值检测。例如,一个自回归滑动平均模型(ARMA)估计,提出了内在的动态纹理和地区[26],它特别处理场景后,地面由海浪等自然场景或树木。 |
太阳等。[27]利用颜色渐变的背景来确定前景对象的边界。一些无监督方法旨在观察特性与小海湾的前景对象相关联。例如,graphbased方法[28],[29]识别前景对象区域相邻隐藏节点之间通过最小化成本/像素的颜色,运动,等等信息。 |
更具体地说,一个人可以部分通过将图像划分为前台对象分离部分的总能量是没有使用任何训练数据最小化。而令人印象深刻的研究结果报道在[28],[29],这些方法通常假定背景/摄像头在视频帧运动占主导地位。对于一般的视频被自由移动的摄像头,这些方法可能不推广(正如我们在实验验证后)。不同于图论方法,Leordeanu和柯林斯[30]提出观察对象的共生特性来识别前景对象在一个无人管理的设置。虽然有前景的结果下姿势,规模、闭塞、报道等差异,他们的方法是只能够处理刚性物体(如汽车)。 |
对象建模和自动提取 |
因为并不是所有的移动物体会产生运动线索,或者其中的一些线索可以忽略,由于低对比度,等效果,也就不足为奇了运动线索是不够的小海湾问题。为了克服这个限制,我们建议首先提取运动物体的运动线索在视频帧,我们结合运动诱导的形状,前景和背景颜色为CRF模型。没有感兴趣的对象的先验知识,这个CRF模型旨在解决小海湾问题在一个无人管理的设置。在2.1节中,我们首先简要回顾一下CRF的使用对象分割/提取。我们将详细的建设运动,形状,前景和背景的颜色模型,并讨论如何将它们集成到一个统一的CRF框架的剩余部分。 |
3.1。提取的视觉特点 |
每一帧的提取视觉特点,我们对每个视频帧进行图像分割和提取颜色和对比信息。在我们的工作中,我们提前Turbopixels[21]提出的细分,以及由此产生的图像部分(superpixels)应用于执行卓越检测。Turbopixels的使用让我们产生edgepreserving superpixels相似的大小,从而达到改善视觉显著结果的验证。对于k superpixel rk我们计算它的卓越成绩S (rk)如下: |
年代(我)是原始特点推导了(1),和dist (i)措施最近的欧式距离凸点集。我们注意到distmax在(2)确定像素的最大距离其最近的内凸点感兴趣的一个图像,因此它是一个图像相关的常数。 |
3.2。提取运动的线索 |
在我们的工作中,每一个移动的一部分认为前景对象形成一个完整的抽样的整个对象的利益(如[11 12 13])。我们旨在提取不同的特征信息从这些后来的CRF建设移动部件。检测移动部件及其对应的像素,我们执行密集的光流向前和向后传播在每一帧[15]。一个移动的像素qt帧t是由: |
在qt表示像素对被向前或向后传播光流。只有一个像素由opticalflow轨迹确定在两个方向,我们将表示它作为一个移动对象的像素。缓解相机抖动的影响,我们忽略的帧后导致大量移动像素的这一步。确定后引发的地区移动物体(或其部分),我们将从这些区域中提取相关的形状和颜色信息,当我们讨论下。 |
3.3。学习形状提示 |
因为我们假设每个对象的可动部分形成了一个完整的抽样整个对象,部分基于上述运动引起的形状信息线索可以先进的前景对象。描述每个活动部件,我们应用导向的梯度直方图(猪)特性。我们首先把每一帧分成不相交的8×8像素网格,我们计算为每个地区猪描述符(补丁)的4×4 = 16网格。捕捉规模不变的形状信息,我们进一步下调解决每一帧,重复上面的过程(缩放图像的分辨率最低四分之一的原来的一个)。我们注意到[20]也使用类似的设置来提取它们的猪描述符。自稀疏表示的使用已被证明是非常有效的,在许多计算机视觉任务[16],一旦猪前景运动区域提取的描述符,我们学习一个完整的电报密码本和确定相关的每个猪的稀疏表示。 |
图2:稀疏的形状的可视化表示。(一)例子为稀疏的形状表示码字。(b)相应的图像补丁(只显示前5场比赛)。(c)为每个码字对应的面具。 |
后获取字典和面具代表前景对象的形状,我们用它们来编码所有在每一帧图像补丁。这是复苏前景对象的非运动区域没有明显的运动,因此不能检测到运动线索。对于每一个图像块,我们推导出它的稀疏系数向量,这个向量的每个条目表示每个码字形状的贡献。相应地,我们使用口罩和体重相关系数来计算最终的每个图像块的面具。然后制定重建图像使用前景形状信息为: |
图3显示了一个示例的重建视频帧利用形状信息的前景对象(仅由运动线索)。我们注意到b XS t作为前景对象的可能性在帧t的形状信息。这个形状似然函数有助于塑造CRF的能量函数,即: |
在ws控制这种形状的贡献能量项最后CRF配方。比较运动的可能性在2.2节和[13],预计更好的候选人可以发现前景对象使用以上运动诱导的形状信息。这使得使用前景和背景颜色模型更为可行,我们讨论下。 |
3.4。学习颜色线索 |
除了运动诱导的形状信息,我们也把颜色的提示CRF框架来更好的模式感兴趣的对象。 |
图4:对象提取的例子(a)输入帧,使用(b)运动,(c)前景颜色和(d)我们建议的CRF集成多种类型的运动诱导功能。 |
构建背景模型是困难的,因为很少运动线索贯穿整个视频可能不足以表明前景/背景区域。这个困难可以如图4所示(b)的一个例子只使用运动前景区域提取CRF线索。应用前景物体的颜色信息和剩余的背景区域进入我们的CRF,我们利用形状图像从上一步获得的可能性,和后验概率阈值产生的形状。的像素的概率值高于预定阈值,相关联的区域将被视为潜在前景;那些低于阈值将因此分组候选人背景区域。这些候选人的前景和背景区域,我们使用高斯混合模型(GMM)和模型的RGB分布,高斯组件的数量设置为10。现在我们详细的学习颜色线索提取前景对象。一个能量项有关前景和背景颜色模型在我们CRF定义如下: |
至于视觉显著提示框t,我们把视觉显著成绩派生(2)分为以下能量项Ev: |
3.5。通过CRF的集成多个特征模型 |
运动引起的线索,我们结合形状和颜色(前景和背景)模型到我们CRF框架。因为我们不需要先验知识对象的类别,使用多种类型的运动诱导特性允许我们感兴趣的前景对象模型不需要用户交互或任何训练数据。提供空间相干进入我们的CRF模型的性质,我们引入两两项保留当地前景/背景结构。 |
我们注意到上述两两项是能够产生一致的标记结果即使在低对比度或模糊效果。最后,通过集成(6),(7),目标能量函数(2)和一对聪明的CRF可以重新写成: |
为了解决上述优化问题,基于能量最小化的一个可以应用图技术,如最大流量/最小切割算法。上面的能量函数最小化时,标签函数F表示输出类标签(前景和背景)观察到的每一个像素。 |
前景对象识别 |
目标识别是一个过程识别一个特定的对象在一个数字图像或视频。在这里,神经网络用于目标识别的目的。神经网络提供了功能和应用,为复杂的非线性系统建模,不易与闭型方程建模。与自组织映射神经网络支持监督学习和竞争层。我们可以设计,火车、可视化和模拟神经网络。 |
结论 |
在本文中,我们提出了一个方法,利用多个运动诱导特性,比如地面形状和前/背景颜色模型来提取前景对象单一概念视频。我们先进的一个统一的CRF框架集成上述功能模型。利用稀疏表示技术,我们的运动引起的形状模型描述前景物体的形状信息概率,既使我们能够提取和构建前景和背景颜色模型感兴趣的对象。与之前工作相比,我们的方法更好的模型前景对象由于使用多种类型的运动诱导特性模型,而没有感兴趣的对象的先验知识,培训视频数据的集合,或对象探测器部分的设计是必需的。未来的研究将用于扩展我们的方法的视频与多个概念(即多个感兴趣的前景对象),以及应用程序的小海湾等更高层次的任务行动/活动识别和视频检索。对于这些应用程序,我们预计将来自异构域的特性(如视觉、声音、颞、文本等),我们将提供一个系统的方式来选择适当的特征提取模型的特定类型的感兴趣的对象。 |
引用 |
|