所有提交的EM系统将被重定向到网上投稿系统.作者被要求将文章直接提交给网上投稿系统各自的日志。

利用立体视觉避障:一项调查

Pritesh S. Sharma1内哈尔·g·奇塔利亚博士2
  1. 印度阿南德瓦萨德SVIT工程与建设系研究生
  2. 印度阿南德瓦萨德SVIT建筑与工程学系副教授
有关文章载于Pubmed谷歌学者

更多相关文章请访问国际计算机与通信工程创新研究杂志

摘要

立体成像是一种用于记录和表示立体(3D)图像的技术。它可以通过在两个或更多稍微不同的位置拍摄的两张照片来创造一种深度的错觉。使用特殊的双镜头立体相机或将两个单镜头相机连接在一起的系统来拍摄立体照片有两种可能的方式。立体图像允许我们计算从相机到图像中所选物体的距离。任何智能地面车辆最重要的特征之一是基于对环境的可靠和完整的感知以及辨别障碍的能力。立体视觉系统是一种利用图像视差来检测障碍物距离的系统。立体视觉系统在探测到目标物体后,提供一对立体图像来确定目标物体的距离,并测量与目标物体的距离和避开目标物体的距离。任何控制装置在得到立体系统的检测决定时所做的回避。

关键字

距离、立体视觉、视差、匹配、相机标定、测量。

介绍

避障是自动驾驶汽车的主要控制系统之一,因为对现实世界的可靠感知是任何动态环境下的障碍检测系统的关键特征。近年来,在立体视觉和其他三维感知技术(如激光雷达)的框架下,文献中的大部分历史方法进行了调整,并在自主地面车辆上进行了多次实验,提供了重要的结果。为了获得良好的性能,大多数算法都需要对地面[21]或地面上的近似自由空间进行一些假设。失明被定义为看不到东西的状态。
本文组织结构如下。第二部分论述了相关工作。第三节讨论了立体匹配技术的基础。第四节讨论了基于立体视觉的不同类型的应用。最后第五节给出结论。

相关工作

立体成像是一种用于记录和表示立体图像的技术。它可以用两张在稍微不同的位置拍摄的照片来创造一种深度的错觉。1838年,英国科学家查尔斯·惠斯顿发明了立体图像和观看设备。立体视觉是一种对从多个视点观察到的场景进行三维描述的技术。如果不需要额外的场景照明,例如激光束,则被认为是被动的。因此,被动立体视觉在机器人领域的应用非常具有吸引力,包括三维物体识别和定位以及移动机器人的三维导航[18]。
A.立体视觉
立体视觉是从数字图像中提取3D信息,例如由ccd相机获得。通过比较来自两个有利位置的场景信息,可以通过检查两个面板中物体的相对位置来提取3D信息这与生物过程中的立体视相似。在传统的立体视觉中,用两个相互水平位移的摄像机来获得一个场景中两个不同的视图,以类似于人类双目视觉的方式。利用两个或多个三维场景的图像来恢复一个场景的三维结构,每个图像都从空间中的不同视点获得。图像可以使用多个摄像机或一个移动摄像机获得。术语双眼视觉用于使用两个摄像机[1]。
B.极面几何
外极几何是立体视觉的几何。当两台摄像机从两个不同的位置观看3D场景时,3D点及其在2D图像上的投影之间存在许多几何关系,导致图像点之间存在约束。这些关系是建立在针孔相机模型可以近似的假设基础上的。[7]。
图1描述了两个针孔相机注视x点。在实际相机中,成像平面实际上位于投影中心的后面,并产生旋转180度的图像。然而,在这里,通过在每个摄像机的投影中心前面放置一个虚拟图像平面来产生一个未旋转的图像,从而简化了投影问题。OL和OR代表两个摄像机的投影中心。X表示两个摄像机的兴趣点。点xL和点xR是点X在像面上的投影。每个摄像机捕捉3D世界的2D图像。这种从3D到2D的转换被称为透视投影,并由针孔相机模型描述。通常用从相机发出的光线穿过其投影中心来模拟这种投影操作。注意,每个放射射线都对应于图像[7]中的一个点。

立体匹配技术

在过去的二十年里,人们提出了许多立体匹配算法。将所有匹配方法分为稀疏立体匹配和密集立体匹配。将所有方法分为显式匹配、手工设计的过滤器和网络学习模型。目前最流行的分类方法是全局&局部法。计算场景中各个点或任何其他基元相对于摄像机位置的距离是计算机视觉系统的重要任务之一。从强度图像中提取深度信息最常用的方法是通过一对同步的相机信号,通过立体设置中的两幅图像之间的逐点匹配得到深度图像,即所谓的视差图。
A.稠密视差算法
随着计算能力的增长,生成密集视差图的方法越来越受欢迎。此外,现代应用程序受益于,因此需要密集的深度信息。密集视差立体匹配算法可以根据分配视差给像素的方式分为两类。首先,有一种算法,根据每个像素的局部邻近像素[5]提供的信息来确定每个像素的视差。然而,还有其他算法根据从整个图像中获得的信息为每个像素分配视差值。因此,前者被称为局部方法,后者被称为全局方法。
B.局部方法
1)归一化互相关(NCC)和绝对差和(SAD): Muhlmann和他的同事(2002)描述了一种对RGB彩色图像[6]使用绝对差和(SAD)相关度量的方法。它实现了高速和合理的质量。它利用从左到右的一致性和唯一性约束,并对结果应用快速中值过滤器。它可以在160*120像素的图像大小下实现20帧/秒,使该方法适合于实时应用。动态规划(DP),使用各种对应搜索方法测量输入图像表示的像素之间的相似性,如简单的基于sad的方法,自适应支持权重方法和动态规划(DP)方法[21]。
2)零平均交叉相关(ZNCC):
该方法集成了一个神经网络(NN)模型,该模型使用最小均方delta规则进行训练。神经网络为每个支持区域[21]确定适当的窗口形状和大小。在具有300MHz处理器的Windows平台上,获得的结果是令人满意的,但在普通图像集上报告的运行速度为0.024 fps。
3)基于窗口(固定2D窗口):
不同图像上位置比较的基础是对固定大小的邻域元素进行计算的结果。窗口一直非常流行,并且是相关方法中的传统方法。通过对窗口元素的强度进行排序并使用特殊的度量来比较候选匹配的方法,这种方法变得更加健壮。为每个位置使用多个固定窗口的方法描述为。其他基于窗口的特性可能涉及过滤器或边缘检测器[9]的输出。可变2D窗口:一些方法根据方差测量的阈值自适应地增加初始窗口的大小,在大的均匀立体对区域中更健壮。提出了一种改进的变窗方法,该方法通过仿射变换使其中一幅图像的窗口变形,从而使相关测度优化[8]。
C.全局方法
与局部方法相反,全局方法产生非常准确的结果。他们的目标是找到最优的视差函数d=d(x, y),使综合了数据和平滑项的全局代价函数E最小化。E(d)=Edata (d)+ k平滑(d)其中Edata考虑整个图像中(x, y)像素的值,Esmooth提供算法的平滑假设,k是权重因子。全局方法的主要缺点是耗时和计算量大。这些特征的来源是他们采用的迭代细化方法。他们可以大致分为执行全局能量最小化和那些追求最小的独立扫描线使用DP。
1)颜色分割:
执行全局优化的算法考虑了整个图像,以确定每个像素的视差。每个段由平面模型描述,并使用基于均值漂移的聚类算法[16]分配到一个层。使用全局代价函数,考虑到合计的绝对差异,段之间的不连续和闭塞。对层的分段分配迭代更新,直到成本函数不再改善。实验结果表明,未遮挡像素的绝对视差误差百分比。
2)图切法(GC):
使用mean shift颜色分割算法[9]将参考图像分割为不重叠的部分。从而在视差空间中生成一组平面。最小化能量函数的目标是面对在段而不是像素域。利用图切割法对每一段进行视差平面拟合。该算法在无纹理区域和遮挡区域以及视差不连续区域都有较好的表现。
3)能量基础:
该方法在能量最小化框架内对称地处理一个立体对的两幅图像,该框架还可以将颜色分割作为一个软约束。该方法强制参考图像中的遮挡与其他图像中发现的差异一致。信念传播迭代地改进结果。而且[10],包含分割的算法版本的结果更好。
D.其他方法
当然,还有其他方法,可以生成密集的视差图,这不能放在前面的任何类别中。下面讨论的方法使用基于小波的技术或各种技术的组合。该方法基于连续小波变换(CWT)和许多基于特征检测和跟踪滤波的方法。
1)特征检测方法:
利用特征检测技术对两幅图像的有趣点进行校正和提取。传统的立体匹配方法有SIFT和SURF。尺度不变特征变换是计算机视觉中检测和描述图像[7]局部特征的一种算法。首先从一组参考图像中提取目标的SIFT关键点,并存储在数据库中。通过将新图像中的每个特征分别与该数据库进行比较,并根据特征向量找到候选匹配特征,从而在新图像中识别对象。从完整的匹配集中,识别出与对象及其在新图像中的位置、比例和方向一致的关键点子集,以过滤出良好的匹配。
2)加速鲁棒特征检测:
SURF是一种鲁棒的局部特征检测器,可用于计算机视觉中的物体识别或三维重建。该技术受到SIFT描述符的启发。SURF的标准版本比SIFT快几倍,其作者声称在不同的图像转换中比SIFT[7]更健壮。SURF基于二维Haar小波响应的和,有效地利用了积分图像。这两种特征检测技术都是传统的立体对特征检测技术。这些技术在实时应用中具有较高的执行时间。图像配准的特征检测方法。实验结果表明,SIFT检测到的特征数量比SURF多,但速度较SURF慢[12]。SURF与SIFT具有相同的速度和性能。
图2所示为避障系统的流程图。输入为立体相机对拍摄的一对立体图像。之后校正对,并根据对象的颜色或形状提取对象。找出配对之间的差距并测量距离。距离可以用三角测量技术或任何其他技术测量。这样就可以避免障碍。
E.立体视觉问题:
1)对应问题:
寻找成对匹配的点,使得成对中的每个点都是相同3D点的投影。两幅图像中点之间的不明确对应关系可能导致对场景[2]的几种不同一致的解释。立体成像中相关的基本问题涉及到这样一个事实,即物体可以从不同的视点看明显不同。这是可能的两个立体视图有足够的不同,相应的区域可能不匹配正确。更糟糕的是,在有很多障碍的场景中,场景的非常重要的特征可能只出现在一个视图[3]中。这个问题通过减少基线得到了缓解,但是深度测定的准确性受到了影响。
2)重建问题:
给定相应的点,我们可以计算视差图并计算其参数。可以将视差转换为三维地图,称为重建面临的问题的场景[3]。

应用程序

A. 3D跟踪[11]。
B.人群计数(建筑物、公共汽车、火车)。
C.监测轨迹(购物、运动)。
D.安全[19]。
E.监视和安全[21]。

结论

因此立体视觉基本用于图像的三维重建。本文简要介绍了基于立体视觉的实时避障方法。从立体图像对中提取目标是立体视觉的主要应用之一。本文对立体匹配方法进行了分类,以说明近年来文献中提出的不同方法。考虑的每一项工作都需要对环境有良好的感知水平。研究了密集视差图和密集场景流图。通过立体视觉,可以在特定距离上避开障碍物。

数字一览

图1 图2
图1 图2

参考文献





















全球科技峰会