石头:2229 - 371 x
Thangadurai K1,布瓦娜2, Radhakrishnan R3.
|
有关文章载于Pubmed,谷歌学者 |
更多相关文章请访问全球计算机科学研究杂志
基于内容的图像检索(CBIR)是计算机视觉技术的一种应用,解决了大型数据库中数字图像的检索问题。这种新兴的方法包括局部二值模式(LBP)、局部导数模式(LDP)、局部三元模式(LTP)和幅度模式。本文提出了基于水平方向和垂直方向的局部Tetra模式(LTrP)用于CBIR方法,包括幅度模式,即均匀模式和非均匀模式(即图像中的所有像素)。与传统方法通过计算灰度差来编码参考像素与其周围相邻像素之间的关系,只将幅值模式引用为均匀模式不同,本文提出的方法包括:1)像素的预处理和方向,采用预处理技术,即调整大小,并与和一起计算一阶导数。2)使用LTrP和LBP进行模式提取,LBP使用四元方向对每个像素进行分类,并将其分离为二进制模式3).使用导数的幅度来收集幅度模式的提取。4)最后,将LTrP、LBP和幅度模式相结合,建立了图像特征提取的混合方法,提高了图像特征提取的性能。性能分析表明,该方法对数据库DB的平均精密度/平均查全率由73.4%/42.7%提高到79.5%/47.8%。
关键字 |
局部导数模式,基于内容的图像检索,幅度模式,局部二值模式。 |
介绍 |
近年来,数字图像收藏的规模迅速增加。每天,军用和民用设备都会生成千兆字节的图像。大量的信息在那里。然而,我们不能访问或使用信息,除非它被组织起来,以便有效地浏览、搜索和检索。在大多数基于web的搜索引擎中,从大量数据库中检索所需的图像是一项相当复杂的任务。基于内容的图像检索(CBIR)是一种利用视觉内容从大规模图像数据库中根据用户的兴趣对图像进行检索的技术,目前已成为一个活跃且发展迅速的研究领域。在过去的十年中,在理论研究和系统开发方面都取得了显著的进展。然而,仍然存在许多具有挑战性的研究问题,继续吸引着来自多个学科的研究人员。 |
基于内容的图像检索使用图像的视觉内容,如颜色、形状、纹理和空间布局来表示和索引图像。在基于内容的图像检索系统中,对数据库中图像的视觉内容进行多维特征向量提取和描述。数据库中图像的特征向量构成特征库。为了检索图像,用户向检索系统提供示例图像或草图。然后,系统将这些示例转换为其内部的特征向量表示。然后计算查询示例或草图的特征向量与数据库中图像的特征向量之间的相似性/距离,并借助索引方案进行检索。该索引方案为图像数据库的检索提供了一种有效的方法。最近的检索系统已经结合用户的相关性反馈来修改检索过程,以产生感知和语义上更有意义的检索结果[1]。 |
在自然图像中,颜色和纹理通过基本的微观结构有着密切的关系,它们被认为是人类视觉感知的原子。“”textonâÂ′Â是纹理分析中非常有用的概念,已被用于开发纹理识别或物体识别上下文中的高效模型[2-5]。然而,很少有人提出将文本模型应用于图像检索。如何获取文本体特征,以及如何将底层纹理特征映射到文本体,都需要进一步研究。为此,本文提出了一种新的图像检索描述符。基于内容的图像检索技术旨在用从图像数据库中获得的查询相似的结果图像来响应查询图像。对查询图像进行处理,提取特征,并与数据库图像的特征进行比较,采用适当的相似度度量来检索查询相似图像。在CBIR领域,它通过使用基于颜色、纹理、形状等视觉特征的表示来克服手工标注的困难。然而,经过十几年的激化。这种方法的主要瓶颈是图像的视觉特征表示和语义概念之间的差距。 Texture analysis has been extensively used in computer vision and pattern recognition applications due to its potential in extracting the prominent features. |
局部二值模式(LBP)算子是灰度图像的一种纹理描述符。二维图像灰度图像中的纹理是一种由空间结构(图案)和对比度(纹理量)组成的现象。LBP算子对纹理模式进行量化。令人满意的纹理描述符旨在具有以下一些属性 |
a.高效区分不同类型的纹理。 |
b.姿态和尺度变化的鲁棒性。 |
c.对光照变化的鲁棒性。 |
d.对空间非均匀性的鲁棒性。 |
e.应该适用于相当小的样本量。 |
f.计算延迟更少。 |
局部三元模式(LTP)是局部二进制模式(LBP)的扩展。局部二进制模式将像素阈值设置为3个0和1,而LTP使用阈值常量将像素阈值设置为3个值。基于内容的图像检索技术有着广泛的应用,包括生物特征识别、面部表情识别、虹膜识别、指纹识别、基于头发的人检测、图像检索、图像分割、表面检测等。 |
相关工作 |
纹理是分割方法的主要难点。许多纹理分割算法都需要对纹理模型参数进行估计,这是一项非常困难的任务。JSEGÃⅱÂ′Â′[6]中提出的分段克服了这些问题。它不是试图估计纹理区域的特定模型,而是测试给定颜色-纹理模式的同质性。”JSEGâ '  '由两步组成。在第一步中,将图像颜色量化为若干类。将图像像素替换为对应的颜色类标签,我们可以得到图像的类映射。然后在这个类图上执行空间分割,它可以被视为一个特殊类型的纹理组合[7]。[8]中提出的小波变换为纹理分析和分类提供了一种多分辨率的方法。对人类视觉系统的研究支持多尺度纹理分析方法,因为研究人员发现视觉皮层可以被建模为一组独立的通道,每个通道都调谐到特定的方向和空间频段。这就是为什么小波变换被发现是有用的纹理特征提取。 |
在[9]中,提出了使用高斯混合矢量量化(GMVQ)作为颜色直方图生成的量化方法。众所周知,GMVQ对于量化器不匹配具有鲁棒性,这促使它用于为查询图像和数据库中的图像制作颜色直方图。结果表明,基于惩罚对数似然(LL)畸变的GMVQ直方图比传统的均匀量化方法和平方误差畸变的VQ直方图具有更好的彩色图像检索性能。一种简单但流行的量化方法是对每个像素的每个颜色通道进行均匀量化然而,均匀量化不仅忽略了像素之间的相互依赖关系,而且没有考虑给定图像数据库中任何实际的颜色分布。在[10]中提出了一种新的特征提取和描述符,即多文本直方图(Multi-Texton Histogram, MTH)用于图像检索。MTH可以看作是中医的改进版。它是专为自然图像分析而设计的,检索精度高于Edge Orientation auto - correlation gram (EOAC)[11]和TCM[12]。它结合了同现矩阵和直方图的优点,用直方图表示同现矩阵的属性,可以表示颜色和纹理方向的空间相关性。 |
基于突出边界检测的分层区域特征提取方法可以显著提高检索结果的质量。许多先进的技术表明,基于语义域的图像检索系统,比较有意义的概念可以提高检索图像集的质量。有效的学习和推断有意义的概念可能被证明是这样的系统的关键。现有的图像检索技术正在经历着重大的技术发展。定义了一种用于图像检索的流形学习算法GIR。然后使用标准光谱技术来寻找一个最优的投影,这尊重图的结构。这样,约简子空间中的欧氏距离可以在一定程度上反映数据的语义结构。在[14]中提出的框架可以有效地合并图像检索系统的文本特征和图像特征。为了在不降低文本图像搜索引擎响应时间的前提下,将图像分析算法集成到基于文本的图像搜索引擎中,开发了多线程处理框架。在一个高级语义检索系统中,利用搜索引擎使用给定的基于文本的查询检索大量图像。 In low-level image retrieval process, the system provides a similar image search function. |
文献中已经报道了各种提取和表示图像特征的技术,如局部直方图(对应于区域或子图像)或全局直方图,颜色布局,梯度,边缘,轮廓,边界和区域,纹理和形状。直方图是[15]最简单的图像特征之一。尽管它对视轴的平移和旋转具有不变性,但缺乏空间信息的包含是其主要缺点。许多完全不同的图像可能具有相似的直方图,因为直方图中没有反映像素的空间信息。因此,文献中已经报道了许多直方图细化技术。在[16]中提出了基于直方图交叉的模型与图像直方图比较方法,用于目标识别。 |
该方法 |
该系统的目标是从数据库中检测出最相关的图像。在本文中,LTrP包括LDP、LBP、LTP和幅值模式,用于从图像中检索特征。 |
像素方向的预处理和计算: |
处理图像的初始步骤是预处理。预处理,一般来说,是对图像进行处理,以便为初级处理做好准备。预处理技术主要有受控变量、收紧边界、生成稀疏器、缩放等。该系统采用了图像调整预处理技术。该方法用于提高图像检索时间。 |
构建大地格局: |
c.将中心像素值与相邻像素值进行比较。 |
d.如果邻居像素值与中心像素值匹配,则将其替换为“0Ã①Â′Â′”。否则保持相同的邻居像素值。 |
e.最后给出每个像素的8位四环素模式。 |
由式(4)和式(5)得到每个中心像素的8位四环素模式。然后,我们根据中心像素的方向将所有的图案分成四个部分。最后,将每个部分(方向)的四元模式转换为三个二进制模式。 |
局部二值模式(LBP)是一种基于相邻像素点差异符号的图像描述算子。该方法计算速度快,对图像的单调灰度变化具有不变性。由式(4)得到的中心像素方向为“1”;然后,可以通过将其隔离为三个二进制模式来定义。每个四元图案根据像素值的方向分为3个二进制图案。类似地,中心像素的其余三个方向(部分)的其他三个四元模式被转换为二进制模式。因此,我们得到了12 (4 X 3)个二进制模式。 |
构建震级模式: |
尽管与幅度成分相比,符号成分提取了更多有用的信息,但利用符号和幅度机制的组合可以提供更好的线索,这在任何一个单独的成分中都不明显。这一概念促使我们通过使用水平和垂直一阶导数的幅度提出了第13个二进制模式。 |
' |
输入:查询图像;输出:步骤: |
a.选择一个像素,在水平和垂直位置选择相邻像素,计算该像素与相邻像素的差值 |
b.同样选择它周围的8个相邻像素,计算所有相邻像素与其相邻像素的差值。 |
c.比较一个像素值与相邻8个像素值的差值。 |
d.如果一个像素的差值小于相邻像素的差值,则表示给出“1âÂ′Â′”作为幅度模式值。 |
e.如果一个像素的差值大于相邻像素的差值,则表示给出“0âÂ′Â′”作为幅度模式值 |
对于有邻域的局部模式,lbp的变化是可能的,从而得到特征向量的长度。对于均匀模式和非均匀模式,计算了该特征向量的计算代价。在确定了局部模式(LBP、LTP、LDP或13-二进制模式形式的LTrP)后,通过构建直方图来表示整个图像。 |
为了降低计算成本,我们通过统一模式进行思考,统一模式是指在圆形二进制表示中具有有限不相干性的统一存在模式。本文将圆形二值图像中小于或等于两个不相干的模式称为均匀模式,剩余模式称为非均匀模式。因此,给定查询图像的不同统一模式将是P(P-1)+2。在确定了局部模式(LBP、LTP、LDP或13-二进制模式形式的LTrP)后,通过构建直方图来表示整个图像。 |
计算特征向量和查询匹配: |
使用直方图从组合的13(4X3+量级LBP)二进制模式中提取特征向量。最后,测量相似度并检索最相关的匹配。计算数据库中每个图像的特征向量。将查询图像与数据库中的图像进行比较,通过测量查询图像与数据库中的图像之间的距离来选择最匹配的图像 |
其中,为数据库DB中第th图像的第th个特征,为查询图像的特征。 |
实验结果 |
这个数据库包含了从动物到户外运动到自然图像等各种内容的大量图像。这些图像已经被领域专家预先划分为不同的类别,每个类别的大小为100。 |
数据库中的图像包含不同的维度,并将其收集成单个数据库图像。所提方法的性能以平均精密度和平均召回率来衡量。性能分析表明,该方法对数据库DB的平均精密度/平均查全率由73.4%/42.7%提高到79.5%/47.8% |
结论 |
本文提出了一种用于CBIR的LTrPs方法。LTrP根据水平和垂直导数计算的像素方向对图像进行编码。由于该方法对图像中所有像素的幅值模式进行计算,提高了图像检索速度和图像检索时间。在该系统中,只使用水平和垂直像素进行导数计算。除水平方向和垂直方向外,还可以通过考虑导数计算的对角线像素来进一步改善结果。由于所提出方法的有效性,它也可以适用于其他模式识别应用,如人脸识别、指纹识别等。 |
参考文献 |
|