在线刊号(2278-8875)印刷版(2320-3765)
杰斯特纳·格雷斯1以及K. Subhashini2
|
有关文章载于Pubmed,谷歌学者 |
更多相关文章请访问国际电气、电子和仪器工程高级研究杂志
图像二值化在OCR应用中的文本分割中起着至关重要的作用。退化图像中的文本二值化是一项具有挑战性的任务,由于文本的颜色、大小和字体的变化,结果往往受到复杂背景、不同光照条件、阴影和反射的影响。对这一问题的鲁棒解决方案可以显著提高场景文本识别算法的准确性,从而实现场景理解、自动定位、导航和图像检索等各种应用。在本文中,我们提出了一种从包含复杂背景的图像中提取和二值化文本的新方法。我们使用基于独立成分分析(ICA)的技术来绘制本质上均匀的文本区域,同时去除背景中包含的阴影、镜面和反射。该算法对不同退化程度的图像效果更好。我们在DIBCO数据集上实现了我们的方法,然后我们将我们的鲁棒算法与基于Otsu方法的二值化等最先进的标准进行了比较,我们可以证明我们的算法会给出更好的结果。
关键字 |
图像二值化,阈值化,自适应局部图像对比度,连通分量,独立分量分析。 |
介绍 |
近年来,随着各种数字图像采集设备的出现,基于内容的图像分析技术受到越来越多的关注。这些设备捕捉到的图像会因光照条件、反射、阴影和反射而有很大差异。这些图像包含许多退化,如不均匀的照明,复杂的背景,多种颜色,模糊等。我们提出了一种去除自然场景文本图像中的反射、阴影和高光,并从单幅图像中提取文本的方法。有许多算法旨在从图像中的背景中提取前景文本,但阈值仍然是许多图像处理应用中使用的最古老的形式之一。许多复杂的方法通常将阈值设置作为预处理步骤。它通常用于分割由明亮物体与黑暗背景组成的图像,反之亦然[1],[3],[4]。它通常适用于前景和背景明确定义的图像。对于彩色阈值图像,大多数算法将RGB图像转换为灰度,但在这里我们将使用RGB通道作为三个不同的源。 |
传统的基于阈值的二值化可以分为两类:一类是对给定图像使用全局阈值,如Otsu [2], Kittler et al.[5],另一类是使用局部阈值,如Sauvola [6], Niblack[9]。在全局阈值分割方法[2],[7]中,全局阈值用于图像中的所有像素。这些方法快速而健壮,因为它们使用基于图像灰度值像素的全局直方图的单一阈值。但它们不适用于复杂和退化的场景图像。此外,为整个图像选择正确的阈值通常是一个挑战,因为阈值分割算法很难从复杂的背景中区分前景文本。另一方面,局部二值化或自适应二值化[8]方法根据局部区域的性质改变图像的阈值。自适应阈值处理局部强度在整个图像的变化。在这些方法中,像素前阈值是基于每个像素周围的局部窗口计算的。因此,对图像的不同部分使用不同的阈值。提出这些方法是为了克服全局二值化的缺点,但它们可能对自然场景文本图像中发现的图像伪影敏感,如阴影、反射和反射。 Mishra et al [13] has recently formulated the problem of binarization as an MRF optimization problem. The method shows superior performance over traditional binarization methods on many images, and we use it as the basis for our comparisons. However, their method is sensitive to the initial auto seeding process. Zhou et al [14] also addresses the segmentation problem in text images which contains specular highlightsand focal blur. On the other hand, we propose a method that removes shadows, specularity and reflections and thus produces a clean binary images even for the images with complex background. The primary issue related to binarizing text from scene images is the presence of complex/textured background. When the background is uneven as a resultof poor or non-uniform lighting conditions, the image will not be segmented correctly by a fixed gray-level threshold. These complex backgrounds vary dramatically depending on lighting, specularities, reflections and shadows. The above methods applied directly to such images give poor results and cannot be used in OCR systems. |
在本文中,我们进行了基于ICA的分解,使我们能够从包含反射、阴影和反射的复杂背景中分离文本。对于二值化,我们对图像的独立分量采用全局阈值方法,并使用具有最大文本属性的方法提取前景文本。二值化结果表明,与其他方法相比,文本提取有显著改善。我们在实验中使用的一些单词图像如图1所示。本文的其余部分组织如下。我们在第二节讨论一般ICA模型,然后在第三节讨论详细的二值化过程。我们现有的方法在第四节中进行了描述,然后在第五节中展示了所提出的方法在ICDAR数据集上的各种图像上的结果,随后在第六节中给出了进一步改进的结论和潜在方向。 |
独立成分分析(ica)模型 |
独立分量分析(ICA)因其在信号和图像处理中的潜在应用而成为一个活跃的研究课题。ICA的目标是将独立源信号从观测信号中分离出来,观测信号被假设为独立源分量的线性混合。通过混合处理和显式分解处理,建立了ICA的数学模型。 |
假设存在一组n个未知源信号S = {s1, s2,......sn}。分量{si}的假设包括相互独立、平稳和零均值。观测到的信号集合X = {x1, x2,.....Xn},视为源分量的混合物。最常被考虑的混合模型是线性瞬时无噪声模型,其描述为: |
二值化过程 |
文献[11],[12]中有各种各样的ICA算法。这些算法在目标函数的选择和优化方案的选择上各不相同。在这里,我们使用了一种快速定点ica算法从复杂的背景图像中分离出文本。还可以使用基于奇异值分解的盲源分离方法[10]。图2显示了所提方法的完整框架。 |
A.分离模型 |
将文本图像视为来自三个不同来源的像素的混合物,并假设它是无噪声的瞬时混合物。我们使用一个图像,即它的R, G和B通道作为三个观测信号。因此,我们可以定义这三个观察到的信号在每个像素处的颜色强度线性混合,从而给出该像素处的合成颜色强度。将这些混合图像以行向量形式表示为xr、xg和xb,则源在特定像素k处的线性混合可以用矩阵形式表示为: |
其中X为像素k处源图像的瞬时线性混合,A为像素k处的瞬时3x3平方混合矩阵,S为源图像加在一起形成颜色强度的源图像,X处的混合图像包含了S处源图像的线性组合,利用不动点ICA算法得到混合矩阵A和源S。从这一步,我们得到三个独立的源或组件。图3为提取的背景和前景。 |
其中αi表示每个类的像素数,μi表示每个类的平均值,T是潜在阈值的值。我们将该阈值算法应用于所有三个独立的分量,得到二值化图像。我们还可以应用Kittler[5]算法,它也是一种全局阈值分割方法。为了找到包含前景文本的IC,我们检查每个IC二值化中的连接组件(CC)。对于每个二值化的图像,我们从CC中提取以下特征:平均长宽比,CC大小的方差,以及它们的质心的线性偏差。设计了一个简单的线性分类器来分离上述特征空间中的文本类和非文本类。二值化后,我们识别连接的组件,并根据大小和纵横比删除非文本部分。在实践中,我们注意到一个更简单的全局阈值方案在大多数情况下工作得很好。 |
现有的方法 |
A.对比度图像构建 |
图像梯度被广泛应用于边缘检测,它可以有效地检测具有统一文档背景的文档图像的文字笔画边缘。另一方面,它经常从退化文档的背景中检测到许多非描边,这些背景通常包含由于噪声、光照不均匀、漏过等原因造成的某些图像变化。为了正确地提取笔画边缘,需要对图像梯度进行归一化,以补偿文档背景中的图像变化。 |
利用局部图像的最大值和最小值来评估局部对比度,以抑制背景变化。特别地,局部最大值和局部最小值之间的差值,捕获与传统图像梯度相似的局部图像差值,并通过归一化因子抑制文档背景内的图像变化。对于明亮区域内的图像像素,会产生较大的归一化因子来中和分子,从而导致图像对比度相对较低。对于暗区域内的图像像素,它会产生一个较小的分母,从而导致相对较高的图像对比度。但是,这种图像对比度有一个典型的限制,它可能无法正确处理带有明亮文本的文档图像。这是因为明亮文本的笔画边缘将计算弱对比。为了克服这种过度归一化问题,我们将局部图像对比度与局部图像梯度相结合,得到了一个自适应的局部图像对比度,如下所示: |
其中,Emean和Estd分别是在邻域窗口W内检测到的文本笔画边缘像素强度的平均值和标准差。邻域窗口应该至少大于笔画宽度,以便包含笔画边缘像素。因此,邻域窗口W的大小可以根据所研究的文档图像的笔画宽度EW来设置,这可以从检测到的笔画边缘来估计。 |
实验结果与分析 |
我们使用ICDAR 2003健壮的单词识别数据集[15]进行实验。为了进行定性评价,我们选择了具有复杂反射、阴影和镜面背景的文字图像。我们将这些文字图像分为红色,绿色和蓝色通道,假设这些是包含前景(文本)和背景的独立源图像的混合图像。如前所述,这三张图像用于提取前景。本文二值化方法的文本定位与识别结果如下图4所示。 |
我们将我们的方法的性能与四种著名的阈值分割算法进行比较,即Kittler [5], Otsu [2], Niblack[9]和Sauvola[6]。我们还与Mishra等人最近的方法[13]进行了比较。虽然它在许多图像中表现良好,但在阴影,高照明变化的图像中严重失败。这种糟糕的表现可能是由于算法的性能严重依赖于初始种子。我们展示了所提出的方法的定性和定量结果。定性结果如图5所示。我们从数据集中提取了大约50张图像,并生成了像素级精度的ground truth图像。我们使用众所周知的测量方法,如精密度、召回率和F-score来比较所提出的方法与不同的二值化方法,我们还使用OCR精度来显示我们方法的有效性。请注意,我们只使用阴影照明变化、噪声和镜面反射最严重的图像子集。阈值分割方案的结果对于OCR来说太差了。 |
结果表明,该方法是一种有效的方法,在图像背景复杂的情况下,其效果优于其他方法。如图6所示,我们的技术也可以应用于包含两种不同类型的彩色文本的文本图像。 |
我们分析,上述方法在图像中有复杂和纹理背景的情况下都不起作用。这并不是说这些方法根本不起作用,没有一种算法能很好地处理所有类型的图像。因此,我们可以说,我们的方法可以提取出嵌入在复杂的反射、阴影和镜面背景中的文本。我们的方法在前景文本和背景颜色相同的情况下失败。此外,这种方法只适用于彩色图像。 |
结论 |
我们提出了一种有效的方法从反射、阴影和镜面背景的彩色场景文本图像中进行文本二值化。通过使用盲源分离技术和全局阈值分割,我们能够清楚地将图像的文本部分从背景中分离出来。ICA分解使我们能够从自然场景文本中分离出反射、阴影和镜面,然后应用全局阈值方法对文本图像进行二值化。在ICDAR数据集上的实验结果表明,该方法优于现有方法。该方法可能的改进方向包括基于补丁的支持向量机。阈值的分类以及与空间感知优化(如MRF)的结果集成,对前景和背景具有相同颜色的文本进行处理也是非常有趣的。 |
参考文献 |
|