所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

光学字符识别的基于ICA的图像二值化方法

m . Jyostna恩典1和k Subhashini2
  1. PG学生(ECE),部门的ECE K.L.M.工程学院对于女性来说,古德柏县,印度安得拉邦
  2. 助理教授、ECE系K.L.M.工程学院对于女性来说,古德柏县,印度安得拉邦
相关文章Pubmed,谷歌学者

访问更多的相关文章国际先进研究期刊》的研究在电子、电子、仪表工程

文摘

图像二值化起着至关重要的作用在文本分割用于OCR应用程序。在退化图像二值化的文本是一个挑战性的任务由于色彩变化,大小和字体的文本和结果往往受到复杂背景的影响,不同的照明条件下,阴影和反射。这个问题一个健壮的解决方案可以显著提高场景文本识别算法导致的准确性等多种应用场景理解、自动定位、导航和图像检索。在本文中,我们提出一个新颖的方法从图像中提取和binarize文本包含复杂的背景。我们使用一个基于独立分量分析(ICA)技术在地图上标出文本区域,在本质上是统一的,而消除阴影,高光和反射,包括在背景中。这对不同退化图像算法更有效。我们实现方法DIBCO数据集然后我们比较健壮与现有的标准如二值化算法基于大津法,我们可以证明我们的算法会给更好的结果。

关键字

图像二值化、阈值自适应局部图像对比,连接组件、独立成分分析。

介绍

近年来,基于内容的图像分析技术已收到更多的关注,各种数字图像捕获设备的出现。图像捕捉到这些设备可能显著不同取决于照明条件下,反射、阴影和高光。这些图像包含大量退化等不均匀照明,背景复杂,多种颜色,模糊等。我们提出一个方法消除反光,阴影和高光的自然场景文本图像,提取出文本从一个单一的形象。有许多算法,旨在从背景图像中提取前景文本但thresholdingremains最古老的形式之一,在许多图像处理应用程序使用。许多复杂的方法通常有阈值作为预处理步骤。通常用于段图像组成的明亮物体对黑暗的背景,反之亦然[1],[3],[4]。它通常适用于图像的前景和背景是明确定义的。颜色阈值图像,大多数算法将RGB图像转换成灰度但是我们将利用RGB通道的三个不同的来源。
传统的基于阈值的二值化可以begrouped分为两类:一种使用全局阈值为给定的图像首先进行[2],难应付的et al。[5]和一个与当地阈值像Sauvola [6], Niblack [9]。在全球的阈值方法[2]、[7],全局阈值用于所有像素在图像。这些方法是快速和可靠的使用一个基于全局直方图阈值的像素灰度值图像。但是他们不适合复杂和退化的场景图像。还选择合适的阈值对整个图像通常是一个挑战,因为它是困难的阈值algorithmto区分前景文本从复杂背景。另一方面,本地或自适应二值化方法[8]变化阈值对图像根据当地地区属性。自适应阈值处理整个图像局部强度的变化。在这些方法中,pre-pixel阈值计算每个像素周围基于当地的一个窗口。因此,不同的阈值用于图像的不同部分。这些方法提出了克服全球二值化的缺点,但他们可以敏感图像构件中发现的自然场景文本图像像阴影,高光和反射。 Mishra et al [13] has recently formulated the problem of binarization as an MRF optimization problem. The method shows superior performance over traditional binarization methods on many images, and we use it as the basis for our comparisons. However, their method is sensitive to the initial auto seeding process. Zhou et al [14] also addresses the segmentation problem in text images which contains specular highlightsand focal blur. On the other hand, we propose a method that removes shadows, specularity and reflections and thus produces a clean binary images even for the images with complex background. The primary issue related to binarizing text from scene images is the presence of complex/textured background. When the background is uneven as a resultof poor or non-uniform lighting conditions, the image will not be segmented correctly by a fixed gray-level threshold. These complex backgrounds vary dramatically depending on lighting, specularities, reflections and shadows. The above methods applied directly to such images give poor results and cannot be used in OCR systems.
图像
在本文中,我们基于ICA分解使我们分离文本包含从复杂背景、反射、阴影和高光。对于二值化,我们应用全局阈值方法在图像的独立的组件,以最大的文本属性用于提取前景文本。二值化结果表明显著改善在其他文本的提取方法。一些单词的图片,我们用于实验是图1所示。本文的其余部分组织如下。在第二部分讨论了一般ICA模型之后,第三章详细的二值化过程。我们现有的部分中描述的方法是IV.We然后显示该方法的结果在各种ICDAR数据集的图像部分V,紧随其后的是第六章结论和进一步改善的潜在方向。

独立分量分析(ICA)模型

独立分量分析(ICA)一直是一个活跃的研究课题,因为它潜在的应用在信号和图像处理。ICA的目标是separateindependent源信号从观察到的信号,这是假定为线性独立源组件的混合物。ICA的数学模型是由混合处理和制定一个显式的分解处理。
假设存在一组“n”未知源信号S = {s1, s2,……sn}。组件的假设{si}包括相互独立、固定和零的意思。一组观察到信号X = {x1, x2,……xn},被视为源的混合组件。最经常被认为是线性瞬时混合模型噪声免费模式,它被描述为:
图像
图像

二值化过程

各种各样的ICA算法在文献[11],[12]。这些算法不同于彼此的基础上,选择目标函数的选择和优化方案。这里我们使用一个快速定点ICAalgorithm分离出文本从复杂backgroundin图像。一种基于奇异值分解的盲源分离方法也可以使用[10]。图二显示了该方法的完整框架。
图像

答:分离模型

考虑文本形象的混合像素从三个不同的来源,认为它是一个无声的瞬时混合。我们使用一个图像。,its R, G and B channels as three observed signals. Therefore, we can define that the color intensity at each pixel from these three observed signals mix linearly to give the resultant color intensity at that pixel. Denoting these mixture images in row vector form as xr, xg and xb, the linear mixing of the sources at a particular pixel k can be expressed in matrix form as follows:
图像
其中X是一个瞬时线性混合的源图像像素k,一个是瞬时3 x3广场混合矩阵和S是添加到表单的源图像像素的颜色强度k。X的混合图像包含源图像的线性组合在美国我们发现混合矩阵和资源使用定点ICA算法。在这一步中,我们得到了三个独立的来源或组件。图3显示了背景和前景提取。
图像
αi表示像素的数量在每个类,μi表示每个类的均值,T的值是潜在的阈值。我们应用此阈值算法在所有三个独立组件来获得图像的关键。我们也可以申请难应付的[5]算法也是一个全局阈值方法。找到包含前景文本的IC,我们检查连接组件(CC)为每个关键每个IC。图像的二值化,我们从CCs中提取以下特性:平均宽高比,CC的方差大小和重心的偏离线性。一个简单的线性分类器设计单独的文本和非文本类在上面的特征空间。二值化后,我们确定连接组件和删除非文本部分根据大小和长宽比。在实践中,我们注意到一个更简单的全局阈值方案在大多数情况下很有效。

现有的方法

答:对比形象建设

图像梯度已经广泛用于边缘检测,它可以用来检测文本文档的中风边缘图像的有效统一的文档背景。另一方面,它经常从背景中检测到许多nonstroke边缘退化的文档通常包含特定的图像由于噪声变化,不均匀照明,渗滤,等。正常提取只有中风边缘,图像梯度需要规范化文档中的补偿图像变化的背景。
当地的对比评估由当地形象最大和最小是用来抑制背景变化。特别是,当地最大的区别和局部最小值,捕捉当地的图像不同,类似于传统图像梯度和归一化因子抑制图像文档中的变化的背景。图像像素在明亮的区域,它会产生一个巨大的标准化因素中和分子和因此导致相对较低的图像对比。为图像像素在黑暗区域,它将产生一个小的分母,因此导致相对较高的图像对比。然而,这张图片对比有一个典型的限制,它可能不妥善处理文档图像的明亮的文本。这是因为弱对比计算中风的明亮的边缘文本。为了克服这中,过度的规范化问题,我们结合当地的形象与当地图像梯度和派生出一种自适应图像对比如下:
图像
代表和Estd强度的平均值和标准偏差的检测文本中风边缘像素邻域窗口内W,分别。邻域窗口应至少大于笔划宽度,以包含中风边缘像素。所以邻域窗口的大小W可以设置基于笔划宽度下的文档图像研究中,电子战,可以估计发现中风的边缘。

实验结果和分析

我们使用2003年ICDAR健壮的词识别数据集实验[15]。定性评价,我们选择了这个词,复杂的反射图像,阴影和高光背景。我们分开的这些单词的图片到红、绿、蓝通道假设这些都是独立的混合图像源图像包含前景(文本)和背景。这三个图片是用于提取描述的前景。提出了二值化方法的文本定位和识别结果如下图4所示。
图像
我们比较我们的方法的性能和四即众所周知的阈值算法。,难应付的[5],大津[2],Niblack[9]和Sauvola [6]。我们也与最近的方法Mishra等[13]。尽管许多图像表现良好但严重失败的阴影,高照度的变化图像。这个可怜的显示可能是因为事实算法的性能严重依赖于初始种子。我们既有定性和定量方法的结果。定性的结果如图5所示。我们花了大约50图像生成的数据集和其地面实况图像像素级精度。我们使用众所周知的精度控制措施,召回和f值比较该方法与不同的二值化方法我们也使用OCR精度显示我们的方法的有效性。请注意,我们只使用最退化图像的子集跟踪照明变化,噪音和镜面反射。阈值的结果OCR的计划太穷。
图像
结果表明,该方法是一种有效的方法和执行比其他方法有复杂背景的情况下图像。图6显示了我们的技术还可以应用于文本图像包含两种不同的颜色的文本。
图像
我们分析,上述方法不工作的情况下有一个复杂和纹理背景图像。这并不是说这些方法根本不工作,没有单一的算法适用于所有类型的图像。因此我们可以说,我们的方法可以提取出文本嵌入到复杂的反射、阴影和高光背景。我们的方法失败的情况下前景文本和背景是一样的颜色。此外,这种方法只适用与彩色图像。

结论

我们提出了一个有效的方法来与反射binarize文本从彩色场景文本图像,阴影和高光背景。利用盲源分离技术,紧随其后的是全局阈值,我们可以明显区分文本部分的图像和背景。ICA分解使我们能够独立的思考,从自然场景文本阴影和高光,全局阈值方法可以应用之后binarize文本图像。ICDAR数据集上的实验结果证明我们的方法比其他现有方法的优越性。可能的方向改进的方法包括patch-based SVM。分类阈值以及集成结果的空间意识到优化磁流变液等,使用相同文本的前景和背景颜色也是极大的兴趣。

引用

  1. r . m . Haralick l·g·夏皮罗,图像分割技术,计算机视觉、图形和图像处理,卷。
  2. 29日,第132 - 100页,1985年。
  3. n .大津阈值选择方法从灰度直方图,IEEE系统,人,和社会控制论,9卷,第66 - 62页,1979年。
  4. p . k . Sahoo s Soltani和A . k . c . Wong y . c . Chen的调查阈值技术,计算机视觉,
  5. 图形和图像处理,41卷,第260 - 233页,1988年。
  6. n . r . Pal和s . k .朋友回顾图像分割技术,模式识别,26卷,第1249 - 1227页,1993年。
  7. j .麻烦的和j·伊林沃思和j . Foglein阈值选择基于一个简单的图像统计,计算机视觉,图像处理Graphicsand, 30卷,第147 - 125页,1985年。
  8. j。j Sauvola和m . Pietikainen适应性文档图像二值化,模式识别、33卷,第236 - 225页,2000年。
  9. p . Sahoo g . Arora,将二维renyi基于熵的阈值方法,模式识别、37卷,页。
  10. 1149 - 1161年,2004年。
  11. j . Bernsen动态阈值灰度图像、模式识别国际会议上,页1251 - 1255,
  12. 1986年。
  13. w . Niblack,介绍数字图像处理,纽约,普伦蒂斯霍尔出版社,1986。
  14. r . Szupiluk Cichocki,盲目使用二阶统计信号分离,Proc. SPETO, 485 - 488年,2001页。
  15. a . Hyvarinen和j . Karhunen大肠Oja独立分量分析,约翰·威利和儿子,纽约,2001年。
  16. Hyvarinen和大肠Oja,独立分量分析:算法和应用,神经网络,13卷,页。
  17. 411 - 430年,2001年。a . Mishra k . Alahari和C。V dina MRF模型对自然场景文本的二值化,ICDAR 2011
  18. y周,j .无雨,E米勒和R王,通过逆渲染场景文本分割,ICDAR 2013。
  19. 2003 ICDAR健壮的阅读数据集,http://algoval.essex.ac.uk/icdar/RobustWord.html
全球技术峰会