所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

文献综述在文本的变化和不同的图像和视频中的文本检测的方法

教授N.N.节日1密度,教授的Kavitkar2,Nagendra.G。Kushwaha3
  1. 教授,电子和电信部门。,P.R.M.I.T & R, Badnera Amravati,印度马哈拉施特拉邦
  2. 助理教授,电子和电信部门。,P.R.M.I.T & R, Badnera Amravati,印度马哈拉施特拉邦
  3. PG学生,电子和电信部门。,P.R.M.I.T & R, Badnera Amravati,印度马哈拉施特拉邦
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

图像和视频中的文本检测是相当具有挑战性的任务。文本检测方法检测文本字符的图像和视频的大小,方向,重复模式和其他变化很难检测到。许多不同的文本检测方法提出了基于文本的文本和属性的变化。对于文本检测,第一步是初始化的文本模型。初始化,提取区域的文本或单个字符图像或视频帧由边缘检测。第二步是描述区域包含文本对象的特点,根据不同的文本,如几何变化的文本,文本的颜色、运动的文本对象和文本的边缘。最后一步是删除非文本区域的图像或视频帧进行比较与不同文本的阈值特性。综述工作,不同类型的变化和问题相关的文本图像和视频中解释说,和不同的图像和视频中的文本检测方法进行了研究。

关键字

文本检测、零交叉边缘探测器,探测器哈里斯角落,背景减法,图像形态学膨胀,梯度向量和方向,笔划宽度

介绍

文本数据出现在图像和视频包含有用的信息进行自动注释、索引和结构的图像。已经被越来越多的应用程序对图像和视频数据的需求由于处理技术,显著改善网络子系统和大型存储系统的可用性。文本检测阶段旨在检测存在的文本在一个给定的图像和视频。如果这个文本信息可以提取和有效地利用,它可以提供一个更真实形式的基于内容的图像和视频。因此,从图像和视频文本检测是计算机视觉的一个重要研究课题。这些产生了各种各样的来源,包括远程教育项目、医疗诊断系统、业务和监视应用程序,广播和娱乐行业,等等。最近,增加可用性的低成本的便携式照相机和摄像机,图像和视频的数量被俘虏爆炸性增长。然而,这是一个非常具有挑战性的任务由于存在不同的字体,颜色,大小,方向,复杂的背景,不同的灯饰和扭曲。
然而,这样大量的图片和视频让我们越来越难找到特定感兴趣的图片和视频。因此,有一个紧急的需求开发一个基于内容的信息检索(CBIR)系统可以自动索引图像和视频文件有效地根据他们的语义内容。朝着这个目标,已经完成了大量的工作,提出了许多算法对CBIR系统的文学。尽管近年来已经取得了一些令人印象深刻的进展,现有的CBIR系统仍远非完美由于语义鸿沟,这被定义为机器描述符使用低级图像特性之间的差异(颜色、边缘、纹理、形状、空间关系,等等)和语义层面上描述符使用高级语义特征(对象、事件、逻辑推理,推理、抽象的概念,等等)。例如,对象基于本体的方法,使用空间位置,量子化的颜色和纹理特征只能描述没有许多简单图像的语义内容。
图像和视频中的文本可以分为两类:标题文本和文本。标题文本是人为地覆盖在图像或视频帧的编辑。虽然某些类型的标题文本比其他人更常见,这是观察到标题文本可以有任意的字体,大小,颜色,方向和位置。视频文件,标题文本事件可能保持静止和僵化的随着时间的推移,或者它可能翻译,增长或萎缩,并改变颜色。一个好的文本提取系统必须能够处理多种多样的这些类型的文本,为了支持基于内容的索引系统。文本中自然发生的场景或场景文本,也经常发生在图像和视频。例子包括文本出现在车辆(车牌、制造商/模型/经销商名称,公司名称在商用车,保险杠贴纸等),t恤上文本标志和广告牌上,文本和其他衣服。从技术上讲,场景文本的提取是一项更为艰难的任务由于不同大小、位置、取向、照明和变形。与大量的文本提取的技术说明,只有有限的工作是在文献中发现,重点是健壮的场景从图片和视频文本提取。
一般来说,大多数基于图像的文本提取方法可用于视频文件,因为视频可以被认为是一个序列的图像(帧)。然而,与静态图像相比,视频有一些独特的属性,可能会影响文本提取。一方面,视频通常有低分辨率、低对比度和颜色出血引起的压缩,这是不受欢迎的文本提取特征;另一方面,视频中的文本通常至少持续几秒钟给人类观众必要的时间去读它。这个时间冗余的视频非常有价值的文本验证和文本跟踪。
目前的方法给优势不同的字体,大小,颜色和方向,独立于语言和较低的平均时间花在每个像素上。最重要的和广泛使用的应用程序文本提取系统textbased图像/视频索引和检索使用公认的系统的输出。此外,许多其他应用程序的文本提取系统已经开发出来,如基于摄像头文本阅读系统对于视力受损的人来说,翻译可穿戴机器人,可穿戴text-tracking系统,车辆车牌识别和路标文本检测移动设备。

相关工作

文本检测几十年来一直是一个活跃的研究课题和审查所有的文本检测方法是不可能的。所以一些相关论文提出系统提到了如下:
金荣格K, K和耆那教徒[1]提供的调查文本信息提取在图像和视频。不同的算法的文本分类检测和定位。他们调查了几种定位方法等提出的方法,基于组件的连接方法,Edge-based方法,Texture-based方法和文本提取压缩域。作为单一的方法实现没有提供令人满意的性能因此集成的方法。
赵徐、林Kai-Hsiang云浮[2]提出了一种基于角的方法来检测文本和标题的视频,因为在每个字符存在致密有序的角点的存在。几个区别的特性被用来描述文本区域形成的角点的使用不同的应用程序可以扩展。实现一种算法来检测移动字幕视频中被光流运动特征提取结合文本特征来检测移动字幕模式。该系统检测到视频文本精度高和效率。这个提议系统克服了独立于语言。
Wonjun金和金Changick[3]提出了一个新颖的框架来检测和提取叠加文字从视频场景。观察是基于瞬态的存在及其相邻的背景颜色之间插入文本。首先,过渡地图生成基于饱和强度的对数的变化和修改。有关地图为每个连接组件生成候选区域,然后每个连接组件是重塑光滑边界。过渡像素密度和纹理的一致性在每个像素计算过渡到区分从其他候选区域覆盖的文本区域。该方法使用局部二进制模式的过渡像素周围的强度变化。该方法为实时应用程序非常有用。
京张和Rangachar卷[4]提出了一种新的无监督方法检测场景文本对象的造型每个文本对象作为图形结构。每个字符的文本对象的边缘中风视为两个边集的组合,有很高的相似性,取向和曲率。基于这三个新角色特征比如平均角的不同相应的配对,Non-noise相应对的一小部分,介绍了向量的笔划宽度引起中风的相似性对边缘和能量的计算。链接能量计算,描述两个邻国之间的空间关系和财产相似字符。单元能量(组合字符能源和链接)是用来衡量一个候选文本的概率模型是文本对象并生成最终的检测结果。
Yi-Feng锅、新汶侯和程琳刘[5]提出了一种混合动力强劲的方法来检测和定位文本在自然场景图像。评估现有的文本信息在图像金字塔,信心和规模一个文本区域检测器设计,帮助部分候选文本组件。条件随机场模型考虑一元组件属性(CRF)和二进制上下文组件与监督的关系参数学习提出了有效地过滤掉非文本组件。最后,文本组件分为文本行或与学习型能量最小化的方法。这三个阶段都是学习的基础,有一些参数需要手动调整。也证明有效的评估基于多语言图像数据集。Zhuowen你,艾伦·l·Yuille Xiangrong Chen和朱Song-Chun[6]引入了计算图像解析为基本的视觉模式的框架。他们提出了一个严格的分割与目标检测和识别相结合的方法。他们实现了一个模型基于视觉模式包括纹理和阴影区域,和对象(文本和脸)。他们还集成有识别力的推论和生成方法,克服彼此的缺点,构造解析图代表形象。
Chucai易建联和英利田[7]提出了一种新的方法来定位文本区域嵌入图像基于图像分割和连接组件分组。从文本字符的文本字符串,进行结构分析。使用梯度特征和颜色特征,选择候选文本字符的连接组件。然后执行字符分组结合候选文本字符的文本字符串包含至少三个字符成员保持一致。实验证明,基于颜色的基于分区执行比梯度分区。

提出了系统

一)不同文本的变化的图像和视频
文本图像和视频中可以表现出许多变化在图像和视频。这些变化导致许多问题检测图像和视频中的文本。主要有四种类型的不同文本的图像和视频。
我)几何的文本:
在文本检测的图像和视频,文本是主要积累的几何问题。文本的大小变化,对齐的文本和文本的国际角色距离显示几何。因此很难检测到非常小的图像和视频中的文本。如果一个图像包含重复模式,如果文本有重复词比很难检测。文本在图像和视频的主要几何尺寸:——在一个图像或视频帧,字符的大小有不同的长度或宽度。因此很难检测图像和视频帧中的小角色。图像或视频大小变异可能变化大小和小角色。
对齐:单个字符的对齐可能产生困难检测在图像和视频。如果有两个或两个以上的字符或说他们之间没有间隔字符连接在一起,很难从图片和视频帧检测文本。因此我们可以说,对齐可能发生因为单个字符的对齐和文本对象连接字符。
国米角色距离:如果字符之间的距离是零或者他们相互重叠或相同的字符重复在图像和视频帧,然后创建一个问题检测文本的图像和视频。图像或视频在国米距离变化可能重复字符。
(二)文本的颜色:
问题发生检测文本形式的图像和视频由于颜色、亮度,复杂的背景和透明的字符的文本图像和视频帧给上升到影响文本检测的变化。图像或视频颜色变异可能是透明的性格,不同的颜色和亮度和复杂的背景
3)文本对象的运动:
在低质量的视频和低像素图片,问题发生由于运动图像,低质量图像和灵活的表面形象,很难检测文本对象的图像和视频。图像或视频运动变化可能是快速移动图像、模糊图像和柔性路面
(四)文字的边缘:
文本提取算法是基于文本包括中风和高对比度。因此在对比变化的边缘文本给上升到检测的问题。边缘检测在图像和视频使用的字符。
B)不同的方法用于文本检测
有很多不同的方法提出了基于变化的文本检测在图像和视频的文本。等方法检测文本从角落的字符,字符能源和能量的联系,性格,边缘分割和空间分组、笔划宽度转换等等。这里我们已经讨论了两种方法:基于角落和性格和链接能量
1)基于角的方法
该方法提出的徐赵等[2]。在这种方法中,基于一个角落的方法来检测文本和标题的视频。这种方法的灵感来自于观察到存在致密有序的角点存在的人物,尤其是在文本和标题。我们用几个区别的特性来描述文本区域形成的角点。以灵活的方式使用这些特性,因此,可以适应不同的应用程序。语言独立性是一个重要的该方法的优势。
在这种方法中,角点是重要的特性具有以下优势。这是1)角落是连续和基本模式在文本区域。角落里比其他低水平更加稳定和健壮的功能;因此,可以消除背景噪音的影响在很大程度上。2)角点的分布在文本区域通常更有序的相比,非文本区域。因此,无序点可以过滤掉非文本角落根据设计特性。3)角点生成的使用更加灵活和高效的标准,根据该文本和非文本区域之间的边缘特征空间是歧视。
角点提取
可以被定义为一个角落相交的两条边或一个点有两个主导和不同的边缘方向在当地社区的观点。在这种方法中,哈里斯角落探测器是用来提取角点。角点很容易被看强度值在一个小窗口。将窗口在任何方向都应该产生大变化的外观。在这方面,使用矩形窗口或高斯窗口。哈里斯角落给数学方法确定该地区是否平坦,边缘或角落区域。
b)功能描述
后提取角点,计算区域的形状属性包含角点,决定接受该地区作为文本。首先,我们在二进制图像形态学膨胀角的形象。这样做,单独的角落点接近彼此可以合并成一个整体区域。文本和标题,角点密集的存在,因为字符没有出现孤独但连同其他字符,通常经常放置在水平的字符串。因此,文本可以有效地检测到弄清楚的形状特性形成的区域。有五个区域属性的特性来描述文本区域:区域,饱和,定位、长宽比和位置。
面积(Ra):区域的面积定义为前景像素的数量在一个矩形边界框包围的区域。区域的基本特征是文本检测。生成的小区域无序角落点可以很容易地过滤掉根据面积测量。
饱和度(Rs):饱和指定前景像素的比例也属于该地区的边界框,可以计算通过Rs = Ra / RB,其中RB表示整个地区封闭的边界框。这个特性非常重要的情况下,非文本角落点也可以生成区域相对大型Ra值。因此我们可以过滤掉区域比非文本区域像素越来越少。
方向(Ro):方向被定义为角度(从-90º90º)x轴和主轴之间的椭圆second-moments一样。这个特性很有用,非文本区域有相对大的Ra和小Rs。
纵横比(Ras):边界框的宽高比定义为它的宽度高度的比值。在视频,文本和标题通常放置经常沿水平轴。因此,一个相对较大的值显示字幕的存在超过一个小Ras的价值。我们可以利用这一特点来过滤掉一些假警报。
位置(Rp):区域的质心的位置。位置信息可以用于定位文本区域和特定类型和风格。
结合前面提到的五个特性来检测文本和标题和过滤假警报。基于角的方法,它的优点是语言无关的。每个像素的平均时间是基于低与纹理的方法。丢失的检测主要是由模糊和低对比质量和连接组件(文本和非文本区域)。
2)方法基于字符能源和链接:
作为C (x, y, t,λ)代表的空间能量分布图像。它指定能量空间坐标(x, y)在时间t,和波长λ。强度是真实的价值和它的模平方正比电力。因此我们可以使用字符和链接能量检测文本的图像和视频。
提出的这种方法是京张等[4]。在这种方法中使用三个字符特性检测文本对象中包括两个或两个以上的独立人物图像和视频。每个角色都是一个模型中的一部分,每两个相邻字符连接通过一个链接。对每个候选人来说,计算能量基础上,每个字符中风高相似之处形成两条边长度、曲率和取向。对于每个候选人联系,我们计算链接能源基于相似的颜色,大小,笔划宽度和间距字符,沿着特定的方向是一致的。对每一个候选文本单元,结合性格和链接能量计算文本单元能量衡量候选人是一个文本对象的可能性。该方法可以捕捉人物的内在属性和有效区分文本与其他对象。首先,性格能量计算基于中风边缘检测候选字符区域的相似性,然后链接能量计算基于空间关系和相似性邻国候选字符区域组字符和消除误报。在文本中,每个角色。两个相邻的部分通过链接,形成一个文本单元相连。 Then compute character energy so that we can indicate the probability that a candidate text model is character.
一)初始化候选文本对象
候选人的文本对象的初始化是基于假设图像中字符的边界是封闭的,因为通常性格有相对大的对比它的背景。本地化的候选人通过提取部分封闭边界边缘地图生成一个基于零交点边缘检测器。边缘出现作为一个对。计算梯度向量并找到每个边界点的对应点。
b)性格特征
有主要特性计算字符和链接能量。这些都是
(i)平均角的不同相应的配对(摇摆)措施所有相应的平均坡度方向差异对候选人的部分
图像
,不同的梯度方向图像
,N =数量的边缘点的候选人,abs() =绝对值和θp(我)和θpcorr(我)的梯度方向P (i)和Pcorr(我)
(2)部分Non-Noise双(Fnon-noise)
它测量噪声。Fnon-noise是全对的分数的差异大于β角和计算
图像
在那里,h (d(我),如果dβ)= 1(我)不到β,否则0,N =数量的边缘部分和β=预定义的角点的候选人。
(3)向量的笔划宽度(V宽度)
此功能是用来计算链接能量。人物有一个或多个控制笔划宽度取决于他们的字体。估计两个主导笔划宽度对于每个候选人使用笔划宽度连接部分。让Hsw笔划宽度的长度连接的直方图(欧几里得距离测量像素宽度单位四舍五入到最接近的整数值)。估计支配笔划宽度W值d(我)(我吗?[1,2])通过加权平均计算使用Wp(我)(我吗?[1,2])。
图像
在那里,Wp(我)是H峰值西南和两个权重r1= H西南(Wp(我)- 1)/小时西南(Wp(我))和r2= H西南((Wp(我)+ 1)/ HSW (Wp(我))。因此矢量笔划宽度Vwidth被定义为
图像
c)计算字符能源(E字符(我))
计算了,
图像
角色的价值能量位于0到1之间。它衡量候选人是一个字符的概率。因此,对于一个角色,Echar大于非物质能量。因此能量可以区分字符和非物质对象。
能源(E d)计算链接链接(i, j))
一个文本对象包含不止一个字符。因此,两个相邻字符之间的关系也可以为文本检测提供重要的信息。计算链接能量的概率来衡量每一个候选人联系两部分连接的链接都是字符。链接能量计算通过测量两个值:(i)相似的邻近部分的属性,如颜色、笔划宽度,和大小。(2)空间一致性的方向和距离邻近的部分字符串的部分。两个字符之间的链接能量vi和vj可以被定义为
图像
在那里,wk1非负权重求和。我们设置为0.25,因为我们想要给予同等重视,每个相似,S我,我(k)(k = 1, 2, 3, 4)是相似,可以计算出的值
图像
,思米(R) = min (R, 1 / R), C和Cj的意思是篮板的渠道v两个字符和vj。V(k), Vj(k) =笔划宽度,WWj=字符宽度,HHj=字符高度。
图像
高强度的链接显示文本单元的能量就越高。一样的人物有高强度与非物质相比,因此,他们有很高的文本单元能量比非字符。检测文本对象,文本单位的文本单元能量小于一个预定义的阈值TText从文本对象中删除。因此检测到一个文本从一个图像。
这种方法的优点是它可以检测出文本与各种字体、大小、颜色和方向。但仍有一些局限性。它不能检测单个字符,因为它需要两个或两个以上的字符查找链接能量。这种方法不能解决的问题重复模式,小字符和透明的字符。

结论

检测图像和视频文本的主题讨论。我们回顾了不同类型的文本的变化的图像和视频。我们也回顾了两种方法的文本检测,如检测角落和性格和链接能量。我们已经通过各种数码影像工具Matlab和Simulink仿真等。

确认

我想现在我真诚感谢教授N.N.节日和密度教授的Kavitkar巨大支持和指导整个工作。

引用

















全球技术峰会