所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

从自然场景图像文本提取和转换音频在智能手机的应用程序

m . Prabaharan1,k达2
  1. M。E学生,计算机科学与工程系,Muthayammal工程学院,印度
  2. 计算机科学与工程系助理教授,Muthayammal工程学院,印度
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

从自然场景图像中提取文本字符是一个具有挑战性的问题由于不同的文本样式,字体、大小、方向、对齐和复杂的背景。图像和视频中的文本数据包含某些有用的信息索引和基于内容的信息检索、翻译和智能驾驶辅助标志。在场景文本提取,相邻字符分组和字符中风取向方法执行搜索图像区域的文本字符串。我们所提出的系统中提取文本和文本信息提取到音频。智能手机应用程序是用来显示我们提出的方法的有效性。

关键字

场景文本提取,字符笔划方向,智能手机应用程序

介绍

从图像中提取文本或视频是一个重要的问题在许多应用程序文档处理、图像索引,视频内容摘要、视频检索、视频的理解。在自然场景图像和视频,文本字符和字符串通常出现在附近的标志板和手持对象并提供周边环境和对象的重要知识。自然场景图像通常患有低分辨率和低质量,透视失真和复杂背景[1]。
场景文本很难检测、提取和识别,因为它会出现倾斜,倾斜,在任何照明,在任何表面,可能会部分堵塞。很多方法用于文本检测最近提出了从自然场景图像。从自然中提取文本信息的移动设备,自动、高效的场景文字检测和识别算法是至关重要的。本文的主要贡献与拟议中的两个识别方案相关联。首先,提出了一种特征描述符提取字符的代表和区别的功能补丁。它结合了几个特征探测器(Harris-Corner最大稳定极值区域(女士),和密集采样)和面向梯度直方图(猪)描述符[5]。其次,生成一个二进制分类器为每个字符类的文本检索;我们提出一个新的中风从字符边界和骨架模型配置角色结构。
该方法结合场景文字检测和场景文本识别算法。通过字符识别器,文本的理解是为移动应用程序能够提供周围文本信息,每个字符的字符分类器类,文本检索能够帮助寻找希望对象从环境。类似于其他方法,我们提出了特征表示是基于国家的艺术低级特征描述符和编码/池方案。不同于其他方法,我们的方法结合了低级特征描述符与中风文本特征结构配置模型。同时,我们现在各自的概念文本理解和文本检索和评估我们的提出基于字符特征表示这两个方案在我们的实验。此外,以前的工作很少提出的移动实现场景文本提取,我们我们的方法移植到一个基于android平台。

相关工作

当前光学字符识别(OCR)系统可以达到几乎完美的识别率在扫描打印文本文件,但是不能准确识别文本信息直接从相机拍摄场景图像和视频。陆等。[3]建模的内在性格结构通过定义一个字典基本形状代码执行字符和单词检索没有OCR扫描文件。科茨等。[5]提取字符patchesfrom一种无监督学习方法associates的地方特色与k - means聚类的变体,和层叠sub-patch汇集他们的特性。在[8],一个完整的绩效评估场景文本的字符识别进行了设计场景文本人物的区别的特征表示的结构。Weinman等。[7]结合Gabor-based外观模型,语言模型与同时性频率和字母大小写,相似性模型,词典模型进行字符识别。纽曼等。[1]提出了一种实时场景文本定位和识别方法基于极值区域史密斯et al。[2]建立了一个基于筛选场景文本字符相似度模型的基础上,和最大化后验概率相似性约束的整数规划。Mishra等。[9]采用条件随机场结合自下而上的字符识别和自顶向下wordlevel识别。

提出了设计

文本检测和识别用于检测复杂背景图像中的文本。需要文本图像作为输入,然后将它从图像去除噪声的预处理方法将彩色图像转换为灰色,二值化,有助于高效和精确的文本从图像输入的OCR识别,在预处理部分文本数据是否会损失他们变薄和扩展是由连接算法。然后我们从图像获取连接文本字符。然后文字识别。拟议的框架分为三个阶段。这里应用文本检测和文本识别图像和识别。文本检测使用快速提取文本区域图像非常少的假阳性率。提供准确的识别结果我们提出了系统测试文本图像分割,假设图像中不同数量的类。
图像
它是一个要求很高的问题自动定位感兴趣的对象和文本区域从抓取的图像杂乱的背景,因为在自然场景文本图像最有可能被各种环境异常噪音和文本字符通常出现在不同的字体和颜色。内容方向,本文假设文本字符串的部分场景图像中保持垂直位置。几个算法开发定位文本区域的场景图像。我们可以进行分类基于组件和操作。识别和提取文本从困难的背景和多个变量文本模式,这里提出一个文本定位算法,它结合了成立布局分析和horizontal-based文本分类器的准备,它定义地图基于中风方向和边界分布特征。生成委托和歧视的文本特性来决定文本字符从环境异常值。

答:文本检测:

文本检测阶段搜索检测内容的发生在一个相机捕捉自然场景图像。因为不同的字体,突出不同的杂乱背景图像改变和贬低正确和快速文本检测场景图像仍然是艰巨的任务。方法使用一个角色描述符文本片段从一个图像。最初发现内容是多大小图像,采用基于边缘的系统形态函数和投影图像的报告。这些文本区域检测证实使用描述符和小波的特性。算法强时不同风格,字体的大小和颜色。垂直边缘与一个预定义的模式被用来检测边缘,然后分组垂直边界到文本区域使用过滤过程。

相邻的文本分类过程

文本信息通常出现在文本字符串组成的几个角色成员相似的大小而不是单个字符,和文本字符串通常大约水平对齐。相邻字符分组方法计算每个字符的兄弟组织候选人作为字符串片段,然后合并相交的兄弟组织成文本字符串。模型边界大小和位置的文本字符串,一个边界框是分配给每个边界的颜色层。
图像
红框表示边界的边界框的颜色层。左下角的绿色区域连续两个数字代表两个相邻组相邻边界框相似的大小和水平对齐。图中的蓝色区域右下方代表文本字符串片段,通过合并重叠相邻组。对于每一个边界框,我们寻找它的兄弟姐妹在相似的大小和垂直位置。如果有几个邻居在其左和右边界框了,加入这些涉及盒装入一个地区。本节包含一个文本片段序列。最后这种方法是计算所有文本序列片段在这种颜色层,与十字路口和合并字符串片段。
为了提取文本字符串非横向方向。寻找可行的打印稿的文本在一个水平方向的实际范围。计算大约水平对齐时,我们不需要所有的人物安排在一条线在水平方向,但允许一些附近的字符之间的差异给成类似的字符串。在我们的系统,我们这个系列设置为±π/ 8度相对于水平线的。这个范围可能会更好,但它会带来更多的假阳性字符串从环境。提出图像到文本检测算法可以容纳要求字体变化,只要有足够的决议文本,如报纸标题。

b .文本提取

检测和提取的文本从相机捕捉自然场景图像。仔细从附近提取文本对象持有的盲人从凌乱的条件。文本发现是用来获取文本包含图像区域然后文本识别图像信息转换成可读的文本。这一步是指人物在原始图像进行分类。这是通过增加合成图与二进制转换小说形象。最终结果是黑色背景白色文本图像依赖于小说。

文本字符笔划的配置

文本字符包括中风与常量或变量取向的基本结构。在这里,我们提出一种新型的功能,中风取向,来描述文本字符的局部结构。从基于像素分析、中风方向是垂直方向的斜率在中风的像素边界。中风取向模型的文本结构,我们提出一个新的操作符中风的梯度特性映射到每个像素。它扩展了局部结构中风的边缘附近的梯度方向。我们用它来开发一个属性映射到分析文本字符的总安排。
图像
蓝色箭头表示中风配置部分,红色箭头表示像素的梯度配置中风边界。为了确定中风,中风是重新定义算法轮廓点在字符常数宽度和参考点。一个角色可以对应于一组有关中风与特定的配置包括数字,字母,对齐和长度的中风。在这里,中风的结构映射的定义是中风的配置。在字符类中,虽然这个角色实例出现在不同的大小、样式、字体,中风取向总是恒定的。例如,字符“B”始终是一个竖两个弧中风在任何模式。因此为每个62字符类,我们可以从培训评估中风配置补丁来描述其基本结构。合成字体[7]提出的训练数据集,得到中风配置。这个数据集包含大约67400个字符的综合英语字母和数字在不同的字体和风格,我们选择20000补丁来生成人物补丁。
它涵盖了所有的62类的人物。每个字符图像归一化到没有抗锯齿的128×128像素。在评估中风配置,生成字符边界和骨架提取中风相关的特性,用于中风组合配置。实现包含三个主要步骤如下。首先,给定一个合成人物补丁从训练集,得到边界和字符骨架通过应用离散轮廓演化(DCE)和骨架的基础上修剪DCE [9]。

文本提取到音频

移动发言人告知用户类型的演讲或提取文本编码的音频。手机扬声器用于语音输出。
文本提取是由当前的OCR早些时候从提取的文本区域作物有用的术语。一个文本区域标签的最小矩形的地方刻字,所以文本区域的边缘链接文本的边缘边界线质量。另一方面,当前系统提供更好的性能,如果文本部分首先分配适当的边缘地区和二进制文件从环境段文本字符。因此每个限制文本部分是扩大通过增强的高度和宽度分别10像素。我们测试开放和封闭的基础解决方案存在的api,分配翻译字母代码的结束阶段。
识别文本编码记录在脚本文件。然后我们构建语音加载脚本文件和显示文本信息的音频输出。用户可以调整讲话音量、音调和速度根据他们的偏好。

结论和FUTUREWORK

我们已经提出了一个从文本区域检测到场景文本提取的方法,这是兼容安卓移动应用程序,提取文本转换为音频。这个系统读取对象的文本信息,并通知盲提取的文本信息的用户。它检测到从自然场景图像和文本区域提取文本信息从检测到文本区域。在文本图像检测、分析色彩的分解和执行水平对齐搜索图像区域的文本字符串。该方法能有效区分感兴趣的对象从背景或其他对象在相机的视野。相邻字符分组执行计算文本补丁准备文本分类的候选人。一个演算法学习模式应用于本地化文本基于摄像头的图像。文本提取用于执行词识别本地化文本区域和转换成音频输出盲人用户。模型的文本字符结构文本检索方案,我们设计了一种新颖的特性表征,中风配置图,基于边界和骨架。系统演示了该方法的有效性在blind-assistant应用程序中,同时也证明了假设颜色均匀和一致的安排适合捕获的从自然场景文本信息。

引用

  1. b . Epshtein大肠Ofek, y Wexler与笔划宽度检测文本在自然场景变换的,在Proc。CVPR, 2963 - 2970年,2010页。
  2. r·博福特和c . Mancas-Thillou加权有限状态纠正错误自然风光OCR的框架,在Proc。9日Int, Conf.Document肛门。Recognit。,pp. 889–893, 2007.
  3. 张x, j .杨j ., a . Waibel的自动检测和识别从自然场景的迹象,IEEE反式。图像的过程。,vol. 13, no. 1, pp. 87–99, 2004.
  4. a·科茨等人的场景图像中的文本检测和字符识别非监督特征学习”,在Proc。ICDAR, 440 - 445年,2011页。
  5. n .中间人和b区格的梯度直方图的人工检测,在Proc。设计。第一版。粘度Recognit模式。,第893 - 886页,2005年。
  6. t . de Campos, b先生和m . Varma字符识别在自然图像,在Proc。VISAPP, 2009。
  7. r .史密斯,超正方体OCR引擎的概述,在Proc, Int。相依文档肛门。Recognit。,pp. 629–633 2007.
  8. s·m·卢卡斯,a . Panaretos l·索萨答:唐,s . Wong和r .年轻,ICDAR 2003健壮的阅读比赛,在Proc, Int。相依文档肛门。Recognit。,pp. 682–687, 2003.
  9. j . Zhang和r .卷,提取视频文件:文本对象的最新进展”,在Proc。8日IAPR Int,车间DAS, 5, 2008页。
  10. 问:郑,k . Chen y, g .琮、h·关,在复杂的场景文本定位和识别使用本地特性的,ACCV Proc。10日,第132 - 121页,2010年。