小说文本提取的基础上,从数字E-Videos识别

Ms.Suwarna Baheti¹,Prof.Kalpana S.Thakre²

采矿工程的学生,信息技术部,Sinhgad工程学院,印度浦那
副教授,信息技术部,Sinhgad工程学院,印度浦那

文摘

本文代表文本中提取信息(由数据)的序列图像(视频)的主要目的是视频分割。为了提取和搜索重要的信息从大量的视频数据,我们专注于文本的提取视频。然而文本的变化由于不同的文本样式,字体、大小、取向、排列以及低对比度图像和复杂背景的问题自动文本提取非常困难和具有挑战性的工作。大量的技术提出了解决这一问题,本文的目的是设计算法从视频中提取文本的每个阶段使用java库和类。这里我们首先帧图像的视频输入流使用Java媒体框架(JMF)与输入实时或视频从数据库和考虑到连接成分分析形式。我们应用预处理算法shot-frame转换为灰度和消除干扰叠加行文本,除不连续,点删除。然后我们继续定位的算法,分割、跟踪和识别。

关键字

图像处理、文本提取、文本识别、定位、二值化、分割、文本视频。

介绍

数字视频格式的结构非常独特。是一个序列的图像层次结构:从单帧,镜头、场景和情节作用[6]。大多数的图像索引技术可以用于视频文件。然而,由于大量的帧的视频文件,减少处理时间需要使用一些进一步的现场检测技术,或关键帧提取[5]、[7],[8]。这是一个挑战也是因为低分辨率的视频文件(与文档图像相比),对比的损失是由于压缩(例如MPEG)和复杂的背景[7],[8]。

视频文本可以分为两大类:图形文本和文本。图形文本或文本覆盖视频文本添加机械等视频编辑标题文本或文本重叠。例子包括新闻/体育视频字幕,影片学分等等场景文本的视频文本嵌入到真实世界的物体或场景。例子包括街道名称、汽车牌照号码和数量/名称的一个足球运动员,Evideos写作迹象或广告牌上,文本的卡车,甚至写在t恤衫。这些视频包含文本,包括滚动文本或标题文本由人工记录和现场后覆盖文本嵌入背景。文本嵌入到图像包含大量有用信息的质量。因为单词定义良好的和明确的含义,文本从视频中提取可以提供有意义的关键字,可以反映视频的大致内容。这些关键词可以用于索引和总结的内容视频[1]。

图像和视频中的文本识别序列是模式识别领域的研究,人工智能和机器视觉,通常被称为“视频OCR”,即视频光学字符识别。视频OCR试图创建一个计算机系统自动检测,提取和理解是什么意思的文本嵌入到图像和视频帧。

有四个步骤来完成视频文字识别

1。检测:检测文本的存在,应该回答“有一个文本字符串的当前帧吗?”

2。定位:定位文本区域,应该回答“文本字符串的当前帧在哪里?”

3所示。提取:提取文本,通常这一步是伴随着一个增强处理。

4所示。识别:识别文本,应该回答“这文本字符串表示什么呢?“这一步通常是伴随着一些二值化和/或分割预处理步骤。

这可以分类的困难主要在以下类别:-

我。背景和文本可能是模棱两可的。

二世。文本颜色可能会发生变化——文本可以有任意的和不均匀的颜色。

三世。背景和文本有时被逆转。

四、文本可能会移动。

诉未知文本大小、位置、方向和布局,标题与文档相关的结构通常缺乏。

vi。无约束背景:背景颜色类似于文本颜色。出现的背景可能包括条纹非常相似字符中风。

七世。颜色bleeding-lossy视频压缩可能导致颜色一起运行。

八世。低对比度,低比特率视频压缩可引起损失的对比人物中风和背景。

为什么E-VIDEOS使用视频

T人多年来一直使用视频剪辑;只是现在他们更容易在计算机上。这里有一些建议从在线学习网络社区论坛和E-tools„n ?小贴士教育者社区论坛上学习如何利用视频称为E-videos:

我。E-videos出于演示目的。他们支持的文本和交互。

二世。20秒E-video可以很容易地替换整个页面的文本,尤其是当试图解释一个详细的过程或者活动(即“如何”)。

三世。使用的游览,如e-video的偏移和编辑成电影不到5分钟。让学生把e-video和反思白天发生的事情,什么是科教等。

第四。显示其他学生在做什么,这样的社区能感觉到学习环境的一部分。

诉当你创建你自己的电影与学生作为一个群体而不是观看„其他电影吗?,它增强了群体内的相互作用和人性化。

vi。使用强调,定格或缓慢的一个事件可以难以置信的好处例如玩乐器或执行工艺技能或学习运动序列。

七世。照片在教科书可以通过e-video很无聊但使用真实的场景可以使整个形势更加迷人。

八世。短e-video开始时一个教训帮助作为一个掠夺者注意让学生思考和专注。

第九。为了简化语言是否字幕,屏幕上的标签或画外音的派生语言学习者的巨大好处。

x。学习者不同年龄组的享受和维持他们的热情学习用电脑首先学习使用数码相机时,作为一个团队工作,规划一个数字故事,会影响他们的社区。雷竞技官网

习E-videos可以通过小群体在大班上课可能不允许由于空间限制或健康和安全问题。

十二。E-videos存储在线允许学生(特别是那些缓慢的学习者)审核主题好几次了。

在E-VIDEOS框架的文本提取、识别

在这一节中,有一个清晰的了解这些方法,我们只会专注于描述框架和主要程序的方法。

)的文本检测:先前的文本检测方法在复杂背景可以分为自底向上,启发式自顶向下的方法和基于机器学习的自上而下的方法。

. 1)自底向上的方法并不真正检测文本的位置。直接的方法图像分割成区域,然后“字符”区域分组到的话。

a)启发式算法的自顶向下的方法第一部分旨在检测文本区域图像和第二部分可以被视为应用自底向上的方法在当地的形象。基于机器学习的自顶向下的方法系统提取导数特性从固定大小的像素块和分类特征向量为文本或非文本。

B]文字识别:由于商业OCR引擎实现高识别性能在处理黑白图像分辨率高,几乎所有的方法在文献中解决的问题文本识别在复杂的图像和视频采用一个OCR系统最终识别字符。扩展识别能力的OCR图像和视频文本,主要的研究工作集中在文本分割和增强。

C]文本分割方法提取的文本区域进行背景消除周围的文本字符。这些方法通常假定灰度分布是双峰,字符先验对应于白色部分或黑色部分。因此努力致力于执行更好的二值化。消除非字符区域的每个二进制图像,一个简单的连接成分分析步骤是受雇于设置限制大小,高度和宽度的比例等等。然而,这些方法无法过滤掉背景区域具有相似灰度值的字符。

D]文本增强——如果字符灰度值是已知的,文本增强方法可以帮助二值化的过程。增强文本的一种方法,在图像利用文本字符的特点有许多条纹结构组成。增强执行文本图像,图像块包含相同的文本字符串连续视频帧的探测和跟踪。

从E-VIDEO步骤来识别文本

文本信息提取过程通常分为几个步骤。研究人员使用不同的名称隐约和互换。在这方面,我们引入一个无监督方法来检测和定位文本对象在图像和视频帧。这种方法是基于一个新颖的基于图像结构文本模型和三个新角色特征。在该文本模型中,每个角色都是一个部分,每两个相邻的部分通过一个链接。每一部分的模型中,我们使用了特性计算字符的能量,它可以反映人物的固有属性,指出候选人的概率模型是一个字符。对于模型中的每一个环节,我们使用相邻字符之间的空间关系和属性相似度计算链接能量,这表明两个候选人连接部分的概率都是字符。

该方法的优点是:(i)字符和文本对象的结构的特点是所描述的部分。因此,该方法可以同时捕捉人物和文本对象的属性和有效结合起来;(2)提出了三个新的字符特征计算基于角色的固有属性。因此,该方法是健壮的大小,字体,颜色,和取向的文本,可以有效区分文本对象与其他对象。该方法的步骤如下:(i)初始化候选文本模型通过本地化候选人部件和连接在一个给定的帧图像。(2)计算字符能源基于字符属性的每个部分。(3)计算链接为每个连接能源基于文本属性。(iv)计算文本单位能源和使用最小生成树来生成最终的文本模型如图1所示。

框架的视频

我们使用Java媒体框架(JMF)来捕获视频媒体内容和框架。JMF是一个框架来处理流媒体在Java程序。JMF是一个可选包的Java 2标准平台。JMF提供了一个统一的架构和管理消息传递协议收购,加工和交付基于时间的媒体。

JMF允许Java程序:

我。(播放)多媒体内容。

二世。实时流媒体在互联网上。

三世。等过程媒体变化的媒体格式,添加特殊效果。

四、媒体存储到一个文件中。

诉JMF提供了一个平台无关的框架来处理多媒体

这一阶段的输入是一个视频包含文本。视频被诬陷成图像使用JMF 1帧每秒的速度。该比率可以增加或减少取决于视频的速度即fps(每秒帧数)的基础上。图像缩放的决议280 x90和保存在硬盘驱动器上的指定位置。

例如:如果30秒的视频,然后30帧(图像)的视频将缩放大小28 x90并保存然后给下一阶段作为输入[7]。B]前处理

按比例缩小的图像输入,然后转换成灰色的缩放图像。这幅图像预处理部分的第一阶段形成的。这是由考虑到RGB颜色内容(R: 11%,旅客:56%,B: 33%)的图像的每个像素,将它们转换为灰度。彩色图像转换成一个灰色的缩放图像做是容易识别的文本出现在灰色的图像缩放、图像转换成黑白图像包含黑色文本与更高的对比在白色背景。

第二阶段的预处理线去除。视频可以包含噪声的水平波动(水平线在整个屏幕)或垂直上下(垂直线整个屏幕)。因此,成功识别的文本中出现的框架,是必要的,这些水平和垂直的波动应该被删除。这是由清算所有像素(改变像素的颜色从黑色到白色)位于所有行横向或者纵向出现在屏幕上,因为在视频中可能发生波动。这个阶段没有进行任何更改图像如果视频帧不包含任何横向和纵向波动[6]。

预处理的第三阶段是不连续删除创建的第二阶段的预处理。如上所述,如果视频包含任何波动,这些波动中删除行删除阶段。如果水平和垂直波动发生的确切位置文本出现,然后创建文本出现在视频帧之间的不连续使文本的识别非常困难。这是由扫描每个像素从左上角到右下角和考虑每个像素及其邻近的像素。如果考虑一个像素是白色的,和所有的相邻像素是黑人,那么相应的像素设置为黑色表示,因为所有的黑色邻近像素的像素行删除阶段考虑了由于波动[3]。

预处理阶段的最终输出中剩余的噪声等干扰消除。这是再次进行扫描每个像素从左上角到右下角和考虑每个像素及其邻近的像素。如果考虑一个像素是黑色的和所有的相邻像素是白人,那么相应的像素设置为黑色表示,因为所有的黑色邻近像素的像素在考虑一些不必要的点(噪音)[2]。

C)检测和定位

在文本检测阶段,由于没有先验信息是否输入图像包含任何文本,文本的存在或不存在的形象必须确定。然而,对于E-video帧包含文本的数量远小于帧的数量没有文本。文本检测阶段旨在检测文本在给定图像的存在。选择一个框架包含文本从镜头当选视频帧,需要非常低的阈值对场景变化检测,因为部分被一个文本区域相对于整个图像通常是小的。这种方法是非常敏感的场景变化检测。这可以是一个简单和有效的解决方案,视频索引应用程序只需要从视频关键字,而不是整个文本。本地化阶段包括本地化文本检测后的图像。换句话说,文本中帧被识别跟踪框或地区相似的像素强度值并返回给下一阶段进行进一步处理。这个阶段基于区域的方法用于文本定位。基于区域的方法使用颜色或灰度的属性在文本区域或分歧的对应属性的背景。 [2], [5].

D]分割

文本是本地化后,文本分割步骤处理文本的分离从背景像素像素。这一步的输出是一个二进制图像,出现在白色背景黑色文本字符。这个阶段包括实际文本区域的提取具有类似属性的像素划分成轮廓段和丢弃的冗余部分框架[2]。

E)识别

这个阶段包括实际提取字符的识别通过结合各种特性提取前阶段给实际文本的帮助监督神经网络。在这个阶段,细分的输出阶段被认为是和图像中包含的字符与预定义的神经网络训练集,根据图像中字符的值出现,表示最近的训练集的特征值显示为识别字符[2],[4]。

实验的目的是分析影响质量的文本包含在视频对文本信息提取的成功率(查全率和查准率组抽取概率);即实用性的文本信息提取的视频索引和检索信息。

召回和精密测量分别为每一个上面提到的文本质量为了捕捉文本质量的影响成功的文本信息提取。处理时间的测量一起获得的结果平均帧。运行已报告的错误。最后,结果分析和评估数字E-video信息检索有用的上下文。不同的词识别率已为每个指定的类别分别测量,以验证文本信息提取方法的有效性提供视频索引。指定的有效性已经得到结果:正确识别不同的词的数量每一类的视频。

的例子。输入数字E-video java的解释为教师吗?

TC:总不。的字符RL:有关;RT:检索海军:非相关;NRT:不是检索

因此,建议的方法

精密回忆= 97.5% = 94%

不同的单词识别率= 95%

计算时间=约2 - 3秒

结论

在本文中,我们提出一个新的框架同时考虑到教师吗?讲座视频,提出新颖的视频分割技术,多媒体知识包括e-videos发现知觉和语义知识的技术。交互时可以发现视频记录,编辑和回放。对物质创造,我们揭示了一个常见的问题和提出解决方案。记录模型并给出提高教师吗?相互作用的材料。

识别关键字从视频序列仍然是最具挑战性的问题之一教育材料,因为视频的低质量和帧图像很小。我们提出了一种简单而有效的技术来检测和识别关键字从视频序列,这是两个主要挑战:(检测和分割)。检测并不困难,但从视频很难获得准确和正确的材料。我们学习算法,该算法的性能敏感的组合数,给好的结果,了解新用户。

表乍一看

表1

数据乍一看

图1

引用

JulindaGllavata”,从图像中提取文本信息和视频自动基于内容的注释和检索”。

牛津Clarendom”,电和磁Edge-based方法,”IEEE, 3日。2卷,1892年,pp.68 - 73。

“一个健壮的彩色视频文本提取算法”(本文发表在多媒体和世博会。2000年,ICME 2000年,2000年IEEE国际会议发行日期:2000)

K。荣格,K.I.金姆和A.K.耆那教徒”,文本信息提取在图像和视频:一项调查模式识别字母,”27日:977 - 997年,2004年。

R。Lienhart和。韦尼克,“本地化和Segmeniting文本在图像和视频,“交易电路和系统视频技术,12(4):256 - 268年,2002年。

N。Efford,“数字图像处理:一种实用的介绍使用Java,“艾迪生韦斯利,2000。

唷,B。,Liu, B. (1995), “Rapid scene analysis on compressed video,” IEEE Transactions on Circuits & Systems for Video Technology, 533-44.

张,H。,Kankanhalli A., and Smoliar, W. (1993), “Automatic partitioning of full-motion video,” Multimedia Systems, 10-28.

ChitraDorai Oria, V。Neelavalli, V。,“Structuralizing educational videos based on presentation content,” Image Processing, 2003 International Conference on, Vol. 2, pp-1029-32, 14-17 Sept. 2003.

f . Smeaton”索引、浏览和搜索的数字视频和数字音频信息,“音频,93 - 110年,2000页。

j .张和r .卷,“提取视频文件:文本对象的最新进展,“2008年第八IAPR国际研讨会在文档分析系统中,5 - 17页,2008年9月。

佐藤t, t·金·e·k·休斯和m·a·史密斯,”视频OCR:索引数字新闻库识别叠加字幕,“多媒体系统,7卷,没有。5,385 - 395年,1999页。

h·李和d . Doermann文本增强数字视频使用多个框架集成,”方法,1 - 12,1999页。

d .陈和j . Odobez”视频文字识别使用序贯蒙特卡罗和错误投票方法,“模式识别字母,26卷,没有。9日,第1403 - 1386页,2005年7月。

h . z黄小东和m .华东新视频文本提取的方法,“多媒体和世博会,2009年。ICME 2009。IEEE国际会议上,650 - 653年,2009页。

j . Assfalg m·贝尔蒂尼c·科伦坡,a . Del女人“提取从新闻和体育视频语义信息,“当前2001。第二届国际研讨会上图像和信号处理和分析。与23日国际会议信息技术接口(IEEE Cat.No.01EX480), 4, 2001页。

k·荣格”,文本信息提取在图像和视频:一项调查,”模式识别、37卷,没有。5、2004年5月,页977 - 997。

陈D。,J. Luettin, K. Shearer, “A Survey of Text Detection and Recognition in Images and Videos”, Institute DalleMolled? Intelligence Perceptive (IDIAP) Research Report, IDIAP-RR 00-38, 2000

荣格K。,K。I. Kim, and A.K. Jain, “Text Information Extraction in Images and Video: A Survey”, Pattern Recognition, pp. 977-997, 2004