所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

基于视图的特征提取和分类方法马拉雅拉姆语棕榈叶文档图像

吉娜K。P1,拉。G2
  1. Kannur大学研究学者,喀拉拉邦,印度
  2. 喀拉拉邦副教授&头Kannur大学Indiaico城市,墨西哥
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

马拉雅拉姆语手写字符识别仍然是一个活跃的研究领域。大多数报告的当代作品使用人工数据集只有44个字符。高达99.78%的准确率与450样本/人物报道。在本文中,我们重点从棕榈叶中提取字符的识别(PL)手稿。与合成数据集使用PL原稿图像预处理和识别阶段带来了更多的挑战。研究现有的手写字符识别的性能(HCR)系统在PL图像,我们创建了一个数据库组成的450个样本每个44所选择的马拉雅拉姆语字符从PL获得图像。比较为目的的一种合成数据库组成的450个样本使用了相同的44个字符。

关键字

基于视图的功能,棕榈叶手写字符,MLP分类器

介绍

手写字符识别近年来吸引了大量的研究,在学术和生产领域的广泛关注。它是图像处理和模式识别的一个重要领域。印度是一个多语言和multi-script国家,十八官方脚本接受并有超过数百地方语言。文档图像处理是图像处理的主要应用领域之一。几个研究已经集中向发展的新技术和方法,减少处理时间,同时提供更高的识别准确率。手写识别的复杂是由于噪声的存在时间信息的损失。许多有希望的研究结果报道在手写字符识别的语言像英语,中文,韩语,日语,阿拉伯语。在印度语言研究是活跃在梵文字母,孟加拉语和一些有前途的研究成果也在南印度的德拉威语泰米尔语等语言,Telungu、卡纳达语、马拉雅拉姆语。目前的研究主要集中在脱机手写马拉雅拉姆语孤立的角色。几乎所有工作报告在马拉雅拉姆语手写字符识别进行了人造数据集。各种特征提取和分类技术相关的脱机手写识别regionalscripts调查进行了讨论。 As it is important to identify the script before the recognitionstep, various handwritten scriptidentification techniques were also well-discussed in the survey.A novel approach for recognition of unconstrained handwritten Marathi compound characters was proposed by Sushama&Shaila. The recognition was carried out using multistage feature extraction and classification scheme. The average recognition rate was found to be96.14% and 94.22%, respectively for training and testing samples with wavelet approximation features and 98.68% and 96.23%, respectively for training and testing samples with modifiedwavelet featuresCherguietalpresented an offline Multiple Classifier System (MCS)for Arabic handwriting recognition which combines two individual recognition systems based on Fuzzy ART network and RBF Some of the recent works reported a recognition accuracy of 99.78%, but used only a subset of Malayalam character set [1][2][3][4][5][6].An automated analysis of palm leaf document images is one of the key research areas. Such an analysis has many applications including creation of text database of historical documents. In this work we carried out a study of the specific challenges posed by a real handwritten character data set extracted from Palm leaf documents. Palm leaf manuscript is one of the oldest mediums of writing in India especially in Southern India. It is also the major source for writing and painting in South and Southeast Asian countries. There is no extant of palm-leaf manuscripts in India before the 10th century. However, the palm-leaf was definitely in use much earlier than this since it’s mentioned as a writing material in several literary works and its visual representation can be seen in several sculptures and monuments [7][8].
棕榈叶图像通常改变模糊图像的噪声,低或高对比度、边缘区和图像区域。预处理包括图像,去除噪声,或边界增强边缘,自动边缘检测、自动对比调整和分割。作为多个噪声损害自然图像的质量,提高增强技术需要改进的对比在棕榈叶图像[9]。棕榈叶文件不同于其他的文档被打印或由现代技术。这些物理介质上的信息难以提取,因为文档的格式结构松散。此外,这些文件是质量差的,由于他们的超龄的脆弱性和恶化。的各种问题是由于漏洞等问题和斑点媒体,模糊不清,蹭脏,灰尘和变色。这些因素导致可怜的对比,和重影的声音由于渗墨从另一边的前景文本和背景之间的手稿。此外,角色在狭窄的间隔线重叠和手写触摸组件。此外,汉字不寻常,不同形状,不同的风格,取决于作者。 In this paper, an attempt is made to develop a system to recognize Malayalam PalmLeaf characters. Development of an efficient and robust OCR system involves several stages such as pre-processing, feature extraction and classification. However, in this paper suitable technique for extracting the view based features from Malayalam Palm Leaf character which could be further used in development of an OCR system is presented.
手写的棕榈叶OCR系统文档图像包括以下阶段:图像采集、预处理、特征提取、分类和识别字符。本文基于视图的性能特点在棕榈叶字符图像的识别。

二世。材料和方法

2.1数据集

对于我们的实验数据库组成样本的字符从马拉雅拉姆语棕榈叶创建文档图像。我们搜集了4000年马拉雅拉姆语手写的棕榈叶文档图像(chadanguBhasha、keralolpathi krishnagadaha, AdhyathmaRamayanam, Admanandavivekam, Agnihothrachadangu等等)的手稿图书馆马拉雅拉姆语,卡利卡特大学。收集到的图像扫描300 dpi。字符分割,裁剪以适合存储的最小尺寸的窗户和合成the44数据库包含450个样本每个选定的字符类。分割字符是关键,调整大小(72 x72)和变薄。进一步合成数据库相同数量的样本和人物。

2.2特征提取技术基于视图的功能。

特征提取是一个过程,从原始数据中检索最重要的数据。特征提取的主要目的是提取一组特性,使识别率最大化的用最少的元素。在特征提取阶段每个字符都被表示为一个特征向量,这成为其身份[10]。基于视图的特征提取方案棕榈叶文档图像字符的识别提出了这项工作。Everycharacter大小72 x 72像素的图像。视图是一个点集,情节四种预测对象的(上,下,左,右)它由像素属于人物的轮廓和极端值的坐标。例如,顶视图的一封信是一组点最大y坐标为给定的x坐标。接下来,表面特征点标记出每个视图来描述这一观点的形状(图2),选择这些点的方法和他们的数量可能有所不同,可以决定实验基地。考虑的例子,十二个均匀分布的特征点为每个视图。
图2。选择四个视图的特征点。

2.4特征提取算法

对于每个数据库中的图像,应用以下方法。发现并记录特性值。
步骤1:72 x72调整字符图像。
步骤2:在每个像素找到左图像视图。
步骤3:找到合适的在每个像素图像视图。
目的:找到每个像素图像视图在顶部。
顾不上发现在每个像素图像视图底部。
第六段:为每个视图,每个视图代码发现的总和。
提取特征(12、24、48)都存储成文件,用于后续实验。下一步是计算y坐标点的顶部和观点,和x坐标点左和右视图。这些数量是归一化,这样他们的价值观在区间[0,1]。现在,从48获得创建值特征向量来描述给定的字符,并进一步分析和分类的基础。

III.CLASSIFICATION

反向传播是一个流行和广泛使用的网络学习算法。反向传播网络作为分类器。反向传播网络是完全连接的分层,前馈神经网络包含一个输入层的神经元,或更多的中间层次称为隐藏层和输出层,识别性能的反向传播网络将高度依赖网络的结构和训练算法。节点的数量输入、隐层和输出层将决定网络结构[11]。所有上一层的神经元与后续的所有神经元完全互联层。

四、结果和结论

目前,我们已经考虑了整齐的棕榈叶字符的实验目的。该模型是在Windows7多使用垫实现实验室平台。预处理后,提取特征,共19800个样本用于识别目的。分类是使用weka MLP分类器来执行的。获得的结果是列表(表1)。两个数据库,每个类的75%用于训练其余25%是用于测试。因为它在进行整体识别手写的棕榈叶文档的准确性比这小的合成数据。
表1。两个数据库的分类性能
图像
在本文中,我们开展了基于视图的性能特性的比较分析和中长期规划识别的字符从棕榈叶获得文档图像和合成的字符图像。在确定字符的识别率从棕榈叶文档获得较小的合成数据。因此更好的棕榈叶HCR系统需要设计字符图像。

引用

  1. g . Raju宾度模拟和Madhu Nair,“小说手写字符识别系统使用基于梯度的特性和运行长度计数”,成就法,印度科学院,气象出版社。(印刷中)。
  2. GeenaK。P RajuG“棕榈叶文档图像字符识别系统”,喀拉拉邦科学大会2014年。
  3. 查柯,安塞先生。(2010页),前后处理方法在边缘检测进行字符识别。手写识别前沿(ICFHR)。
  4. N.Valliammal, S.N.Geethalakshmi(2011),混合方法,增强植物叶片识别计算机科学和信息技术的世界日报》(WCSIT) ISSN: 2221 - 0741卷。1、9。
  5. 宾度S模拟和拉克(2011),修改后的二次分类器和定向功能手写字符recognition.Int马拉雅拉姆语。j .第一版。达成。规范。计算机科学问题。
  6. KannanBalakrishnan Jomy约翰,Pramod k V,“手写字符识别的南印度脚本:回顾”,全国会议在印度语言计算,高知县,2月19日至20日,2011年。
  7. OlarikSurinta和RapeepornChamchong(2008),图像分割的历史书写的棕榈叶手稿370 - 375。
  8. WafaBousallana AbderrazhakZahourAdelAlimi(2008),一个分离的方法前景/背景使用混合方法在阿拉伯历史的手稿。Jounal通用计算机科学,第九卷,第二
  9. Ntogas,尼古拉斯,VentZas Dimirios(2008),二值化算法历史手稿,12 t圆柱通信国际会议上,伊拉克里翁,希腊。
  10. G。Vamvakas, b .偏见和s . j . Perantonis(2009),一种新的特征提取和分类识别方法的历史文献,10日国际会议文档分析和识别。