虐待在手写字符识别多类SVM分类与混合特征提取

Dr.Kathir.Viswalingam¹,G.Ayyappan²

Bharath大学院长(R&D)印度钦奈¹
Bharath大学助理教授,信息技术部,钦奈,印度²

文摘

在本文中,我们倾向于描述混合离线写字符识别的特征提取。投影技术可能是一个混合结构,应用数学和相关选项。在开幕式上,投影技术标识的种类和位置中的一些基本笔画的性格。中风是寻找包括水平、垂直的,积极的和消极的倾斜线偏我们倾向于观察到任何字符的结构往往是近似的协助下简单的中风。中风是已知的关联完全不同的性格与所选的基本形状。这些标准化的相关值完全不同领域的角色提供相关选项。创建特征提取额外的强大,我们倾向于添加在第二步确定结构/统计选项相关的选项。额外的结构/统计选项支持预测,概要文件,不变的时刻,端点和连接点。这增加,强大的组合的选择导致157 -变量为每个字符特征向量,足以明确表示,我们发现并确定每个角色。之前,写字符识别的缺点没有回邮意味着我们预计混合特征提取技术处理它。 The extracted feature vector is employed throughout the coaching section for building a support vector machine (SVM) classifier. The trained SVM classifier is after used throughout the testing section for classifying unknown characters. Experiments were performed on written digit characters and uppercase alphabets taken from completely different writers, with none constraint on style. The obtained results were compared with some connected existing approaches. Attributable to the projected technique, the results obtained show higher potency concerning classifier accuracy, memory size and coaching time as compared to those different existing approaches.

关键字

路由协议、医疗、节点、传感器节点的无线传感器网络。

介绍

手写字符识别(HCR)是基于pc的大多是写数字和字母的识别。HCR可能是一个人类与机器交互的步骤自动化。HCR申请帮助视障人群;自动记录和过滤信息的书面文件;作者身份和签名验证等[1]。尽管它巨大的适用范围,HCR是一个麻烦的对象分类任务的每个作者都有自己的写作特点和写作方法的方式对一个作者也各不相同。

一)特征提取和相关工作:

最必要的阶段与成功实现字符识别特征提取的任务。特征提取阶段识别和提取不同的人物属性,便于清晰而明确区分完全不同的角色。{一系列完全不同的特征提取方法的投影在文学依照不同的字符表示。作为一个例子,完全不同的选项已经概述了最好的代表人物形状,边界,他们的骨骼和中风等不同类型的选项和字符识别任务的方法。在这些方法中,有应用数学特性提取和结构特征提取。应用数学的选择考虑的安排值。主要应用数学选项用于体现sectionalisation写字符识别任务,预测,配置文件,和口岸等结构的选择考虑到纯数学和拓扑特征样本范围的循环,结束点,结分,比例,中风和方向等。一些特征提取方法大多基于{| |主要都是基于}上完全不同的工作站,如那些基于傅里叶变换,荡漾返工,中央的时刻,和泽尼克时刻等。在[3]中,作者描述了一个基于sectionalisation主要特征提取器承认写数字的印度埃纳德语脚本。作者在[4]承认书面数字虐待傅里叶描述符和神经网络。在[5],作者承认中国汉字虐待梯度和基于荡漾的主要选择。在[6]中,作者基于提取时刻大多选择以承认写阿拉伯语字母。 They use genetic rule for feature choice and use SVM to assess the classification error for the chosen feature set.

相反的,专攻特征向量支持人格的一个例证,这是一个相结合的趋势目前{不同| |完全完全完全不同}的选择从不同的常数字符表示。混合的优势,利用这种完全不同形式的选择是,它可以提供更多不同的识别线索促进提高识别的准确性。作为一个例子,Heutte等。[7]完全不同的混合应用数学和结构选择写字符的识别。他们建立一个124 -变量特征向量包含以下七个家庭的特点:1)的水平和垂直直线的特性,2)不变的时刻,3)洞和pouchshaped弧,4)极值,5)完成分和结分6)配置文件,和7)预测。极光等。[8]混合完全不同的特征提取技术,如基于交叉口主要选项,阴影选项,链代码和曲线拟合方法对印度Devnagari语言脚本。

B)模式分类和连接工作:

第二最必要的部分写着成功实现字符识别是模式分类阶段。这个阶段可以分配副未知字符样本至少有一个潜在的分类利用的数据特征提取阶段。不同类型的分类器通常工程支持的性格和知识,因此提取的样本选择。用于字符识别分类器缺点体现再分类器,隐藏的安德烈•马尔可夫模型(HMM),支持向量机(SVM)和人工神经网络(ANN)等Jain et al。[10]提供了一个审查应用数学模式识别技术。在[11],Pal和辛格训练神经网络承认写大写字符支持的傅里叶描述符字符边界作为选项。[12],承认写字母虐待大多基于神经网络和sectionalisation对角选择回邮。在[13],Shubhangi和Hiremath承认英语书面字符和数字提取结构小SVM分类器的选择。Nasien等。[14]另外使用支持向量机分类器承认写字母用链码,因为凭着选项。在[15],火车等人承认重音写法语字符支持的混合结构和支持向量机分类器的选择。在[16],刘和中川提供审查的最近邻分类器的学习方式。 [17] and [18] build HMM to acknowledge, severally, offline written Chinese characters and on-line English characters.

C)礼物工作:

在本文中,我们往往会提出一个完全不同的混合特征提取技术,包括一百年一群相关的选择上与另一个五十7结构/统计选项。我们的皮尔逊相关选项支持吗?年代相关性(11日)已经广泛应用于测量的目的相似或照片之间的不平等。的价值相关性常数表明的程度2照片是相似的。在这里,请求皮尔森的应用?以一种极为完全不同年代相关意味着因此确定的基本基本笔画写字符。为此,我们倾向于完全不同的字符段之间的相关常数,因此所选的基本形状。我们倾向于返工频域的字符图片然后我们倾向于标准化精力值,因为它可能是一个信号处理理论的相关记录现实抽象域仅仅是在频域乘法。Shioyama和Hamanaka[21]提取基于类似的相关执行主要选择中国手写字符识别的问题。他们但执行支持最小距离分类调用规则。 We, on the contrary, perform final classification supported support vector machine (SVM). the largest challenge, in achieving high accuracy results for SVM classification issues, is the extraction of sturdy options from the info samples. perform is based mostly on power spectral density of character pictures, it's invariant underneath a translational rework and thus will absorb the native variation in hand-printing. during this paper, we tend to take a look at the appliance of this correlation perform based mostly approach to the domain of English written alphabets and numerals. To the simplest of our data, such quick Fourier rework (FFT) based mostly correlation approach has not been nonetheless applied for the classification of English written character samples, although some important work on fuzzy rules based mostly identification of lines and curve strokes within the characters will exist [22-23].

在我们的例子中自由写字符识别的缺点,这些相关选项就没有为SVM分类提供令人满意的精度。创建特征向量附加的强大,对于能力高等独特的人物,我们倾向于将相关执行基础主要是选择与各种结构或应用数学选项。一些结构性发现选项完成分和连接点,我们倾向于增加相关选项。最后我们往往添加资料,预测和时刻选择相关选项,这些大多是基于二进制字符的照片而相关选项支持骨架zed字符。

D)预测方法:

我们的预测工作提供了一个完整的写字符识别器。系统通常分为三阶段)进行预处理,b)投影特征提取主题,和c)基于svm训练和分类。在下面我们将描述每一个子过程的紧密。

这些选项从稀释中提取字符。完成点是那些仅仅有一个邻居,而连接点有至少三个邻居。我们倾向于选择的完成分,连接点的数量,因此这些点的x - y位置,因为选项等。自完成分和连接点的数量会有所不同从一个字符类型不同,我们想要一些策略将这些选项转换成固定长度的向量。为此,我们倾向于使用的策略[7]。大多数的完成分和连接点,称之为p,记下了指导信息,他们的平均价值与相应的x - y位置计算。如果任何字符,但p同构,然后在特征向量空行塞满了典型的价值。如果在测试部分,的性格恰好拥有更大范围比p点,然后附加点只是丢弃。这些选项是规范化的变化[0,1]。

基于支持向量机的主要分类

特征提取阶段完成后,我们下一节是让副智能分类器对提取的特征向量的所有信息的样本。在这分析我们有选择支持向量机分类器的训练和分类的目的。支持向量机可以是一个双阶级分类器区分两类的信息样本计算最大边际边界。的答案这种分离边界内表达的数学优化下行的,在支持向量机建立文献[29]。在案例中,信息是非线性可断开的,线性支持向量机使信息可断开的虐待内核函数。内核执行输入信息的模式映射到高维区域创建点在高维线性可断开的区域。常见的内核执行用于分类是数学家径向基函数,双曲正切、多项式内核,等。两类之间的分离边界是概述了调用边界和被称为支持向量(SV)。这些SV验证分离超平面。二进制SVM分类规范缺点将再生多层次分类通过建立各种双阶级SVM分类器为完全不同的各种|}{类双然后把最终的分类电话主要是基于不同的方法如max-wins策略,“赢者通吃”的策略等等max-wins策略是,多数通过调用的所有2 -分类支持向量机分类器。在“赢者通吃”的策略中,最高的二元分类器输出执行需要调用的分类。 Common existing approaches [30-32] for multi-class classification downside are oneagainst- one (OAO), one-against-all (OAA), binary tree of SVM and directed acyclic graph (DAG) etc. during this analysis, we tend to have chosen OAO technique for multi-class classification.

结果,分析和讨论

我们测试了这种技术在写人物取自三十完全不同的作家,世界卫生组织被允许写在自然时尚。整个系统在MATLAB执行。提取的预处理阶段时,我们倾向于一个完整的6092个字符的书写大写字母和2279写数字扫描文档。信息样本分为2部分:2/3的知识样本是为训练目的而保留简单分数知识的样品是用于测试目的。因此,字母指导信息由4067个汉字而字母测试包含2025个字符的信息。同样,数字指导信息由1857数字而数字测试信息由922年的数字。157年维特征向量提取的指导信息写字符和数字。一个SVM模型训练157 4067特征矩阵的字母和另一个被训练在157 1857特性矩阵写数字。支持向量机参数对指导信息调整虐待3 -折交叉验证。一次写字母和数字的支持向量机模型的训练,我们倾向于检查保留声望系统的性能测试信息集。 Out of the testing information, solely 32/922 digits and 80/2025 alphabets were misclassified. this provides ninety six.5% recognition accuracy on chosen digits information and ninety six recognition accuracy on chosen alphabets information. The system showed 100% accuracy on coaching information of each alphabets and numerals. Its coaching time and memory size of found classifier is way less compared to the opposite 2 approaches. The system has additionally higher recognition rate as compared to different 2 approaches. we tend to more examined the performance of our system on information samples of a new author not originally among the thirty writers on whom the system was trained and tested. show performance of the system on this new author. we tend to ascertained throughout the feature extraction stage that the dilution method generally eliminates necessary character strokes that cause some characters to induce misclassified. The system performance will so be more improved by purification the dilution stage.

进一步分析

我们预计混合特征提取技术结合支持向量机分类器显示智能性能数字和大写字母写的。在未来,我们倾向于将看看投影技术在字母字母的性能。获得满意的精度上的人物,我们的混合动力技术可能会改变窗口大小和形式的基本段一起,如果有必要,一些小型结构选择特定的字母字符。

结论和未来的工作

一个完整的离线写字符识别系统大多是基于混合特征提取技术已被授予。系统由三个主要阶段,即预处理、特征提取技术,和基于支持向量机的主要培训/分类。预计混合特征提取技术,公开的实验,建立了捕捉本地及国际的变化写人物设计。提取的特征向量是一个混合的相关执行基础主要选项和一些统计/结构的选择。

引用

n .尚和k . Duraiswamy”,一个新颖的基于支持向量机的主要书面泰米尔字符识别系统,“施普林格模式AnalysisApplications日报》,2009年2月。

o·d·特里尔a . k . Jain和t . Taxt FeatureSystem吗?年代表现数字字符识别作者的最新样品提取方法:一项调查“识别二十9 (4),641 - 662。1996年。

诉Rajashekararadhya和p . v .野生动物”区主要特征提取规则为基础写数字识别的埃纳德语脚本,“IEEE国际预先计算会议(IACC)的邦,印度,2009年3月。

y y涌和m . t . Wong“手写字符识别的傅里叶描述符和神经网络,“IEEE TENCON,语音和图像计算和通信技术,1997年。

w·张,y y y . Tang和天雪,“手写字符识别虐待结合梯度和荡漾选项,“机器智能与安全国际会议上,页662 - 667,广州,2006年11月。

Abandah和n . Anssari“小说时刻选择提取对识别写阿拉伯语字母,“工程科学杂志》第5卷,问题3,226 - 232年,2009页。

l . Heutte j . v .男人味儿,t . Paquet y Lecourtier,和c·奥利弗,”相结合的结构和应用数学的选项写人物的流行,“十三学报》国际会议模式识别,维也纳,奥地利,1996年,卷2,页210 - 214。

Arora, d .保护m . Nasipuri d·k·巴苏和m .茶室”组合多个书面Devnagari字符识别,特征提取技术”IEEE地区十讨论会和第三国际会议上工业和数据系统,2008年12月。

y .木村,铃木,k .小高”字符识别特征选择虐待遗传规则,“IEEE第四国际会议上创新计算、信息和管理(ICICIC),高雄,第404 - 401页,2009年12月。

k . Jain, p . w . Duin和j .毛”统计模式识别:审查”,IEEE模式分析与机器智能,22卷,没有。2000年1月1日。

Pal和d·辛格“手写英文字符识别虐待神经网络,”国际期刊的工程科学和沟通,1卷,没有。2,页141 - 144,July-Dec 2010