基于笔画顺序恢复的相似手写汉字识别方法研究
作 者 : 周正扬
学位授予单位 : 武汉理工大学
学位名称 : 硕士
导师姓名 : 詹恩奇
学位年度 : 2017
关键词 : 笔画顺序;恢复;相似;手写汉字识别
摘 要 : 现有手写汉字识别方案通常选用统计特征进行模型训练及分类,候选结果可控制在较为理想的范围内。然而由于相似汉字的统计特征差异程度低,从候选结果中准确识别出目标汉字的成功率不甚理想。相较统计特征,汉字笔画的位置与顺序信息对相似字具有更好的区分度,但笔画抗干扰能力弱,提取难度较大。本文围绕相似手写汉字识别问题开展研究,在提取线状笔画的基础上,利用笔画信息作为区分相似字的依据。主要研究工作如下:(1)为避免骨架形变对笔画提取产生影响,提出一种复杂区域检测方法,用以定位笔画交叉、分支等区域。通过传统细化算法获取手写汉字原始骨架,将骨架点分为端点、普通点和复杂点三类,利用8邻域窗口扫描相互连通的复杂点,能取得良好的检测效果。快速定位并删除复杂区域后,形变部位被有效移除,骨架分解为简单笔画段的合集。(2)基于复杂区域检测,提出一种局部关联度最优的手写汉字笔画提取方法。从笔画段中提取局部子段,根据方向与曲率变化程度,计算子段间的局部关联度;制定一种局部关联度最优的连接策略,对满足连接条件的笔画段进行插值拟合,从而提取自然笔画;最后通过拐点检测将自然笔画分解为线状笔画。基于局部关联度提取笔画,可有效解决细化算法带来的形变问题,所得笔画能够正确反映复杂区域的位置结构关系。(3)在提取线状笔画的基础上,进一步提出基于笔画顺序恢复的相似字识别方法。对相似汉字分组归类,建立模板库;提取待识别文字笔画,与同组库文字逐一比对,比对过程中,根据模板库的标准信息,恢复待识别文字笔画顺序,生成对应时序曲线;针对汉字笔画特点,设计一种改进的分段DTW算法,用以计算时序曲线间的最优累积距离,作为最终区分相似字的依据。相似字识别实验采用HCL2000手写体汉字数据库,从中归类出15组相似汉字,在单个汉字训练样本数不超过30的情况下,取得了93.45%的识别准确率。结果表明,通过对笔画顺序进行恢复,相似汉字间的差异得以充分体现,且基于曲线相似性比对的识别方法能够有效控制训练成本。

      • 温馨提示:
      • 在微信、微博等APP中下载时,会出现无法下载的情况
      • 这时请选择在浏览器中打开,然后再请下载浏览

发表回复

后才能评论