…首款篇章级中文手写字库…系统的样本采样机制…真实环境下的手写…广泛的应用支持未来的脱机手写汉字识别的研究对象必会从孤立工笔手写汉字逐渐过渡到真实手写中文语句。
脱机手写汉字识别领域亟需建立一个脱机手写中文文本库,用于支持面向真实手写环境的汉字识别研究。
为此,我们提出了面向真实手写环境的基于无切分策略的脱机手写汉字识别。
我们经过三年的系统工作,建立了一个包含约20万字的HIT-MW中文手写文本库(英文全称为HarbinInstituteofTechnology-MultipleWritersDatabase,中文名称为哈尔滨工业大学多人手写库,缩写为HIT-MW库),用于研究上述问题(具体情况见下文)。
由于采取了系统的采样方案,库中包含了很多真实手写现象,不仅有歪斜的(skewed)文本行,还有交叠(overlapping)和粘连(touching)文本行;
除了抄写错误(miswriting),还有涂改文字(erasure)的存在。
这样,脱机手写汉字识别从理想化的“单字”识别进入到面向真实手写环境的“文本”识别(或语句识别)的更高层次。
1