基于職業(yè)特征的多模板漢字識(shí)別算法
張洪剛 郭軍
(北京郵電大學(xué)信息工程系181# 100876)
【摘要】本文是在HCL2000漢字?jǐn)?shù)據(jù)庫的基礎(chǔ)之上進(jìn)行的研究,根據(jù)對(duì)HCL2000漢字庫的職業(yè)的統(tǒng)計(jì)分析,我們得出了一些新的結(jié)論。各種職業(yè)與識(shí)別率的相關(guān)性是很大的,這說明不同的職業(yè)樣本都有自己的特征,我們選取三種職業(yè)作為研究對(duì)象,按不同的職業(yè)分類訓(xùn)練,然后把訓(xùn)練特征用作模板特征,應(yīng)用于多模板識(shí)別算法。識(shí)別結(jié)果證明,這種基于職業(yè)特征的多模板漢字識(shí)別算法的識(shí)別率比單模板識(shí)別算法平均高出1.13%。
【關(guān)鍵詞】 HCL2000 漢字識(shí)別 職業(yè)特征 多模板匹配
1.引言
HCL2000(Handwritten Character Library
2000)漢字庫是北京郵電大學(xué)在國(guó)家863支持下研制的一個(gè)脫機(jī)手寫漢字?jǐn)?shù)據(jù)庫。HCL2000漢字庫有兩個(gè)特點(diǎn),一是包含樣本數(shù)量大,目前包含1300個(gè)人的漢字樣本,并計(jì)劃在2000年以前,使樣本總數(shù)達(dá)到2000個(gè);二是它不僅包含漢字樣本庫,而且還包含一個(gè)書寫者信息庫,它存放了每個(gè)漢字樣本書寫者的職業(yè)、年齡、性別、住址等相關(guān)的信息。書寫者信息庫的建立使我們可以研究各類人員的文字書寫特征與影響識(shí)別率的相關(guān)因素[1]。
本文利用HCL2000對(duì)書寫者的職業(yè)與其文字的識(shí)別率的關(guān)系進(jìn)行的研究,我們發(fā)現(xiàn)樣本的識(shí)別率與職業(yè)的相關(guān)性很大,這說明不同的職業(yè)有不同的特征,我們選取庫中人數(shù)較多的三種職業(yè)工人、學(xué)生和軍人,各選取100個(gè)樣本,按職業(yè)進(jìn)行分類訓(xùn)練,將訓(xùn)練的特征用作特征模板,然后用多模板識(shí)別算法進(jìn)行識(shí)別。結(jié)果表明:這種基于職業(yè)特征的識(shí)別算法的識(shí)別率比原算法平均提高1.13%。
全文的安排如下:第二部分是三種職業(yè)的識(shí)別結(jié)果分析,第三部分是基于職業(yè)特征的多模板識(shí)別算法介紹,最后一部分是全文的總結(jié)。
2.三種職業(yè)的識(shí)別結(jié)果分析
我們根據(jù)書寫者信息庫所提供的有關(guān)書寫者的信息,對(duì)庫中的職業(yè)與識(shí)別率的相關(guān)性作了研究,識(shí)別用的特征是用中科院的100個(gè)樣本和從HCL2000庫中選出的200個(gè)樣本訓(xùn)練而成的。我們得到的識(shí)別率與職業(yè)的分布圖:
圖1 識(shí)別率與各職業(yè)的分布圖
從上圖可以看出:職業(yè)與識(shí)別率的相關(guān)性是很大的。識(shí)別率最高的是科技人員與教師,識(shí)別率最低的職業(yè)是醫(yī)生,科技人員與醫(yī)生的樣本識(shí)別率之差達(dá)5.58%。
我們選取HCL2000漢字庫中三種所占比例最大的職業(yè)工人、學(xué)生和軍人的樣本作為研究的對(duì)象。從這三種職業(yè)中分別抽取100個(gè)人的樣本集作為每種職業(yè)的訓(xùn)練樣本。分別抽取這三種職業(yè)的特征,制成三個(gè)標(biāo)準(zhǔn)的特征模板。然后從三種職業(yè)中各隨機(jī)選取10個(gè)樣本集作為識(shí)別樣本,這30個(gè)識(shí)別樣本集并不包含原來的訓(xùn)練樣本。30個(gè)樣本集中前10個(gè)為工人的樣本,中間10個(gè)為學(xué)生的樣本,后10個(gè)為軍人的樣本。然后分別用這三個(gè)特征模板,采用文獻(xiàn)[2]的算法進(jìn)行識(shí)別,識(shí)別結(jié)果如下圖:
圖2 30個(gè)樣本的識(shí)別結(jié)果
為了便于結(jié)果比較,我們按識(shí)別樣本的職業(yè)分成工人、學(xué)生和軍人三組。見圖5,每組最左邊的是用工人特征識(shí)別的結(jié)果,中間的為學(xué)生特征識(shí)別的結(jié)果,最右邊的是軍人特征識(shí)別的結(jié)果。