多字體多字號的基于彝文字符集的印刷體字符識別方法
一種多字體多字號的基于彝文字符集的印刷體字符識別方法,其特征在于:(1)彝文字體采集:計算機系統(tǒng)首先大量掃描印刷體彝文字符的樣本;采用批量處理的方式進行字符切割,建立的訓(xùn)練樣本字符庫;(2)特征字典的生成:利用采集的訓(xùn)練樣本字符庫進行基于周邊方向貢獻度的高維特征提;由全體訓(xùn)練樣本字符的高維特征變換出特征壓縮轉(zhuǎn)換矩陣;用該矩陣將全體訓(xùn)練樣本字符的高維特征壓縮為低維特征;由全體訓(xùn)練樣本字符的低維特征集生成特征字典;(3)特征字典的驗證:將全體訓(xùn)練樣本字符進行基于周邊方向貢獻度的高維特征提取;用特征壓縮轉(zhuǎn)換矩陣將全體訓(xùn)練樣本字符的高維特征壓縮為低維特征;將全體訓(xùn)練樣本字符低維特征分別與特征字典進行三級匹配識別完成字符分類判決,由文件識別統(tǒng)計報告和字符識別統(tǒng)計報告驗證該特征字典,并提供字典修正的依據(jù);(4)彝文文檔識別:以彝文印刷體書本或雜志單頁文檔為處理對象,首先將該頁文檔掃描為計算機中的圖片文件,對圖片文件中的彝文字符和標點符號、英文字母、數(shù)字常用字符進行初分割、合并、再分割的字符分割處理后,再對分割得到的每一個單個字符提取其基于周邊方向貢獻度的高維特征,然后用特征壓縮轉(zhuǎn)換矩陣將高維特征壓縮成低維特征,由基于低維特征的字典三級特征匹配完成字符分類判決,再經(jīng)文檔后處理組合還原成計算機文本,并提示該文本中可能識別出錯的字符。中南民族大學(xué)