手寫體漢字識(shí)別是漢字識(shí)別中較復(fù)雜的一種。手寫體識(shí)別一種是邊寫邊識(shí)別的,一種是寫后識(shí)別的。前者相對(duì)來(lái)說(shuō)簡(jiǎn)單點(diǎn),現(xiàn)在這方面的技術(shù)也比較成熟了。我們目前研究的是后者,也就是寫后識(shí)別,這方面在國(guó)內(nèi)還沒(méi)有比較成熟的技術(shù)。據(jù)說(shuō)國(guó)外(香港,臺(tái)灣)已經(jīng)做的比較成熟了,但他們的主要是面對(duì)繁體字。我們做的主要是簡(jiǎn)體字?赡茉谠砩弦粯,但他們具體的技術(shù)我們還沒(méi)有深入研究。
目前,我做的特征提取這一塊的。采用的方法目前在國(guó)內(nèi)還沒(méi)有類似的。我們是通過(guò)提取漢字的頂點(diǎn)和頂點(diǎn)間相應(yīng)的鄰接矩陣來(lái)識(shí)別一個(gè)漢字。按照常理來(lái)說(shuō)這兩者(漢字和頂點(diǎn)特征向量)是一一對(duì)應(yīng)的,但在實(shí)際中是不一定的。因?yàn)椴煌ǖ娜藢懙淖挚赡茼旤c(diǎn)書目都不一樣。比如說(shuō)“田”有人可能就寫的中間不合并在一起,那這樣頂點(diǎn)書目就未必是9個(gè)了。所以我們還要按照一定的規(guī)則來(lái)處理。
我目前想的處理過(guò)程是這樣。第一步:提取頂點(diǎn)及對(duì)應(yīng)的方向向量。(通過(guò)深度搜索)。第二步:合并給定閥值內(nèi)的頂點(diǎn)。目的是去噪。因?yàn)樵诩?xì)化后的字體里面可能回出現(xiàn)一些細(xì)小的支沒(méi)。第三:頂點(diǎn)分離。目的是實(shí)現(xiàn)單個(gè)字體的定點(diǎn)數(shù)目唯一。
到目前為止,我已經(jīng)比較完美的完成了第一步。在所有的測(cè)試字體中(有基本筆畫,簡(jiǎn)單字,復(fù)雜字)都符合我期望的一個(gè)值。第一步是丶彩腔。其中主壹蠔V巧疃人閹鰲5虻サ納疃人閹魘遣恍械。其中比较关寄是份^蛩閹韉鬧罩固跫的確定。這個(gè)很值得探討的?/DIV>
其實(shí)我現(xiàn)在在想通過(guò)漢字的頂點(diǎn)及方向來(lái)識(shí)別,到不如直接提取漢字的筆畫了,這樣更符合人識(shí)別的思路,而且感覺(jué)效果應(yīng)該好很多。
這方面先參考下其他的資料,再具體確定吧。
目前的這個(gè)結(jié)果應(yīng)該說(shuō)無(wú)論是提取筆畫還是其他,都是很方便的。