漢字識(shí)別OCR("光學(xué)字符識(shí)別"的英文編寫)是為了使?jié)h字信息高速輸入計(jì)算機(jī),以解決低速的信息輸入與高速信息處理之間的矛盾,從而提高整個(gè)計(jì)算機(jī)系統(tǒng)的效率。這種根據(jù)漢字人工編碼錄入漢字文本的方法,從根本上改變了人們對(duì)計(jì)算機(jī)漢字人工編碼錄入的概念。使人們從繁重的鍵盤錄入漢字的勞動(dòng)中解脫出來(lái)。只要用掃描儀將整頁(yè)文本圖像輸入到計(jì)算機(jī),就能通過(guò)OCR軟件自動(dòng)產(chǎn)生漢字文本文件,這與人手工鍵入的漢字效果是一樣的,但速度比手工快幾十倍。所以O(shè)CR產(chǎn)品的推廣意義是深遠(yuǎn)的。 提高OCR識(shí)別率 購(gòu)買了掃描儀,你一定會(huì)發(fā)現(xiàn),附贈(zèng)的軟件中有中英文OCR識(shí)別軟件,當(dāng)然一般都是基礎(chǔ)版。很多人認(rèn)為此類OCR的識(shí)別率不是很高,甚至懷疑只有那些正版的數(shù)千元的OCR軟件其識(shí)別率才很高。其實(shí),你只要注意使用技巧,此類OCR的識(shí)別率完全可達(dá)實(shí)用化水平。 1、處理原稿掃描圖像,使之清晰可“辨”。在其它因素都滿足的前提下,對(duì)一般的印刷稿、打印稿(包括清晰的針打稿)等質(zhì)量較好的文稿進(jìn)行識(shí)別,其識(shí)別率一般可達(dá)到98%以上。而對(duì)報(bào)紙、復(fù)印件等不太清晰的文稿進(jìn)行識(shí)別,無(wú)論哪種OCR都難以達(dá)到較高的識(shí)別率。對(duì)那些原稿不太清晰的,要注意識(shí)別前對(duì)圖像加以處理,除去其上的污跡。并注意將偏斜的版面“改斜歸正”,通常OCR軟件均有此功能,且一般都設(shè)有自動(dòng)糾偏和手動(dòng)糾偏。 2、分辨率應(yīng)選擇適宜。一般選擇300dpi較合適,分辨率選小了會(huì)使識(shí)別率降低,選得太大了并不能有效提高識(shí)別率,還會(huì)大幅度加長(zhǎng)文件長(zhǎng)度,浪費(fèi)處理時(shí)間。有的掃描軟件設(shè)備上有一項(xiàng)“OCR掃描”,干脆將分辨率鎖定為300dpi,這是很有道理的。 3、調(diào)整好亮度值和對(duì)比度值。這條非常關(guān)鍵,對(duì)識(shí)別率的影響很大。亮度值的調(diào)整是在識(shí)別前,先看看掃描得到的圖像中文字質(zhì)量如何,如果文字線條凹凸不平,甚至有斷線,說(shuō)明亮度值太大了,應(yīng)減小亮度值;當(dāng)文字線條很黑很粗,甚至擠成了黑疙瘩,分不清筆劃時(shí),則說(shuō)明亮度值太小了,應(yīng)增加亮度值;對(duì)比度的調(diào)節(jié)要視原稿確定,筆者常根據(jù)預(yù)掃時(shí)圖像清晰度確定。 4、利用OCR的自學(xué)習(xí)功能。有時(shí)OCR對(duì)某些字總是難以識(shí)別,比如OCR開(kāi)始對(duì)“的”和“二”等字總是搞錯(cuò),這時(shí)可以利用OCR軟件的自學(xué)習(xí)功能,“引導(dǎo)”它正確識(shí)別一次(有些不同的字體各需一次),它以后就對(duì)這些字“熟識(shí)”了。具體操作極易,上機(jī)看一下菜單即可明白。另外,若原稿全是英文或其中中文很少,最好用附贈(zèng)的英文OCR軟件。還有,現(xiàn)在已有一些很好的文字校對(duì)軟件,其中一般都設(shè)置了OCR校對(duì),利用這些軟件先行處理一下所得文本文件,則可大大減輕人工校對(duì)負(fù)擔(dān)。