作者:未知或未標注 文章錄入:1成果簡介 我國西部開發(fā)和全球信息化發(fā)展迫切需要解決新疆地區(qū)維吾爾、哈薩克、柯爾克孜民族文字以及國際上與之相近的阿拉伯文字的文檔識別技術(shù)難題。由于阿拉伯文體系的字符與漢藏語系、拉丁語系的文字截然不同,連寫字符多,字符相似程度高,字符識別難度大;且阿拉伯文體系的文本書寫方向為從右向左,實際文檔中具有與之相反從左向右的英文或漢字混排,解決雙向混排文字的印刷文檔識別問題具有重要的學術(shù)價值和巨大的應(yīng)用前景。由清華大學主持研制,并和新疆大學合作開發(fā)了維哈柯(漢英)阿(英)印刷文檔識別系統(tǒng)。該系統(tǒng)于2004年8月10日通過了教育部組織的技術(shù)鑒定。維哈柯(漢英)阿(英)印刷文檔識別系統(tǒng)能識別印刷多字體的維哈柯文和阿拉伯文字符,并能識別處理維哈柯文混排漢英或阿拉伯文混排英文的文檔,是集版面分析、文本行字切分、識別、雙向混排文檔圖文對照編改等技術(shù)于一體的完整的維哈柯文和阿拉伯文文檔識別的實用系統(tǒng)。維哈柯(漢英)阿(英)印刷文檔識別系統(tǒng)主要技術(shù)指標達到了國際領(lǐng)先水平,為維哈柯阿文紙介質(zhì)文檔經(jīng)掃描識別轉(zhuǎn)化為電子文檔提供了有效的工具,將對維哈柯阿文檔信息數(shù)字化發(fā)揮重要的作用。 2技術(shù)指標 主要技術(shù)內(nèi)容包括: (1)提出并采用了基于統(tǒng)計識別的、統(tǒng)計和結(jié)構(gòu)相結(jié)合的維哈柯阿文字符識別方法,包括非方塊多字體維哈柯阿文字母定位和規(guī)一化方案、維哈柯阿文字符識別特征的選擇和優(yōu)化方案等。單字符識別率達99.4%以上。 (2)針對連寫維哈柯阿文本連寫字符沒有明確邊界及大小的切分困難,提出了基于維哈柯阿文本基線分析的、在候選切分點中尋求最優(yōu)切分點的字符切分算法,有效地解決了阿拉伯字符形式多種、形狀多變、極相似字多、連寫字符切分困難的阿拉伯類文字文檔識別難題。文本識別率達96%以上。 (3)系統(tǒng)還解決了從右至左書寫的維哈柯阿文字與從左至右書寫的漢字或英文混排文檔的識別問題,通過字符類別辨識,結(jié)合漢、英文字識別核心技術(shù),最終完成了實用的高性能維哈柯(漢英)阿(英)印刷文檔識別系統(tǒng)。 3合作方式 商談。 4聯(lián)系方式 清華大學科技開發(fā)部。