展會(huì)信息港展會(huì)大全

談在信息化檔案管理工作中漢字識(shí)別技術(shù)的應(yīng)用
來源:互聯(lián)網(wǎng)   發(fā)布日期:2011-09-29 16:36:56   瀏覽:9255次  

導(dǎo)讀: 摘要:隨著以信息化為的新技術(shù)革命的到來,計(jì)算機(jī)的廣泛應(yīng)用,使檔案領(lǐng)域進(jìn)入電子時(shí)代。全國檔案信息化建設(shè)正在掀起新的熱潮,為檔案管理建設(shè)注入了新的活力,加快了檔案帶入信息社會(huì)的腳步。檔案信息網(wǎng)絡(luò)化是在加強(qiáng)檔案信息數(shù)字化管理基礎(chǔ)上,逐步向網(wǎng)絡(luò)化...


  摘要:隨著以信息化為的新技術(shù)革命的到來,計(jì)算機(jī)的廣泛應(yīng)用,使檔案領(lǐng)域進(jìn)入電子時(shí)代。全國檔案信息化建設(shè)正在掀起新的熱潮,為檔案管理建設(shè)注入了新的活力,加快了檔案帶入信息社會(huì)的腳步。檔案信息網(wǎng)絡(luò)化是在加強(qiáng)檔案信息數(shù)字化管理基礎(chǔ)上,逐步向網(wǎng)絡(luò)化發(fā)展。通過網(wǎng)絡(luò)最大限度的開發(fā)利用已開放檔案資源,使之更好地為經(jīng)濟(jì)和社會(huì)發(fā)展服務(wù)。 


  關(guān)鍵詞:信息化;漢字識(shí)別 
   
  漢字識(shí)別技術(shù)(簡稱OCR)可以理解為是讓計(jì)算機(jī)認(rèn)字的技術(shù)。它通過光電信號(hào)轉(zhuǎn)換,即文本數(shù)據(jù)。 
   
  1漢字識(shí)別技術(shù)的應(yīng)用價(jià)值漢字識(shí)別技術(shù)的應(yīng)用價(jià)值主要體現(xiàn)在兩個(gè)方面: 
   
  一方面,把紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為文本數(shù)據(jù)管理技術(shù)提供 豐富的數(shù)據(jù)源。 
  首先,從庫存檔案的情況來看,近幾十年來形成的大量印刷漢字檔案記載了我們黨和國家的 重要?dú)v史,對(duì)我國現(xiàn)代化事業(yè)的發(fā)展,對(duì)精神文明和物質(zhì)文明的建設(shè)都有著非常重要的利用 價(jià)值。但這部分檔案的內(nèi)容都沒有文本數(shù)據(jù),或者說都只是固定在紙質(zhì)載體上的死信息。既使通過掃描以圖像方式存儲(chǔ)于計(jì)算機(jī)中,檢索利用也有不便之處,難于滿足現(xiàn)代社會(huì)對(duì)檔案 信息的多種利用需求。其次,從辦公自動(dòng)化的發(fā)展情況來看,每年接收的檔案中仍然會(huì)有相 當(dāng)數(shù)量的檔案沒有文本文件,或?yàn)橥鈫挝粊砦,或(yàn)閬G失損壞等。漢字識(shí)別技術(shù)的應(yīng)用價(jià)值 就是使這兩大部分紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為全文檢索提供數(shù) 據(jù),使深層次的開發(fā)利用成為可能,更好地為現(xiàn)代化建設(shè)事業(yè)服務(wù)。 
  另一方面,提供了一種新的檔案目錄數(shù)據(jù)的錄入方式。 
  應(yīng)用計(jì)算機(jī)以來,漢字錄入只有一種方式,即健盤錄入。雖然目前漢字鍵盤錄入的方法有許多種,而且日趨簡便快捷,已是年輕人必備的職業(yè)技能,但是它畢竟屬于一種技能,不僅需 要反應(yīng)靈敏,手指靈活,而且要熟記錄入的原則、方法和要領(lǐng)。這對(duì)于在檔案部門占有相當(dāng)比例的中老年同志來說,掌握起來確有難度。因此,鍵盤錄入方式仍然是影響一些檔案部門建立檔案目錄信息數(shù)據(jù)庫的因素之一。OCR軟件為我們提供了一條新的途徑。它通過"拖拉 "的方式,將屏幕上文件的目錄項(xiàng)如標(biāo)題、文號(hào)、責(zé)任者等直接移植到檔案目錄數(shù)據(jù)庫的相應(yīng)字段中去,簡單易學(xué),一看就會(huì)。遺憾的是手工"拖拉"速度較慢,而且需要即時(shí)掃描或調(diào)用圖像數(shù)據(jù),所以單一利用這種方式錄入檔案目錄,速度不及熟練錄入員的鍵入速度。但它畢竟是一種新的錄入方式,為建立檔案目錄信息數(shù)據(jù)庫提供了一條前所未有的途徑。而且 ,如果利用OCR軟件同時(shí)建立新型的綜合檔案信息數(shù)據(jù)庫,例如包括檔案的文件目錄、圖像和文本等,效果就此較理想了。 
   
  2 漢字識(shí)別后生成的文本數(shù)據(jù)的屬性問題。 
   
  原始性是檔案的基本屬性。漢字識(shí)別后生成的文本數(shù)據(jù)是根據(jù)檔案的本源信息,即固定在紙質(zhì)載體上的漢字信息進(jìn)行加工處理:掃描、識(shí)別、校對(duì)、修改等工序后形成的復(fù)制加工品, 因此不具有檔案的原始性。 
  知識(shí)性是檔案的又一個(gè)屬性。漢字識(shí)別后生成的文本數(shù)據(jù)如果不計(jì)算人工校對(duì)后仍然可能存在的微小誤差,應(yīng)該說具有與檔案原件同等的內(nèi)容,因此具有檔案的知識(shí)性。 
  漢字識(shí)別后

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港