展會(huì)信息港展會(huì)大全

龍泉寺法師研發(fā)AI自動(dòng)標(biāo)點(diǎn):給古文加標(biāo)點(diǎn),效果接近人類(lèi)
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2020-12-23 08:05:17   瀏覽:6142次  

導(dǎo)讀:不知道你有沒(méi)有印象,此前一位長(zhǎng)著大圓臉、招風(fēng)耳,身著黃色僧袍的賢二機(jī)器僧,曾因呆萌的外表和 我去問(wèn)問(wèn)我?guī)煾傅瓤陬^禪霸占了不少社交平臺(tái)。在12月20日由騰訊發(fā)起的2020 Techo Park開(kāi)發(fā)者大會(huì)分論壇上,也迎來(lái)了一位特殊的演講嘉賓。和賢二一樣,這位嘉賓...

不知道你有沒(méi)有印象,此前一位長(zhǎng)著大圓臉、招風(fēng)耳,身著黃色僧袍的“賢二”機(jī)器僧,曾因呆萌的外表和 “我去問(wèn)問(wèn)我?guī)煾?rdquo;等口頭禪“霸占”了不少社交平臺(tái)。在12月20日由騰訊發(fā)起的2020 Techo Park開(kāi)發(fā)者大會(huì)分論壇上,也迎來(lái)了一位特殊的演講嘉賓。和“賢二”一樣,這位嘉賓賢超法師也來(lái)自北京龍泉寺。

賢超是北京大學(xué)物理學(xué)院凝聚態(tài)物理研究所碩士,現(xiàn)在是北京市海淀區(qū)龍泉寺藏經(jīng)辦公室主任。他透露,自己之所以會(huì)關(guān)注到人工智能,和阿爾法狗戰(zhàn)勝李世石不無(wú)關(guān)系。從那時(shí)候起,賢超開(kāi)始嘗試將人工智能和自己研究的OCR(識(shí)別、獲取圖像等文件上的文本資料)以及自動(dòng)標(biāo)點(diǎn)相結(jié)合。

龍泉寺法師研發(fā)AI自動(dòng)標(biāo)點(diǎn):給古文加標(biāo)點(diǎn),效果接近人類(lèi)

賢超法師在演講中。

“在圍棋領(lǐng)域,人類(lèi)已經(jīng)一敗涂地。我們中華文明非常重視文字記錄,文獻(xiàn)古籍承載了我們民族的記憶,那么我想,文獻(xiàn)古籍會(huì)不會(huì)再次成為人類(lèi)的滑鐵盧?AI如此‘不講武德’,我們?nèi)祟?lèi)如何應(yīng)戰(zhàn)?” 賢超說(shuō)。

賢超首先介紹了自動(dòng)標(biāo)點(diǎn)技術(shù)。所謂自動(dòng)標(biāo)點(diǎn),是指在沒(méi)有人工干預(yù)的前提下,根據(jù)算法給古籍文本自動(dòng)標(biāo)注現(xiàn)代中文標(biāo)點(diǎn)的技術(shù),這主要是為了方便現(xiàn)代讀者閱讀。

他說(shuō),和現(xiàn)代標(biāo)點(diǎn)不同,古代的標(biāo)點(diǎn)又稱(chēng)句讀,大體相當(dāng)于只有逗號(hào)(或頓號(hào))和句號(hào),F(xiàn)代標(biāo)點(diǎn)則分為兩類(lèi),一類(lèi)是標(biāo)號(hào),比如雙引號(hào)、單引號(hào)、書(shū)名號(hào)等;第二類(lèi)則是點(diǎn)號(hào),比如句號(hào)、問(wèn)號(hào)、感嘆號(hào)等等……根據(jù)統(tǒng)計(jì),大約每五到六個(gè)漢字就需要加一個(gè)點(diǎn)號(hào),其中逗號(hào)、句號(hào)、冒號(hào)等出現(xiàn)頻率較高。

龍泉寺法師研發(fā)AI自動(dòng)標(biāo)點(diǎn):給古文加標(biāo)點(diǎn),效果接近人類(lèi)

古文標(biāo)點(diǎn)的出現(xiàn)頻率。

賢超指出,標(biāo)點(diǎn)符號(hào)還具有可替代性,因?yàn)椴煌娜丝赡軙?huì)有不同的標(biāo)注方法,其中分號(hào)和頓號(hào)的可替代性最強(qiáng),也就意味著使用的必要性最弱,反之亦然。

龍泉寺法師研發(fā)AI自動(dòng)標(biāo)點(diǎn):給古文加標(biāo)點(diǎn),效果接近人類(lèi)

標(biāo)點(diǎn)符號(hào)可替代的統(tǒng)計(jì)。

據(jù)他介紹,人工智能首次被應(yīng)用到這個(gè)領(lǐng)域,只是用于自動(dòng)斷句,也就是給古文加句號(hào),但賢超認(rèn)為這個(gè)做法“是比較保守,比較學(xué)術(shù)性的”。后來(lái),賢超說(shuō),自己的團(tuán)隊(duì)將深度學(xué)習(xí)運(yùn)用到了自動(dòng)標(biāo)點(diǎn)上。

那么效果如何?賢超提到,如果是人工獨(dú)立完成的標(biāo)點(diǎn),作品之間的相似度應(yīng)該是在80%左右,相似度過(guò)高則會(huì)有抄襲的嫌疑。根據(jù)這個(gè)標(biāo)準(zhǔn),賢超團(tuán)隊(duì)研發(fā)的Transformer所標(biāo)注的結(jié)果和人類(lèi)的標(biāo)注結(jié)果“幾乎已經(jīng)無(wú)法區(qū)分”。

龍泉寺法師研發(fā)AI自動(dòng)標(biāo)點(diǎn):給古文加標(biāo)點(diǎn),效果接近人類(lèi)

對(duì)于Transformer自動(dòng)標(biāo)注結(jié)果的評(píng)價(jià)。

賢超還認(rèn)為,自動(dòng)標(biāo)點(diǎn)還有一定的靈活性和規(guī)范性。以“諦聽(tīng)諦聽(tīng)善思念之”這八個(gè)字為例,賢超說(shuō),人類(lèi)至少有16種不同的添加標(biāo)點(diǎn)符號(hào)方式,但自動(dòng)標(biāo)點(diǎn)只給出了六種方案,也不會(huì)“過(guò)于單一”。

龍泉寺法師研發(fā)AI自動(dòng)標(biāo)點(diǎn):給古文加標(biāo)點(diǎn),效果接近人類(lèi)

自動(dòng)標(biāo)點(diǎn)的標(biāo)注結(jié)果。

在講述自動(dòng)標(biāo)點(diǎn)技術(shù)之后,賢超開(kāi)始講解超分辨率與古籍圖像增強(qiáng)技術(shù)。他認(rèn)為,如果能實(shí)現(xiàn)“所見(jiàn)即所出”,就是將屏幕上人眼所能看到的圖像,“重建”到符合出版的要求,會(huì)大大促進(jìn)古籍的傳播和普及。

此外,這也有利于存儲(chǔ)古籍圖像。賢超介紹道,古籍圖像的存儲(chǔ)成本非常巨大,而超分辨率實(shí)際上是一個(gè)非常高效的解壓技術(shù),即使保存的是很低分辨率的圖像,也可以隨時(shí)重建成一個(gè)高清晰度的圖像,那么“它存儲(chǔ)起來(lái)會(huì)非常非常經(jīng)濟(jì)。”

針對(duì)這項(xiàng)技術(shù),賢超在現(xiàn)場(chǎng)播放了幾個(gè)視頻來(lái)展示團(tuán)隊(duì)所開(kāi)發(fā)的工具。從視頻中可以看出,這個(gè)工具可以比較快速地獲娶識(shí)別、定位圖片上的古籍文本,并為其添加標(biāo)點(diǎn)符號(hào),甚至能將文言文和白話(huà)文進(jìn)行“對(duì)齊”,從而輔助文白翻譯。此外,它還具有搜索功能,并能將搜索結(jié)果按時(shí)間等分類(lèi)展示。

對(duì)于未來(lái)的研究方向,賢超希望能打通“移動(dòng)和桌面”。他坦言,現(xiàn)在這類(lèi)應(yīng)用主要是電腦端的,能在手機(jī)上使用的并不多。此外,他還希望打造本地化的應(yīng)用,現(xiàn)在大多數(shù)的功能需要聯(lián)網(wǎng)才能運(yùn)行,但是很多學(xué)者對(duì)于知識(shí)產(chǎn)權(quán)非常敏感,并不愿意將文本放到服務(wù)器上處理。

來(lái)源:AI前哨站


贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港