不知道你有沒(méi)有印象,此前一位長(zhǎng)著大圓臉、招風(fēng)耳,身著黃色僧袍的“賢二”機(jī)器僧,曾因呆萌的外表和 “我去問(wèn)問(wèn)我?guī)煾?rdquo;等口頭禪“霸占”了不少社交平臺(tái)。在12月20日由騰訊發(fā)起的2020 Techo Park開(kāi)發(fā)者大會(huì)分論壇上,也迎來(lái)了一位特殊的演講嘉賓。和“賢二”一樣,這位嘉賓賢超法師也來(lái)自北京龍泉寺。
賢超是北京大學(xué)物理學(xué)院凝聚態(tài)物理研究所碩士,現(xiàn)在是北京市海淀區(qū)龍泉寺藏經(jīng)辦公室主任。他透露,自己之所以會(huì)關(guān)注到人工智能,和阿爾法狗戰(zhàn)勝李世石不無(wú)關(guān)系。從那時(shí)候起,賢超開(kāi)始嘗試將人工智能和自己研究的OCR(識(shí)別、獲取圖像等文件上的文本資料)以及自動(dòng)標(biāo)點(diǎn)相結(jié)合。
賢超法師在演講中。
“在圍棋領(lǐng)域,人類(lèi)已經(jīng)一敗涂地。我們中華文明非常重視文字記錄,文獻(xiàn)古籍承載了我們民族的記憶,那么我想,文獻(xiàn)古籍會(huì)不會(huì)再次成為人類(lèi)的滑鐵盧?AI如此‘不講武德’,我們?nèi)祟?lèi)如何應(yīng)戰(zhàn)?” 賢超說(shuō)。
賢超首先介紹了自動(dòng)標(biāo)點(diǎn)技術(shù)。所謂自動(dòng)標(biāo)點(diǎn),是指在沒(méi)有人工干預(yù)的前提下,根據(jù)算法給古籍文本自動(dòng)標(biāo)注現(xiàn)代中文標(biāo)點(diǎn)的技術(shù),這主要是為了方便現(xiàn)代讀者閱讀。
他說(shuō),和現(xiàn)代標(biāo)點(diǎn)不同,古代的標(biāo)點(diǎn)又稱(chēng)句讀,大體相當(dāng)于只有逗號(hào)(或頓號(hào))和句號(hào),F(xiàn)代標(biāo)點(diǎn)則分為兩類(lèi),一類(lèi)是標(biāo)號(hào),比如雙引號(hào)、單引號(hào)、書(shū)名號(hào)等;第二類(lèi)則是點(diǎn)號(hào),比如句號(hào)、問(wèn)號(hào)、感嘆號(hào)等等……根據(jù)統(tǒng)計(jì),大約每五到六個(gè)漢字就需要加一個(gè)點(diǎn)號(hào),其中逗號(hào)、句號(hào)、冒號(hào)等出現(xiàn)頻率較高。
古文標(biāo)點(diǎn)的出現(xiàn)頻率。
賢超指出,標(biāo)點(diǎn)符號(hào)還具有可替代性,因?yàn)椴煌娜丝赡軙?huì)有不同的標(biāo)注方法,其中分號(hào)和頓號(hào)的可替代性最強(qiáng),也就意味著使用的必要性最弱,反之亦然。
標(biāo)點(diǎn)符號(hào)可替代的統(tǒng)計(jì)。
據(jù)他介紹,人工智能首次被應(yīng)用到這個(gè)領(lǐng)域,只是用于自動(dòng)斷句,也就是給古文加句號(hào),但賢超認(rèn)為這個(gè)做法“是比較保守,比較學(xué)術(shù)性的”。后來(lái),賢超說(shuō),自己的團(tuán)隊(duì)將深度學(xué)習(xí)運(yùn)用到了自動(dòng)標(biāo)點(diǎn)上。
那么效果如何?賢超提到,如果是人工獨(dú)立完成的標(biāo)點(diǎn),作品之間的相似度應(yīng)該是在80%左右,相似度過(guò)高則會(huì)有抄襲的嫌疑。根據(jù)這個(gè)標(biāo)準(zhǔn),賢超團(tuán)隊(duì)研發(fā)的Transformer所標(biāo)注的結(jié)果和人類(lèi)的標(biāo)注結(jié)果“幾乎已經(jīng)無(wú)法區(qū)分”。
對(duì)于Transformer自動(dòng)標(biāo)注結(jié)果的評(píng)價(jià)。
賢超還認(rèn)為,自動(dòng)標(biāo)點(diǎn)還有一定的靈活性和規(guī)范性。以“諦聽(tīng)諦聽(tīng)善思念之”這八個(gè)字為例,賢超說(shuō),人類(lèi)至少有16種不同的添加標(biāo)點(diǎn)符號(hào)方式,但自動(dòng)標(biāo)點(diǎn)只給出了六種方案,也不會(huì)“過(guò)于單一”。
自動(dòng)標(biāo)點(diǎn)的標(biāo)注結(jié)果。
在講述自動(dòng)標(biāo)點(diǎn)技術(shù)之后,賢超開(kāi)始講解超分辨率與古籍圖像增強(qiáng)技術(shù)。他認(rèn)為,如果能實(shí)現(xiàn)“所見(jiàn)即所出”,就是將屏幕上人眼所能看到的圖像,“重建”到符合出版的要求,會(huì)大大促進(jìn)古籍的傳播和普及。
此外,這也有利于存儲(chǔ)古籍圖像。賢超介紹道,古籍圖像的存儲(chǔ)成本非常巨大,而超分辨率實(shí)際上是一個(gè)非常高效的解壓技術(shù),即使保存的是很低分辨率的圖像,也可以隨時(shí)重建成一個(gè)高清晰度的圖像,那么“它存儲(chǔ)起來(lái)會(huì)非常非常經(jīng)濟(jì)。”
針對(duì)這項(xiàng)技術(shù),賢超在現(xiàn)場(chǎng)播放了幾個(gè)視頻來(lái)展示團(tuán)隊(duì)所開(kāi)發(fā)的工具。從視頻中可以看出,這個(gè)工具可以比較快速地獲娶識(shí)別、定位圖片上的古籍文本,并為其添加標(biāo)點(diǎn)符號(hào),甚至能將文言文和白話(huà)文進(jìn)行“對(duì)齊”,從而輔助文白翻譯。此外,它還具有搜索功能,并能將搜索結(jié)果按時(shí)間等分類(lèi)展示。
對(duì)于未來(lái)的研究方向,賢超希望能打通“移動(dòng)和桌面”。他坦言,現(xiàn)在這類(lèi)應(yīng)用主要是電腦端的,能在手機(jī)上使用的并不多。此外,他還希望打造本地化的應(yīng)用,現(xiàn)在大多數(shù)的功能需要聯(lián)網(wǎng)才能運(yùn)行,但是很多學(xué)者對(duì)于知識(shí)產(chǎn)權(quán)非常敏感,并不愿意將文本放到服務(wù)器上處理。
來(lái)源:AI前哨站