當(dāng)前位置：人工智能實(shí)驗(yàn)室> 自然語(yǔ)言處理 > AI碰上《如夢(mèng)令》？中文NLP大賽正在進(jìn)行中

AI碰上《如夢(mèng)令》？中文NLP大賽正在進(jìn)行中
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2021-03-19 14:50:24 瀏覽：40883次

導(dǎo)讀：機(jī)器之心發(fā)布作者：林三 Yichen 「2021 海華 AI 挑戰(zhàn)賽中文閱讀理解」正在進(jìn)行，旨在推動(dòng)機(jī)器閱讀理解綜合水平的提高和綜合能力的拓展，為中文閱讀理解在教育、醫(yī)療、金融等各個(gè)領(lǐng)域的應(yīng)用提供參考。文字是人類用以記錄和表達(dá)的最基本工具，也是信息傳播...

機(jī)器之心發(fā)布

作者：林三 Yichen

「2021 海華 AI 挑戰(zhàn)賽中文閱讀理解」正在進(jìn)行，旨在推動(dòng)機(jī)器閱讀理解綜合水平的提高和綜合能力的拓展，為中文閱讀理解在教育、醫(yī)療、金融等各個(gè)領(lǐng)域的應(yīng)用提供參考。

文字是人類用以記錄和表達(dá)的最基本工具，也是信息傳播的重要媒介。從倉(cāng)頡造字的古老傳說(shuō)到殷商時(shí)期甲骨文的發(fā)現(xiàn)，我們的文字已經(jīng)綿延數(shù)千年，流傳至今。透過(guò)文字與符號(hào)，我們可以追尋文明的起源，理解自我及他人，傳播知識(shí)與經(jīng)驗(yàn)，當(dāng)人工智能面對(duì)一道古詩(shī)詞語(yǔ)文題，它能夠理解到什么程度呢？

昨夜雨疏風(fēng)驟，濃睡不消殘酒。試問(wèn)卷簾人，卻道海棠依舊。知否，知否？應(yīng)是綠肥紅瘦。

問(wèn):「殘酒」指的是：

A. 上次自己沒(méi)有喝完的酒

B. 別人喝后剩下的酒

C. 質(zhì)量低劣的酒

D. 還未消盡的醉意

（答案在文末）

機(jī)器閱讀理解體現(xiàn)的是人工智能對(duì)文本信息獲娶理解和挖掘的能力，是自然語(yǔ)言處理和人工智能領(lǐng)域的前沿課題，對(duì)于使機(jī)器擁有認(rèn)知能力、提升機(jī)器智能水平具有重要價(jià)值，擁有廣闊的應(yīng)用前景，諸如客服機(jī)器人，智能語(yǔ)音助手等，更加智能化、「擬人化」的機(jī)器一直是研究學(xué)者的追求目標(biāo)。

何為「擬人化」呢？即無(wú)限程度地接近于人。人類區(qū)別于機(jī)器的地方有很多，比如人的認(rèn)知能力、感知能力，想象力，創(chuàng)造力…… 在機(jī)器閱讀領(lǐng)域，擬人化體現(xiàn)在如何使機(jī)器理解知識(shí)與常識(shí)、具備邏輯推理能力，甚至是讀懂文字所承載的情感等等。隨著人類對(duì)人工智能要求的提高，人工智能的能力邊界也在不斷拓展。

從機(jī)器閱讀理解的發(fā)展歷程來(lái)看，機(jī)器閱讀理解的能力隨數(shù)據(jù)集的變化而不斷進(jìn)展。從深度學(xué)習(xí)的機(jī)器閱讀理解開(kāi)始算起，CNN/Daily Mail 數(shù)據(jù)集則是新起點(diǎn)的標(biāo)志。2015 年，Hermann 等人提出了源于 CNN 和《每日郵報(bào)》新聞的用以生成大規(guī)模閱讀理解的數(shù)據(jù)集，題目類型為完形填空，機(jī)器被要求從答案中四選一，而正確答案就是被替代的實(shí)體，考察的是其進(jìn)行信息匹配和抽取的能力。

另一個(gè)重要的時(shí)間節(jié)點(diǎn)則是 SQuAD 的誕生。SQuAD（ Stanford Question Answering Dataset），即斯坦福問(wèn)答數(shù)據(jù)集，這是第一個(gè)大規(guī)模的自然問(wèn)題閱讀理解數(shù)據(jù)集，啟發(fā)了一系列新的模型。SQuAD 是 Rajpurkar 等人在 2016 年根據(jù) 500 余篇維基百科文章，通過(guò)眾籌方式生成問(wèn)題的數(shù)據(jù)集，所有問(wèn)題至少在詞匯或語(yǔ)法上都與文章中的文本存在些許不同，需要模型具備文本匹配和釋義等基礎(chǔ)理解能力，同時(shí)，基于文本匹配或?qū)嶓w類型識(shí)別的方法仍然奏效。

SQuAD2.0 于 2018 年 6 月完成更新，新增了超過(guò)五萬(wàn)個(gè)由人類設(shè)計(jì)的，以及無(wú)法回答的問(wèn)題，這意味著機(jī)器在做題過(guò)程中還要判斷該問(wèn)題能否根據(jù)當(dāng)前的閱讀文本作答，它具有很高的迷惑性，基于文本匹配或?qū)嶓w類型識(shí)別的簡(jiǎn)單啟發(fā)式方法無(wú)法區(qū)分「可回答」和「不可回答」問(wèn)題，自此，對(duì)于機(jī)器閱讀理解能力的要求開(kāi)始更上一個(gè)臺(tái)階。

SQuAD 2.0 排行榜

過(guò)往的數(shù)據(jù)集 (例如 SQuAD1.0) 往往只需要從單句找答案，問(wèn)題與含有答案的句子具有高度相似性。為了加大問(wèn)答所需要的文章跨度，WIKIHOP 所構(gòu)建的問(wèn)題需要模型結(jié)合多篇不同文獻(xiàn)才能回答。這就比單一直接匹配的問(wèn)答要更具難度，數(shù)據(jù)集中的問(wèn)題需要多次「跳轉(zhuǎn)」的閱讀理解才能回答，這便形成了對(duì)機(jī)器推理能力的具體要求多跳推理。具體來(lái)說(shuō)，當(dāng)人工智能面對(duì)一個(gè)問(wèn)題，它只通過(guò)一個(gè)文檔是無(wú)法正確回答問(wèn)題的，需要根據(jù)多篇文檔才能正確作答。

此外，在現(xiàn)實(shí)世界中，許多問(wèn)題并不能簡(jiǎn)單地通過(guò)文本中的片段或?qū)嶓w來(lái)回答，人們更喜歡自己組織語(yǔ)言，并從相關(guān)文本中理解例子，歸納證據(jù)來(lái)給出答案。因而針對(duì)這些情況，近年來(lái)出現(xiàn)了一些描述性答案的數(shù)據(jù)集。MS MARCO 收集了 Bing 搜索引擎的查詢以及查詢結(jié)果，旨在用真實(shí)世界的問(wèn)題和文檔構(gòu)建問(wèn)答數(shù)據(jù)集，其中 53% 的問(wèn)題需要描述性的回答，不能通過(guò)單詞或?qū)嶓w級(jí)別的抽取完成問(wèn)答。這類數(shù)據(jù)集更加切合真實(shí)的生活場(chǎng)景，機(jī)器除了基于文本的閱讀理解之外，還要能夠進(jìn)行對(duì)于語(yǔ)義環(huán)境的理解，生活化語(yǔ)言的描述與表達(dá)。

人工智能的推理能力在考試類及對(duì)話類數(shù)據(jù)集中更加有所體現(xiàn)，這要求機(jī)器能夠根據(jù)周圍的信息、活動(dòng)和環(huán)境找出其內(nèi)在的邏輯關(guān)系并推理出符合邏輯關(guān)系的結(jié)論。RACE 是一個(gè)包含 28,000 多個(gè)段落和將近十萬(wàn)個(gè)問(wèn)題的大規(guī)模閱讀理解數(shù)據(jù)集，該數(shù)據(jù)集來(lái)自為中國(guó)初、高中生設(shè)計(jì)的英語(yǔ)考試，其問(wèn)題和候選答案中的單詞可能不會(huì)出現(xiàn)在文章中，所以簡(jiǎn)單的上下文匹配技術(shù)用處不大，其超過(guò)半數(shù)的問(wèn)題需要推理能力，25% 的問(wèn)題需要從多個(gè)句子進(jìn)行推理。從 RACE 的排行榜來(lái)看，機(jī)器在推理能力要求下的閱讀理解水平還是和人類存在差距。

RACE排行榜

機(jī)器閱讀理解的綜合能力也在不同數(shù)據(jù)集中各有側(cè)重。有的考察常識(shí)，有的考察具體的某一種邏輯關(guān)系，有的考察數(shù)學(xué)能力。根據(jù)統(tǒng)計(jì)分析，MCScript 中有 27.4% 的問(wèn)題需要常識(shí)來(lái)回答，因此該數(shù)據(jù)集可以考察模型利用生活常識(shí)理解文章回答問(wèn)題的能力。對(duì)于 CoQA，它的關(guān)鍵挑戰(zhàn)是系統(tǒng)必須正確處理對(duì)話歷史記錄，以解決指代消解類的問(wèn)題。在該數(shù)據(jù)集中，共指關(guān)系和語(yǔ)用學(xué)是其他數(shù)據(jù)集所沒(méi)有的獨(dú)特而具有挑戰(zhàn)性的語(yǔ)言現(xiàn)象。更有研究 (DROP) 專注于需要推理的 MRC 任務(wù)，推理的類型涵蓋了數(shù)學(xué)運(yùn)算、比較、選擇、計(jì)數(shù)、排序、共指消解等等。

隨著機(jī)器閱讀理解智能化的進(jìn)展，當(dāng)今 MRC 研究方向更加注重考察簡(jiǎn)單匹配以外的多種理解能力，包括細(xì)節(jié)推理、全局推理、文章總結(jié)、態(tài)度分析、世界知識(shí)等等。而無(wú)論是外部知識(shí)還是綜合能力，這都是對(duì)于機(jī)器更高層次、更加智能化的現(xiàn)實(shí)要求，也是機(jī)器閱讀理解發(fā)展所朝著的方向。在世界潮流之下，當(dāng)我們將機(jī)器閱讀理解放到中文的語(yǔ)境下去思考，便會(huì)發(fā)現(xiàn)中文的閱讀理解有著更多的難點(diǎn)、更高層次的要求。

回顧開(kāi)篇李清照的《如夢(mèng)令》，人工智能在釋義類型的題目上可以正確作答，而當(dāng)被問(wèn)到，「這體現(xiàn)了詞人怎樣的情感」？或是「詞人最可能在什么樣的情境下有感而發(fā)」？機(jī)器就顯得捉襟見(jiàn)肘。

漢字作為一種源遠(yuǎn)流長(zhǎng)的文字，它包含了這個(gè)古老民族的智慧，孕育了華夏生生不息的文明。從中文的語(yǔ)言特性上來(lái)看，機(jī)器的中文閱讀理解有著自身的獨(dú)特性和復(fù)雜性。

中文語(yǔ)法的復(fù)雜性，這就導(dǎo)致了中英文在詞性標(biāo)注、句法分析等任務(wù)上頗有差異。主要體現(xiàn)在英語(yǔ)有明顯的屈折變化（單復(fù)數(shù)、時(shí)態(tài)等），而漢語(yǔ)則缺少這些有規(guī)律的變化，相較于英文來(lái)說(shuō)，中文的很多語(yǔ)法成分是被省略的，其邏輯關(guān)系都蘊(yùn)含在了句意之中，更不用說(shuō)生活中的「言外之意，弦外之音」了�；叵胍幌滦W(xué)的那些語(yǔ)文課，你可曾記得老師講過(guò)用什么格式去描述過(guò)去和未來(lái)？為什么外國(guó)人總說(shuō)中文是最難的語(yǔ)言？?jī)H從語(yǔ)法規(guī)律這一點(diǎn)上便可見(jiàn)一斑。

語(yǔ)義本身的復(fù)雜性。中文的歷史更加悠久，句法和語(yǔ)義富有變化。常見(jiàn)的中文文體包括古詩(shī)詞、文言文、現(xiàn)代文和現(xiàn)代詩(shī)，其中現(xiàn)代文又分為小說(shuō)、散文、議論文、說(shuō)明文、新聞傳記等，且不說(shuō)其中的詞語(yǔ)還可能包括成語(yǔ)、歇后語(yǔ)，典故。其中，文言文多由單字詞組成，現(xiàn)代白話文則以多字詞為主，字的含義也隨著時(shí)代更迭而變化。有研究者以成語(yǔ)為載體構(gòu)建了完形填空式的 MRC 數(shù)據(jù)集(ChID)，要求模型從幾個(gè)近義成語(yǔ)之間選出正確的一個(gè)，由于成語(yǔ)大多源于古文典籍，形式類似文言文，并常常帶有隱喻，讓機(jī)器在現(xiàn)代文的語(yǔ)境下去理解古文仍然是一個(gè)不小的難題。

基于此背景，由中關(guān)村海華信息技術(shù)前沿研究院與清華大學(xué)交叉信息研究院聯(lián)合主辦，騰訊云計(jì)算協(xié)辦的「2021 海華 AI 挑戰(zhàn)賽中文閱讀理解」應(yīng)運(yùn)而生。大賽聚焦于中文閱讀理解，注重對(duì)機(jī)器推理能力，甚至是情感理解能力的考察，數(shù)據(jù)文章涵蓋多種文體的課文，古詩(shī)詞、文言文、現(xiàn)代詩(shī)和現(xiàn)代文。這就要求模型不僅具備從原文抽取信息的能力，還需要具備歸納總結(jié)、邏輯推理、分析情感的能力，甚至還需要一些外部知識(shí)（文學(xué)常識(shí)、修辭手法、說(shuō)明方法等）作為補(bǔ)充，大賽旨在推動(dòng)機(jī)器閱讀理解綜合水平的提高和綜合能力的拓展，為中文閱讀理解在教育、醫(yī)療、金融等各個(gè)領(lǐng)域的應(yīng)用提供參考。

時(shí)代的巨輪滾滾向前，「古老」與「現(xiàn)代」以科技的形式融會(huì)貫通，讓最聰明的機(jī)器去閱讀最古老的文明，我們既是歷史的見(jiàn)證者，也是歷史的創(chuàng)造者。面對(duì)重重關(guān)卡，迎難而上的挑戰(zhàn)者不可謂不勇。大賽分為中學(xué)組及技術(shù)組兩條平行賽道（騰訊云計(jì)算為中學(xué)組賽道提供獨(dú)家算力資源支持），設(shè) 30 萬(wàn)元獎(jiǎng)金池，并特設(shè)技術(shù)組古文正確率最高獎(jiǎng)。志不求易，事不避難，璀璨的中華文明得以繼承與發(fā)揚(yáng)，離不開(kāi)每一個(gè)時(shí)代里努力鉆研、堅(jiān)守傳承的人，這也正是本次大賽的魅力與挑戰(zhàn)：讓機(jī)器讀懂文字，讓機(jī)器學(xué)習(xí)文明。激揚(yáng)文字，百舸爭(zhēng)流，更多大賽信息及報(bào)名界面參見(jiàn)下方二維碼。

答案：D

海華 AI 挑戰(zhàn)賽

2020 海華 AI 挑戰(zhàn)賽聚焦社會(huì)熱點(diǎn)問(wèn)題垃圾分類，以深度學(xué)習(xí)為基礎(chǔ)，利用人工智能協(xié)助解決生活中的垃圾分類問(wèn)題，為垃圾處理流程貢獻(xiàn)有價(jià)值的解決方式。上一屆大賽吸引了來(lái)自全球 14 個(gè)國(guó)家和地區(qū)的參賽選手，總計(jì)超過(guò) 1,100 人。其中技術(shù)組賽道的參賽選手覆蓋超過(guò) 500 所全球頂級(jí)高校、科研機(jī)構(gòu)以及知名科技企業(yè)。在比賽過(guò)程中，有超過(guò) 50 支參賽隊(duì)伍提交了超過(guò) 0.80 分的預(yù)測(cè)結(jié)果，最后技術(shù)組的冠軍團(tuán)隊(duì)以 0.03 分的微弱優(yōu)勢(shì)勝出，戰(zhàn)況激烈，精彩紛呈。比賽結(jié)束后，中學(xué)組與技術(shù)組的所有獲獎(jiǎng)選手都收到了姚期智院士親筆簽名的比賽證書(shū)。在決賽答辯暨頒獎(jiǎng)儀式直播活動(dòng)中，姚先生特別為大家送上了祝福，「希望同學(xué)們接觸 AI 技術(shù)的同時(shí)，也抱有利用 AI 技術(shù)讓人類發(fā)展越來(lái)越好的信念」。

海華研究院

中關(guān)村海華信息技術(shù)前沿研究院是由姚期智院士捐贈(zèng)出資創(chuàng)辦成立的民辦非企業(yè)單位，依托海淀區(qū)政府的扶持，旨在承擔(dān)新型研發(fā)機(jī)構(gòu)和新型智庫(kù)的使命，做好聯(lián)結(jié)學(xué)術(shù)界、產(chǎn)業(yè)界的橋梁。

海華研究院背靠清華大學(xué)交叉信息研究院的人才團(tuán)隊(duì)，以交叉信息院近些年在計(jì)算經(jīng)濟(jì)學(xué)、芯片研發(fā)、經(jīng)濟(jì)學(xué)、大數(shù)據(jù)、區(qū)塊鏈、金融科技、監(jiān)管科技、人工智能等諸多領(lǐng)域的世界級(jí)研究成果為基礎(chǔ)，致力于建成未來(lái)匯聚和培養(yǎng)青年科研人才，實(shí)踐跨學(xué)科、跨領(lǐng)域技術(shù)整合項(xiàng)目，實(shí)現(xiàn)前沿科研和技術(shù)落地相結(jié)合的核心載體。在聚集世界領(lǐng)先人工智能科研團(tuán)隊(duì)的同時(shí)，培育國(guó)際優(yōu)秀人工智能人才，推動(dòng)人工智能創(chuàng)新協(xié)同發(fā)展，助力科技成果轉(zhuǎn)化和應(yīng)用落地實(shí)踐，力爭(zhēng)成為國(guó)際人工智能發(fā)展的領(lǐng)軍者。

References

Hermann, Karl Moritz, Tomá Ko isk , Edward Grefenstette, Lasse Espeholt, Will Kay, Mustafa Suleyman, and Phil Blunsom. "Teaching machines to read and comprehend." arXiv preprint arXiv:1506.03340 (2015).

Rajpurkar, Pranav, Jian Zhang, Konstantin Lopyrev, and Percy Liang. "Squad: 100,000+ questions for machine comprehension of text." arXiv preprint arXiv:1606.05250 (2016).

Rajpurkar, Pranav, Robin Jia, and Percy Liang. "Know what you don't know: Unanswerable questions for SQuAD." arXiv preprint arXiv:1806.03822 (2018).

Welbl, Johannes, Pontus Stenetorp, and Sebastian Riedel. "Constructing datasets for multi-hop reading comprehension across documents." Transactions of the Association for Computational Linguistics 6 (2018): 287-302.

Nguyen, Tri, Mir Rosenberg, Xia Song, Jianfeng Gao, Saurabh Tiwary, Rangan Majumder, and Li Deng. "MS MARCO: A human generated machine reading comprehension dataset." In CoCo@ NIPS. 2016.

He, Wei, Kai Liu, Jing Liu, Yajuan Lyu, Shiqi Zhao, Xinyan Xiao, Yuan Liu et al. "Dureader: a chinese machine reading comprehension dataset from real-world applications." arXiv preprint arXiv:1711.05073 (2017).

Lai, Guokun, Qizhe Xie, Hanxiao Liu, Yiming Yang, and Eduard Hovy. "Race: Large-scale reading comprehension dataset from examinations." arXiv preprint arXiv:1704.04683 (2017).

Sun, Kai, Dian Yu, Jianshu Chen, Dong Yu, Yejin Choi, and Claire Cardie. "Dream: A challenge data set and models for dialogue-based reading comprehension." Transactions of the Association for Computational Linguistics 7 (2019): 217-231.

Ostermann, Simon, Ashutosh Modi, Michael Roth, Stefan Thater, and Manfred Pinkal. "Mcscript: A novel dataset for assessing machine comprehension using script knowledge." arXiv preprint arXiv:1803.05223 (2018).

Reddy, Siva, Danqi Chen, and Christopher D. Manning. "Coqa: A conversational question answering challenge." Transactions of the Association for Computational Linguistics 7 (2019): 249-266.

Dua, Dheeru, Yizhong Wang, Pradeep Dasigi, Gapiel Stanovsky, Sameer Singh, and Matt Gardner. "DROP: A reading comprehension benchmark requiring discrete reasoning over paragraphs." arXiv preprint arXiv:1903.00161 (2019).

https://www.zhihu.com/question/59227800

Zheng, Chujie, Minlie Huang, and Aixin Sun. "Chid: A large-scale chinese idiom dataset for cloze test." arXiv preprint arXiv:1906.01265 (2019).

相關(guān)熱詞： 碰上如夢(mèng)令中文 NLP 大賽正在進(jìn)行中