展會(huì)信息港展會(huì)大全

AI碰上《如夢(mèng)令》?中文NLP大賽正在進(jìn)行中
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2021-03-19 14:50:24   瀏覽:40883次  

導(dǎo)讀:機(jī)器之心發(fā)布 作者:林三 Yichen 「2021 海華 AI 挑戰(zhàn)賽 中文閱讀理解」正在進(jìn)行,旨在推動(dòng)機(jī)器閱讀理解綜合水平的提高和綜合能力的拓展,為中文閱讀理解在教育、醫(yī)療、金融等各個(gè)領(lǐng)域的應(yīng)用提供參考。 文字是人類用以記錄和表達(dá)的最基本工具,也是信息傳播...

機(jī)器之心發(fā)布

作者:林三 Yichen

「2021 海華 AI 挑戰(zhàn)賽 中文閱讀理解」正在進(jìn)行,旨在推動(dòng)機(jī)器閱讀理解綜合水平的提高和綜合能力的拓展,為中文閱讀理解在教育、醫(yī)療、金融等各個(gè)領(lǐng)域的應(yīng)用提供參考。

文字是人類用以記錄和表達(dá)的最基本工具,也是信息傳播的重要媒介。從倉(cāng)頡造字的古老傳說(shuō)到殷商時(shí)期甲骨文的發(fā)現(xiàn),我們的文字已經(jīng)綿延數(shù)千年,流傳至今。透過(guò)文字與符號(hào),我們可以追尋文明的起源,理解自我及他人,傳播知識(shí)與經(jīng)驗(yàn),當(dāng)人工智能面對(duì)一道古詩(shī)詞語(yǔ)文題,它能夠理解到什么程度呢?

昨夜雨疏風(fēng)驟,濃睡不消殘酒。試問(wèn)卷簾人,卻道海棠依舊。知否,知否?應(yīng)是綠肥紅瘦。

問(wèn):「殘酒」指的是:

A. 上次自己沒(méi)有喝完的酒

B. 別人喝后剩下的酒

C. 質(zhì)量低劣的酒

D. 還未消盡的醉意

(答案在文末)

機(jī)器閱讀理解體現(xiàn)的是人工智能對(duì)文本信息獲娶理解和挖掘的能力,是自然語(yǔ)言處理和人工智能領(lǐng)域的前沿課題,對(duì)于使機(jī)器擁有認(rèn)知能力、提升機(jī)器智能水平具有重要價(jià)值,擁有廣闊的應(yīng)用前景,諸如客服機(jī)器人,智能語(yǔ)音助手等,更加智能化、「擬人化」的機(jī)器一直是研究學(xué)者的追求目標(biāo)。

何為 「擬人化」呢?即無(wú)限程度地接近于人。人類區(qū)別于機(jī)器的地方有很多,比如人的認(rèn)知能力、感知能力,想象力,創(chuàng)造力…… 在機(jī)器閱讀領(lǐng)域,擬人化體現(xiàn)在如何使機(jī)器理解知識(shí)與常識(shí)、具備邏輯推理能力,甚至是讀懂文字所承載的情感等等。隨著人類對(duì)人工智能要求的提高,人工智能的能力邊界也在不斷拓展。

從機(jī)器閱讀理解的發(fā)展歷程來(lái)看,機(jī)器閱讀理解的能力隨數(shù)據(jù)集的變化而不斷進(jìn)展。從深度學(xué)習(xí)的機(jī)器閱讀理解開(kāi)始算起,CNN/Daily Mail 數(shù)據(jù)集則是新起點(diǎn)的標(biāo)志。2015 年,Hermann 等人提出了源于 CNN 和《每日郵報(bào)》新聞的用以生成大規(guī)模閱讀理解的數(shù)據(jù)集,題目類型為完形填空,機(jī)器被要求從答案中四選一,而正確答案就是被替代的實(shí)體,考察的是其進(jìn)行信息匹配和抽取的能力。

另一個(gè)重要的時(shí)間節(jié)點(diǎn)則是 SQuAD 的誕生。SQuAD( Stanford Question Answering Dataset),即斯坦福問(wèn)答數(shù)據(jù)集,這是第一個(gè)大規(guī)模的自然問(wèn)題閱讀理解數(shù)據(jù)集,啟發(fā)了一系列新的模型。SQuAD 是 Rajpurkar 等人在 2016 年根據(jù) 500 余篇維基百科文章,通過(guò)眾籌方式生成問(wèn)題的數(shù)據(jù)集,所有問(wèn)題至少在詞匯或語(yǔ)法上都與文章中的文本存在些許不同,需要模型具備文本匹配和釋義等基礎(chǔ)理解能力,同時(shí),基于文本匹配或?qū)嶓w類型識(shí)別的方法仍然奏效。

SQuAD2.0 于 2018 年 6 月完成更新,新增了超過(guò)五萬(wàn)個(gè)由人類設(shè)計(jì)的,以及無(wú)法回答的問(wèn)題,這意味著機(jī)器在做題過(guò)程中還要判斷該問(wèn)題能否根據(jù)當(dāng)前的閱讀文本作答,它具有很高的迷惑性,基于文本匹配或?qū)嶓w類型識(shí)別的簡(jiǎn)單啟發(fā)式方法無(wú)法區(qū)分「可回答」 和「不可回答」問(wèn)題,自此,對(duì)于機(jī)器閱讀理解能力的要求開(kāi)始更上一個(gè)臺(tái)階。

SQuAD 2.0 排行榜

過(guò)往的數(shù)據(jù)集 (例如 SQuAD1.0) 往往只需要從單句找答案,問(wèn)題與含有答案的句子具有高度相似性。為了加大問(wèn)答所需要的文章跨度,WIKIHOP 所構(gòu)建的問(wèn)題需要模型結(jié)合多篇不同文獻(xiàn)才能回答。這就比單一直接匹配的問(wèn)答要更具難度,數(shù)據(jù)集中的問(wèn)題需要多次 「跳轉(zhuǎn)」的閱讀理解才能回答,這便形成了對(duì)機(jī)器推理能力的具體要求多跳推理。具體來(lái)說(shuō),當(dāng)人工智能面對(duì)一個(gè)問(wèn)題,它只通過(guò)一個(gè)文檔是無(wú)法正確回答問(wèn)題的,需要根據(jù)多篇文檔才能正確作答。

此外,在現(xiàn)實(shí)世界中,許多問(wèn)題并不能簡(jiǎn)單地通過(guò)文本中的片段或?qū)嶓w來(lái)回答,人們更喜歡自己組織語(yǔ)言,并從相關(guān)文本中理解例子,歸納證據(jù)來(lái)給出答案。因而針對(duì)這些情況,近年來(lái)出現(xiàn)了一些描述性答案的數(shù)據(jù)集。MS MARCO 收集了 Bing 搜索引擎的查詢以及查詢結(jié)果,旨在用真實(shí)世界的問(wèn)題和文檔構(gòu)建問(wèn)答數(shù)據(jù)集,其中 53% 的問(wèn)題需要描述性的回答,不能通過(guò)單詞或?qū)嶓w級(jí)別的抽取完成問(wèn)答。這類數(shù)據(jù)集更加切合真實(shí)的生活場(chǎng)景,機(jī)器除了基于文本的閱讀理解之外,還要能夠進(jìn)行對(duì)于語(yǔ)義環(huán)境的理解,生活化語(yǔ)言的描述與表達(dá)。

人工智能的推理能力在考試類及對(duì)話類數(shù)據(jù)集中更加有所體現(xiàn),這要求機(jī)器能夠根據(jù)周圍的信息、活動(dòng)和環(huán)境找出其內(nèi)在的邏輯關(guān)系并推理出符合邏輯關(guān)系的結(jié)論。RACE 是一個(gè)包含 28,000 多個(gè)段落和將近十萬(wàn)個(gè)問(wèn)題的大規(guī)模閱讀理解數(shù)據(jù)集,該數(shù)據(jù)集來(lái)自為中國(guó)初、高中生設(shè)計(jì)的英語(yǔ)考試,其問(wèn)題和候選答案中的單詞可能不會(huì)出現(xiàn)在文章中,所以簡(jiǎn)單的上下文匹配技術(shù)用處不大,其超過(guò)半數(shù)的問(wèn)題需要推理能力,25% 的問(wèn)題需要從多個(gè)句子進(jìn)行推理。從 RACE 的排行榜來(lái)看,機(jī)器在推理能力要求下的閱讀理解水平還是和人類存在差距。

RACE排行榜

機(jī)器閱讀理解的綜合能力也在不同數(shù)據(jù)集中各有側(cè)重。有的考察常識(shí),有的考察具體的某一種邏輯關(guān)系,有的考察數(shù)學(xué)能力。根據(jù)統(tǒng)計(jì)分析,MCScript 中有 27.4% 的問(wèn)題需要常識(shí)來(lái)回答,因此該數(shù)據(jù)集可以考察模型利用生活常識(shí)理解文章回答問(wèn)題的能力。對(duì)于 CoQA,它的關(guān)鍵挑戰(zhàn)是系統(tǒng)必須正確處理對(duì)話歷史記錄,以解決指代消解類的問(wèn)題。在該數(shù)據(jù)集中,共指關(guān)系和語(yǔ)用學(xué)是其他數(shù)據(jù)集所沒(méi)有的獨(dú)特而具有挑戰(zhàn)性的語(yǔ)言現(xiàn)象。更有研究 (DROP) 專注于需要推理的 MRC 任務(wù),推理的類型涵蓋了數(shù)學(xué)運(yùn)算、比較、選擇、計(jì)數(shù)、排序、共指消解等等。

隨著機(jī)器閱讀理解智能化的進(jìn)展,當(dāng)今 MRC 研究方向更加注重考察簡(jiǎn)單匹配以外的多種理解能力,包括細(xì)節(jié)推理、全局推理、文章總結(jié)、態(tài)度分析、世界知識(shí)等等。而無(wú)論是外部知識(shí)還是綜合能力,這都是對(duì)于機(jī)器更高層次、更加智能化的現(xiàn)實(shí)要求,也是機(jī)器閱讀理解發(fā)展所朝著的方向。在世界潮流之下,當(dāng)我們將機(jī)器閱讀理解放到中文的語(yǔ)境下去思考,便會(huì)發(fā)現(xiàn)中文的閱讀理解有著更多的難點(diǎn)、更高層次的要求。

回顧開(kāi)篇李清照的《如夢(mèng)令》,人工智能在釋義類型的題目上可以正確作答,而當(dāng)被問(wèn)到,「這體現(xiàn)了詞人怎樣的情感」?或是「詞人最可能在什么樣的情境下有感而發(fā)」?機(jī)器就顯得捉襟見(jiàn)肘。

漢字作為一種源遠(yuǎn)流長(zhǎng)的文字,它包含了這個(gè)古老民族的智慧,孕育了華夏生生不息的文明。從中文的語(yǔ)言特性上來(lái)看,機(jī)器的中文閱讀理解有著自身的獨(dú)特性和復(fù)雜性。

中文語(yǔ)法的復(fù)雜性,這就導(dǎo)致了中英文在詞性標(biāo)注、句法分析等任務(wù)上頗有差異。主要體現(xiàn)在英語(yǔ)有明顯的屈折變化(單復(fù)數(shù)、時(shí)態(tài)等),而漢語(yǔ)則缺少這些有規(guī)律的變化,相較于英文來(lái)說(shuō),中文的很多語(yǔ)法成分是被省略的,其邏輯關(guān)系都蘊(yùn)含在了句意之中,更不用說(shuō)生活中的「言外之意,弦外之音」 了;叵胍幌滦W(xué)的那些語(yǔ)文課,你可曾記得老師講過(guò)用什么格式去描述過(guò)去和未來(lái)?為什么外國(guó)人總說(shuō)中文是最難的語(yǔ)言??jī)H從語(yǔ)法規(guī)律這一點(diǎn)上便可見(jiàn)一斑。

語(yǔ)義本身的復(fù)雜性。中文的歷史更加悠久,句法和語(yǔ)義富有變化。常見(jiàn)的中文文體包括古詩(shī)詞、文言文、現(xiàn)代文和現(xiàn)代詩(shī),其中現(xiàn)代文又分為小說(shuō)、散文、議論文、說(shuō)明文、新聞傳記等,且不說(shuō)其中的詞語(yǔ)還可能包括成語(yǔ)、歇后語(yǔ),典故。其中,文言文多由單字詞組成,現(xiàn)代白話文則以多字詞為主,字的含義也隨著時(shí)代更迭而變化。有研究者以成語(yǔ)為載體構(gòu)建了完形填空式的 MRC 數(shù)據(jù)集(ChID),要求模型從幾個(gè)近義成語(yǔ)之間選出正確的一個(gè),由于成語(yǔ)大多源于古文典籍,形式類似文言文,并常常帶有隱喻,讓機(jī)器在現(xiàn)代文的語(yǔ)境下去理解古文仍然是一個(gè)不小的難題。

基于此背景,由中關(guān)村海華信息技術(shù)前沿研究院與清華大學(xué)交叉信息研究院聯(lián)合主辦,騰訊云計(jì)算協(xié)辦的 「2021 海華 AI 挑戰(zhàn)賽 中文閱讀理解」應(yīng)運(yùn)而生。大賽聚焦于中文閱讀理解,注重對(duì)機(jī)器推理能力,甚至是情感理解能力的考察,數(shù)據(jù)文章涵蓋多種文體的課文,古詩(shī)詞、文言文、現(xiàn)代詩(shī)和現(xiàn)代文。這就要求模型不僅具備從原文抽取信息的能力,還需要具備歸納總結(jié)、邏輯推理、分析情感的能力,甚至還需要一些外部知識(shí)(文學(xué)常識(shí)、修辭手法、說(shuō)明方法等)作為補(bǔ)充,大賽旨在推動(dòng)機(jī)器閱讀理解綜合水平的提高和綜合能力的拓展,為中文閱讀理解在教育、醫(yī)療、金融等各個(gè)領(lǐng)域的應(yīng)用提供參考。

時(shí)代的巨輪滾滾向前,「古老」與 「現(xiàn)代」以科技的形式融會(huì)貫通,讓最聰明的機(jī)器去閱讀最古老的文明,我們既是歷史的見(jiàn)證者,也是歷史的創(chuàng)造者。面對(duì)重重關(guān)卡,迎難而上的挑戰(zhàn)者不可謂不勇。大賽分為中學(xué)組及技術(shù)組兩條平行賽道(騰訊云計(jì)算為中學(xué)組賽道提供獨(dú)家算力資源支持),設(shè) 30 萬(wàn)元獎(jiǎng)金池,并特設(shè)技術(shù)組古文正確率最高獎(jiǎng)。志不求易,事不避難,璀璨的中華文明得以繼承與發(fā)揚(yáng),離不開(kāi)每一個(gè)時(shí)代里努力鉆研、堅(jiān)守傳承的人,這也正是本次大賽的魅力與挑戰(zhàn):讓機(jī)器讀懂文字,讓機(jī)器學(xué)習(xí)文明。激揚(yáng)文字,百舸爭(zhēng)流,更多大賽信息及報(bào)名界面參見(jiàn)下方二維碼。

答案:D

海華 AI 挑戰(zhàn)賽

2020 海華 AI 挑戰(zhàn)賽聚焦社會(huì)熱點(diǎn)問(wèn)題垃圾分類,以深度學(xué)習(xí)為基礎(chǔ),利用人工智能協(xié)助解決生活中的垃圾分類問(wèn)題,為垃圾處理流程貢獻(xiàn)有價(jià)值的解決方式。上一屆大賽吸引了來(lái)自全球 14 個(gè)國(guó)家和地區(qū)的參賽選手,總計(jì)超過(guò) 1,100 人。其中技術(shù)組賽道的參賽選手覆蓋超過(guò) 500 所全球頂級(jí)高校、科研機(jī)構(gòu)以及知名科技企業(yè)。在比賽過(guò)程中,有超過(guò) 50 支參賽隊(duì)伍提交了超過(guò) 0.80 分的預(yù)測(cè)結(jié)果,最后技術(shù)組的冠軍團(tuán)隊(duì)以 0.03 分的微弱優(yōu)勢(shì)勝出,戰(zhàn)況激烈,精彩紛呈。比賽結(jié)束后,中學(xué)組與技術(shù)組的所有獲獎(jiǎng)選手都收到了姚期智院士親筆簽名的比賽證書(shū)。在決賽答辯暨頒獎(jiǎng)儀式直播活動(dòng)中,姚先生特別為大家送上了祝福,「希望同學(xué)們接觸 AI 技術(shù)的同時(shí),也抱有利用 AI 技術(shù)讓人類發(fā)展越來(lái)越好的信念」。

海華研究院

中關(guān)村海華信息技術(shù)前沿研究院是由姚期智院士捐贈(zèng)出資創(chuàng)辦成立的民辦非企業(yè)單位,依托海淀區(qū)政府的扶持,旨在承擔(dān)新型研發(fā)機(jī)構(gòu)和新型智庫(kù)的使命,做好聯(lián)結(jié)學(xué)術(shù)界、產(chǎn)業(yè)界的橋梁。

海華研究院背靠清華大學(xué)交叉信息研究院的人才團(tuán)隊(duì),以交叉信息院近些年在計(jì)算經(jīng)濟(jì)學(xué)、芯片研發(fā)、經(jīng)濟(jì)學(xué)、大數(shù)據(jù)、區(qū)塊鏈、金融科技、監(jiān)管科技、人工智能等諸多領(lǐng)域的世界級(jí)研究成果為基礎(chǔ),致力于建成未來(lái)匯聚和培養(yǎng)青年科研人才,實(shí)踐跨學(xué)科、跨領(lǐng)域技術(shù)整合項(xiàng)目,實(shí)現(xiàn)前沿科研和技術(shù)落地相結(jié)合的核心載體。在聚集世界領(lǐng)先人工智能科研團(tuán)隊(duì)的同時(shí),培育國(guó)際優(yōu)秀人工智能人才,推動(dòng)人工智能創(chuàng)新協(xié)同發(fā)展,助力科技成果轉(zhuǎn)化和應(yīng)用落地實(shí)踐,力爭(zhēng)成為國(guó)際人工智能發(fā)展的領(lǐng)軍者。

References

Hermann, Karl Moritz, Tomá Ko isk , Edward Grefenstette, Lasse Espeholt, Will Kay, Mustafa Suleyman, and Phil Blunsom. "Teaching machines to read and comprehend." arXiv preprint arXiv:1506.03340 (2015).

Rajpurkar, Pranav, Jian Zhang, Konstantin Lopyrev, and Percy Liang. "Squad: 100,000+ questions for machine comprehension of text." arXiv preprint arXiv:1606.05250 (2016).

Rajpurkar, Pranav, Robin Jia, and Percy Liang. "Know what you don't know: Unanswerable questions for SQuAD." arXiv preprint arXiv:1806.03822 (2018).

Welbl, Johannes, Pontus Stenetorp, and Sebastian Riedel. "Constructing datasets for multi-hop reading comprehension across documents." Transactions of the Association for Computational Linguistics 6 (2018): 287-302.

Nguyen, Tri, Mir Rosenberg, Xia Song, Jianfeng Gao, Saurabh Tiwary, Rangan Majumder, and Li Deng. "MS MARCO: A human generated machine reading comprehension dataset." In CoCo@ NIPS. 2016.

He, Wei, Kai Liu, Jing Liu, Yajuan Lyu, Shiqi Zhao, Xinyan Xiao, Yuan Liu et al. "Dureader: a chinese machine reading comprehension dataset from real-world applications." arXiv preprint arXiv:1711.05073 (2017).

Lai, Guokun, Qizhe Xie, Hanxiao Liu, Yiming Yang, and Eduard Hovy. "Race: Large-scale reading comprehension dataset from examinations." arXiv preprint arXiv:1704.04683 (2017).

Sun, Kai, Dian Yu, Jianshu Chen, Dong Yu, Yejin Choi, and Claire Cardie. "Dream: A challenge data set and models for dialogue-based reading comprehension." Transactions of the Association for Computational Linguistics 7 (2019): 217-231.

Ostermann, Simon, Ashutosh Modi, Michael Roth, Stefan Thater, and Manfred Pinkal. "Mcscript: A novel dataset for assessing machine comprehension using script knowledge." arXiv preprint arXiv:1803.05223 (2018).

Reddy, Siva, Danqi Chen, and Christopher D. Manning. "Coqa: A conversational question answering challenge." Transactions of the Association for Computational Linguistics 7 (2019): 249-266.

Dua, Dheeru, Yizhong Wang, Pradeep Dasigi, Gapiel Stanovsky, Sameer Singh, and Matt Gardner. "DROP: A reading comprehension benchmark requiring discrete reasoning over paragraphs." arXiv preprint arXiv:1903.00161 (2019).

https://www.zhihu.com/question/59227800

Zheng, Chujie, Minlie Huang, and Aixin Sun. "Chid: A large-scale chinese idiom dataset for cloze test." arXiv preprint arXiv:1906.01265 (2019).


贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港