午夜激情影院国产,97色伦亚洲自偷,国产小视频免费在线观看

新的測試顯示 AI 仍然缺乏常識

來源：互聯(lián)網(wǎng) 發(fā)布日期：2020-11-21 06:53:51 瀏覽：22271次

導(dǎo)讀：盡管自然語言處理取得了進(jìn)步，但最先進(jìn)的系統(tǒng)仍然會產(chǎn)生兩只狗互相扔飛盤這樣的句子。來源：阿德里亞娜桑切斯。自然語言處理（NLP）最近取得了長足的進(jìn)步，但 AI 對它所讀內(nèi)容了解多少？據(jù)南加州大學(xué)計算機(jī)科學(xué)系的研究人員說，比我們想象的要少。在最近...

盡管自然語言處理取得了進(jìn)步，但最先進(jìn)的系統(tǒng)仍然會產(chǎn)生"兩只狗互相扔飛盤"這樣的句子。來源：阿德里亞娜桑切斯。

自然語言處理（NLP）最近取得了長足的進(jìn)步，但 AI 對它所讀內(nèi)容了解多少？據(jù)南加州大學(xué)計算機(jī)科學(xué)系的研究人員說，比我們想象的要少。在最近的一篇論文中，任翔副教授和博士生林玉晨發(fā)現(xiàn)，盡管取得了進(jìn)步，人工智能仍然沒有產(chǎn)生似是而非的句子所需的常識。

"目前的機(jī)器文本生成模型可以寫一篇能讓許多人信服的文章，但他們基本上是在模仿他們在訓(xùn)練階段所看到的情況，"林說，"我們本文的目標(biāo)是研究當(dāng)前最先進(jìn)的文本生成模型是否可以寫句子來描述我們?nèi)粘Ｉ钪械淖匀粓鼍暗膯栴}。"

了解日常生活中的場景

具體來說，任和林測試了模型的推理能力，表明當(dāng)前文本生成模型與人的表現(xiàn)存在較大差距。給定一組常見的名詞和動詞，最先進(jìn)的 NLP 計算機(jī)模型的任務(wù)是創(chuàng)建描述日常場景的可信句子。雖然模型生成語法正確的句子，但它們在邏輯上往往不連貫。

例如，下面是一個使用"狗、飛盤、投擲、捕獲"等現(xiàn)代模型生成的句子：

"兩只狗互相扔飛盤。

測試基于這樣的假設(shè)：如果對常識概念有更深入的認(rèn)識，就無法產(chǎn)生連貫的想法（在這種情況下："一個人扔飛盤，狗抓住它"）。換句話說，常識不僅僅是對語言的正確理解，它意味著你不必在談話中解釋所有內(nèi)容。這是開發(fā)通用人工智能目標(biāo)的根本挑戰(zhàn)，但除了學(xué)術(shù)界之外，它對于消費(fèi)者也相關(guān)。

如果不了解語言，基于這些最先進(jìn)的自然語言模型構(gòu)建的聊天機(jī)器人和語音助手就容易受到失敗的影響。機(jī)器人要在人類環(huán)境中變得更有作為也至關(guān)重要。畢竟，如果你向機(jī)器人要熱牛奶，你期望它知道你想要一杯牛奶，而不是整個紙箱。

"我們還表明，如果一代模型在我們的測試中表現(xiàn)更好，它也可以有利于其他需要常識推理的應(yīng)用，如機(jī)器人學(xué)習(xí)，"林說，"機(jī)器人需要了解我們?nèi)粘Ｉ钪械淖匀粓鼍埃缓笤僮龀龊侠淼男袆优c人互動。"

常識測試

常識推理，或者利用世界基本知識進(jìn)行推論的能力比如狗不能互相扔飛盤數(shù)十年來一直抵制人工智能研究人員的努力。最先進(jìn)的深度學(xué)習(xí)模型現(xiàn)在可以達(dá)到 90% 左右的準(zhǔn)確率，因此 NLP 似乎已經(jīng)接近其目標(biāo)。

但任，自然語言處理專家和他的學(xué)生林，需要更令人信服的這個統(tǒng)計的準(zhǔn)確性。在11月16日發(fā)表在自然語言處理經(jīng)驗(yàn)方法（EMNLP）會議上的論文中，他們質(zhì)疑基準(zhǔn)的有效性，因此，該領(lǐng)域?qū)嶋H取得的進(jìn)展水平。

由最先進(jìn)的文本生成模型生成的句子示例。來源：來自論文： "共同基因：對生成常識推理的受限文本生成挑戰(zhàn)。

"人類通過學(xué)習(xí)理解和使用他們在周圍環(huán)境中識別的常見概念，獲得了撰寫句子的能力，"林說。

"獲得這種能力被認(rèn)為是人類發(fā)展的一個重要里程碑。但是，我們想測試機(jī)器是否真的能夠獲得這種生成常識推理能力。

為了評估不同的機(jī)器模型，該組合開發(fā)了一個名為 CommonGen 的受限文本生成任務(wù)，該任務(wù)可用作測試機(jī)器生成常識的基準(zhǔn)。研究人員提出了一個數(shù)據(jù)集，由35，141個概念與77，449個句子相關(guān)。他們發(fā)現(xiàn)，即使性能最好的模型，其準(zhǔn)確率也只有31.6%，而人類的準(zhǔn)確率為63.5%。

"我們驚訝地發(fā)現(xiàn)，這些模型無法回憶起簡單的常識性知識，即'人類扔飛盤'應(yīng)該比狗扔飛盤更合理，"林說，"我們發(fā)現(xiàn)，即使是最強(qiáng)的模型，稱為T5，經(jīng)過一個大型數(shù)據(jù)集的訓(xùn)練，仍然可以犯愚蠢的錯誤。"

研究人員說，以前的測試似乎對模型的常識能力沒有充分挑戰(zhàn)，而是模仿他們在訓(xùn)練階段所看到的。

"以前的研究主要側(cè)重于歧視性的常識，"任說。他們測試的機(jī)器有多種選擇問題，其中機(jī)器的搜索空間很小，通常為四到五個候選者。

例如，歧視常識測試的典型設(shè)置是多項(xiàng)選擇問題回答任務(wù)，例如："成年人在哪里使用膠棒？A：教室B：辦公室C：書桌抽屜。

當(dāng)然，這里的答案是"B：辦公室"。即使是電腦也不用太麻煩地找出來。相比之下，生成設(shè)置更開放，例如 CommonGen 任務(wù)，其中要求模型從給定的概念生成自然句子。

任先生解釋說："通過廣泛的模型培訓(xùn)，在這些任務(wù)上有良好的表現(xiàn)是很容易的。與那些具有歧視性的常識推理任務(wù)不同，我們提議的測試側(cè)重于機(jī)器常識的生成方面。

任和林希望該數(shù)據(jù)集將作為一個新的基準(zhǔn)，以利于未來關(guān)于將常識引入自然語言生成的研究。事實(shí)上，他們甚至有一個排行榜，描繪了各種流行模型獲得的分?jǐn)?shù)，以幫助其他研究人員確定他們在未來項(xiàng)目的可行性。

"機(jī)器人需要了解我們?nèi)粘Ｉ钪械淖匀粓鼍�，然后再采取合理的行動與人互動，"林說。

"通過向機(jī)器介紹常識和其他特定于領(lǐng)域的知識，我相信有一天，我們可以看到像薩曼莎這樣的人工智能代理在電影《她》中產(chǎn)生自然的反應(yīng)，并與我們的生活互動。

相關(guān)熱詞： 新的測試顯示仍然缺乏常識盡管自然語言處理得

新的測試顯示 AI 仍然缺乏常識
來源：互聯(lián)網(wǎng) 發(fā)布日期：2020-11-21 06:53:51 瀏覽：22271次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

新的測試顯示 AI 仍然缺乏常識 來源：互聯(lián)網(wǎng) 發(fā)布日期：2020-11-21 06:53:51 瀏覽：22271次