展會信息港展會大全

吾與AI孰智慧?PNAS刊文提出AI回答智商測試的五種策略
來源:互聯(lián)網(wǎng)   發(fā)布日期:2020-11-30 10:05:36   瀏覽:13300次  

導(dǎo)讀:導(dǎo)語 在智力測試中,與視覺相關(guān)的題目很常見。然而通過訓(xùn)練一個智能agent來解答這類問題,依然困難重。一篇發(fā)表于《美國國家科學(xué)院院刊》(PNAS)的最新論文,在統(tǒng)一的框架下,對如何使用AI解決視覺類謎題給出了五條策略,并討論了人工智能與認(rèn)知科學(xué)的相互...

導(dǎo)語

在智力測試中,與視覺相關(guān)的題目很常見。然而通過訓(xùn)練一個智能agent來解答這類問題,依然困難重。一篇發(fā)表于《美國國家科學(xué)院院刊》(PNAS)的最新論文,在統(tǒng)一的框架下,對如何使用AI解決視覺類謎題給出了五條策略,并討論了人工智能與認(rèn)知科學(xué)的相互啟發(fā)。

1. 智力測驗必考的圖形推理問題

看圖找不同,看圖找相似,看圖找規(guī)律補全……這類問題被稱為圖形推理問題。因為圖形推理問題需要測試者從情境中提取并理解信息,所以它既是一種人類智力測驗的問題,也是小學(xué)考試題的?。

圖1:經(jīng)典的圖形推理測試Raven

如圖所示的問題叫做 Raven 測試,是很經(jīng)典的一種智力測驗題目。甚至不用任何文字說明,就大概就能猜出來接下來要干什么根據(jù)已知圖片找尋規(guī)律,進(jìn)而從多個選項中,挑出空缺的圖片。

即使是對第一次接觸這類題目的人而言,這類測試也很簡單。

這是因為人類能夠?qū)σ曈X符號進(jìn)行抽象,并將提取的特征儲存在工作記憶中。然而這樣的問題,對已有的智能體(agent)來說,由于其目前仍依賴于模式識別進(jìn)行推理,進(jìn)而無法在第一次接觸這類題目時就給出解答。

2. 為什么需要AI嘗試解決 Raven 測試?

對 Raven 等圖形推理問題的研究早已有之,但往往依賴于設(shè)計良好的程序和背景知識。

最早期的工作,用邏輯式編程語言(如 Lisp),將該圖像推理問題經(jīng)由手工編寫的程序,轉(zhuǎn)換成命題表示(如屬性值對列表),然后再解決對應(yīng)的邏輯問題。該過程用不到機器學(xué)習(xí)。其中的代表是上世紀(jì)60年代的 ANALOGY。跟人相比差距較大,人類在不經(jīng)受任何事先訓(xùn)練的前提下,就可以輕松回答 Raven 問題。

第二代針對 Raven 測試問題的程序,仍然是基于知識的,包括旋轉(zhuǎn)、圖像合成、視覺相似性等。程序可以直接訪問和操縱題干圖像,甚至在推理過程中經(jīng)常產(chǎn)生新的圖像。

而第三代解決 Raven 測試問題的程序,則是通過對大量實例問題的輸入輸出對進(jìn)行訓(xùn)練,以學(xué)到視覺空間域知識的綜合表示與問題作為解決策略。

類似 Raven 這樣的難題之所以重要,是因為其作為智力測試,考察了人類認(rèn)知中最基礎(chǔ)的能力從復(fù)雜情境中提取和理解信息。

目前 Raven 測試的難度范圍跨越很大,針對孩子或成人的都有。如果智能體能夠在這類問題解決上取得突破,那么其方法就有可能應(yīng)用到更廣泛的問題解答中。

3. 怎樣用智能主體解決圖形推理問題?

一個框架與五種策略

研究者在論文中給出了一個通用框架,從輸入問題到形成解決方案。

圖2:解決視覺謎題的智能體所需的算法框架

在該算法框架中,首先是定義問題,即將問題中的視覺元素抹去。其次通過問題模板,將原始問題變?yōu)檫壿媶栴}。這一步類似于將國際象棋的棋盤圖像,變轉(zhuǎn)化成抽象的棋局形勢。而圖中的領(lǐng)域知識,則是基于諸如對稱性、順序幾何圖案、行和列等,為解決給定類型問題所需的知識或概念。而在備選答案中進(jìn)行選擇的模塊,則是根據(jù)多種指標(biāo),從多個可能的答案中挑出最優(yōu)的那一個。

在上述框架中,最重要的是位于中間的部分,即根據(jù)領(lǐng)域知識和抽象后的問題,找出解決策略的步驟。這也是接下來的五種策略所要討論的。

圖3:解決 Raven 問題的五種策略

策略一,構(gòu)建搜索(圖3-A)。利用圖中完全已知的第一行中的元素,尋找能夠解釋圖中規(guī)律的轉(zhuǎn)變方式。之后再尋找所有的回答中,哪一個適用于這樣的規(guī)律,由此解決問題。

策略二,反應(yīng)排除(圖3-B)。和第一種策略類似,先是根據(jù)第一行的元素尋找規(guī)律,之后逐個將可能的回答帶入,尋找規(guī)律,通過判定第一行和第二行的規(guī)律是否相似,排除錯誤答案,得出正確回答。構(gòu)建搜索與反應(yīng)排除這兩種解法,都是基于局部特征與分析的進(jìn)行的。

圖5:全局搜索策略示意,通過編碼器生成Raven測試的答案

策略三:全局搜索(圖3-C)。如果將視覺謎題當(dāng)成一塊缺失的圖片,利用對抗神經(jīng)網(wǎng)絡(luò),使用不完全的圖片訓(xùn)練編碼器對圖像進(jìn)行壓縮,之后再通過解碼器解壓圖像。據(jù)此可以從不完全的圖像中,彌補缺失的部分。最后對比所有選項中,哪一個圖像最類似解碼器的生成圖像來導(dǎo)出答案。

策略四:格式塔排除(圖3-D);谝讯x的格式塔評估矩陣(如圖像之間是否具有恒常性、組織性、對稱性與連貫性),將每一種可能的解一一帶入,根據(jù)哪一種解的得分最高,確定哪種解正確。

第五種策略,則是將一個 Raven 問題轉(zhuǎn)換為多個,之后逐個解決。其次再將每個問題子問題的解拼裝起來,求得原始 Raven 問題的答案。

以上的五種策略,可以看成智能體學(xué)習(xí)到如何將視覺元素在空間內(nèi)形成規(guī)律這個問題上的領(lǐng)域知識(domain knowledge)。前兩種是學(xué)習(xí)如何在每個元素間進(jìn)行轉(zhuǎn)換,其后兩種是如何學(xué)到全局的格式塔規(guī)則。

圖6:格式塔規(guī)則示例

格式塔規(guī)則指的是示例左邊的圓形和長方形都是不完全的,但人類能夠很自然地認(rèn)出這是圓形或長方形,如圖6所示。而圖右側(cè)的鑰匙圖像,即便因覆蓋而實際上分為兩節(jié),但人類仍會認(rèn)為圖像是兩個完整的鑰匙。

至于第五種解決問題的策略,則是問題拆分后多種問題的組合,屬于多主體建模。在該文作者提出的框架中,還包括抽象問題定義,以及從多種解法中選擇最合適的模塊。這些都是利用復(fù)雜系統(tǒng)的視角,來解決AI領(lǐng)域的問題。

4. 認(rèn)知科學(xué)與AI智力檢測

該文論述了為何 Raven 問題對人工智能的發(fā)展很重要,提出了一個解決該類問題對的框架,同時對如何解決這樣的問題,以及這類問題可以以何種方式依賴于從數(shù)據(jù)領(lǐng)域知識與問題定義來自動解決,而不必人工編寫解答程序等方面提出了暢想。

認(rèn)知科學(xué)關(guān)心當(dāng)人看到圖像時,頭腦中會進(jìn)行哪些計算。目前的AI研究無法直接回答,因此作者把這一問題轉(zhuǎn)化為如果智能主體,能夠基于視覺圖像進(jìn)行知識表示和推理操作,那么有哪些潛在的問題解決方式?這是對“何為智能”的追問。

針對人類兒童的研究表明,兒童通過兩類策略來學(xué)習(xí)解決范圍不斷擴大的問題:第一類是“策略發(fā)現(xiàn)” ,即針對特定問題或任務(wù)發(fā)現(xiàn)新策略;第二類是“策略概括” ,即針對其他問題或任務(wù)調(diào)整已知的策略。而本文提出 AI 解決 Raven 問題的若干種策略,也可以概括為上述的人類學(xué)習(xí)策略的組合。

人工智能的發(fā)展,需要對何為智能這一問題有更深刻的認(rèn)識,并且與認(rèn)知科學(xué)結(jié)合。

作者:郭瑞東

審校:趙雨亭、劉培源

編輯:鄧一雪

復(fù)雜科學(xué)最新論文


贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機會 | 展會港