在人工智能領(lǐng)域,靜態(tài)圖像識(shí)別技術(shù)已經(jīng)取得了長(zhǎng)足進(jìn)展,但對(duì)于動(dòng)態(tài)視頻場(chǎng)景的理解和處理仍然存在較大不足。
此前,我們介紹過(guò),在李飛飛團(tuán)隊(duì)的視頻理解基準(zhǔn) HourVideo 中,即便是目前最先進(jìn)的多模態(tài)模型,其測(cè)試正確率也只是比隨機(jī)猜測(cè)(20%)略好一點(diǎn)。
現(xiàn)有的 AI 模型難以像人腦那樣實(shí)時(shí)解讀和理解連續(xù)變化的視覺(jué)信息,這主要是因?yàn)樗鼈內(nèi)狈?duì)時(shí)序信息的有效處理能力。
因此,如果想要讓 AI 真正地與人類的生活環(huán)境和復(fù)雜情景相適應(yīng),我們或許需要對(duì)這一缺陷做出針對(duì)性的改進(jìn)。
近日,美國(guó) Scripps 研究所的科學(xué)家團(tuán)隊(duì),從大腦神經(jīng)元處理視覺(jué)信息的機(jī)制中得到啟發(fā),開(kāi)發(fā)出一種名為 MovieNet 的 AI 模型,在視頻理解任務(wù)上取得突破。
相關(guān)研究以《識(shí)別電影編碼神經(jīng)元實(shí)現(xiàn)電影識(shí)別 AI》(Identification of movie encoding neurons enables movie recognition AI)為題發(fā)表在 PNAS(《美國(guó)國(guó)家科學(xué)院院刊》)上 [1]。
圖丨相關(guān)論文(來(lái)源:PNAS)
眾所周知,人工智能的進(jìn)步深受神經(jīng)科學(xué)的啟發(fā)。例如,經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)(CNN)借鑒了視覺(jué)皮層的層級(jí)處理結(jié)構(gòu),而強(qiáng)化學(xué)習(xí)算法則模仿了神經(jīng)回路中獎(jiǎng)勵(lì)機(jī)制的工作原理。
而 MovieNet 的核心創(chuàng)新同樣在于其受啟發(fā)于的大腦視覺(jué)處理機(jī)制。研究團(tuán)隊(duì)以非洲爪蟾為模型,重點(diǎn)研究了其頂蓋(optic tectum)神經(jīng)元的感受野(receptive field, RF)。
通過(guò)稀疏噪聲刺激和逆相關(guān)分析,他們記錄了神經(jīng)元對(duì) 200 至 600 毫秒電影序列的響應(yīng),發(fā)現(xiàn)這些神經(jīng)元能夠以一種獨(dú)特的方式編碼時(shí)間序列圖像。
圖丨視頂蓋細(xì)胞視覺(jué)響應(yīng)特性隨時(shí)間而變化(來(lái)源:PNAS)
研究顯示,視覺(jué)神經(jīng)元的響應(yīng)具有高度選擇性。當(dāng)電影序列按照特定的“最佳順序”呈現(xiàn)時(shí),神經(jīng)元的反應(yīng)最為強(qiáng)烈;而當(dāng)序列被逆轉(zhuǎn)或隨機(jī)化時(shí),反應(yīng)顯著減弱。
這種選擇性不僅體現(xiàn)在單個(gè)神經(jīng)元的反應(yīng)中,還通過(guò)神經(jīng)回路中的抑制機(jī)制進(jìn)一步強(qiáng)化。
通過(guò)使用 GABA 受體拮抗劑(如哌可毒素),研究團(tuán)隊(duì)發(fā)現(xiàn),去除抑制作用后,神經(jīng)元對(duì)逆序刺激的反應(yīng)顯著增強(qiáng),而對(duì)最佳順序的反應(yīng)保持不變。
這表明,抑制機(jī)制是實(shí)現(xiàn)電影序列選擇性的重要因素,它通過(guò)抑制無(wú)關(guān)信息的傳播,使得神經(jīng)網(wǎng)絡(luò)能夠聚焦于關(guān)鍵的序列信息。
此外,研究還揭示了神經(jīng)元在編碼動(dòng)態(tài)場(chǎng)景時(shí)的時(shí)序塑性。當(dāng)環(huán)境中視覺(jué)刺激的時(shí)序特性發(fā)生變化時(shí),神經(jīng)元的 ON-OFF 響應(yīng)規(guī)律能夠通過(guò)訓(xùn)練進(jìn)行調(diào)整,從而適應(yīng)新的環(huán)境需求。
這種動(dòng)態(tài)調(diào)整能力不僅是自然視覺(jué)系統(tǒng)的核心特性,也為 AI 的設(shè)計(jì)提供了重要啟發(fā)。
在上述研究的啟發(fā)下,研究團(tuán)隊(duì)模仿神經(jīng)元時(shí)空編碼規(guī)律開(kāi)發(fā)了 MovieNet 模型。其核心在于其電影編碼器的設(shè)計(jì),這些編碼器基于頂蓋神經(jīng)元的感受野規(guī)則,將電影場(chǎng)景壓縮為高維特征矩陣。
圖丨電影識(shí)別 AI 使用時(shí)空 RF 的神經(jīng)元規(guī)則作為電影編碼器(來(lái)源:PNAS)
具體而言,每個(gè)編碼器模擬了神經(jīng)元的 ON-OFF 響應(yīng)規(guī)律,能夠捕捉電影中亮度的變化以及終止信號(hào)。這種設(shè)計(jì)不僅減少了數(shù)據(jù)的復(fù)雜性,還顯著優(yōu)化了計(jì)算效率。
為了進(jìn)一步提升識(shí)別能力,研究團(tuán)隊(duì)引入了多重編碼器(multiplexed encoders)的概念。他們將多個(gè)具有不同感受野特性的編碼器組合在一起,以捕捉更廣泛的視覺(jué)信息。
這些編碼器的輸出被輸入到一個(gè)僅包含單層卷積神經(jīng)網(wǎng)絡(luò)(CNN)的模型中,從而顯著簡(jiǎn)化了傳統(tǒng) AI 模型的復(fù)雜性。
在測(cè)試中,MovieNet 對(duì)動(dòng)態(tài)場(chǎng)景的分類表現(xiàn)優(yōu)異,尤其是在分類蝌蚪游泳行為的實(shí)驗(yàn)中,其準(zhǔn)確率達(dá)到了 82.3%,顯著超越傳統(tǒng)深度學(xué)習(xí)模型(如 AlexNet 和 GoogLeNet)的 40%-72%,也超過(guò)了訓(xùn)練有素的人類觀察者 (64.5%)。
圖丨基于大腦的 AI 網(wǎng)絡(luò)可準(zhǔn)確分類電影數(shù)據(jù)及其測(cè)試結(jié)果(來(lái)源:PNAS)
更重要的是,MovieNet 在計(jì)算效率方面也具有優(yōu)勢(shì)。AlexNet 和 GoogLeNet 等傳統(tǒng)深度學(xué)習(xí)模型的網(wǎng)絡(luò)架構(gòu)保護(hù)多層處理層和 CNN 結(jié)構(gòu),需要耗費(fèi)巨大的計(jì)算資源。
即便在無(wú)限計(jì)算資源和時(shí)間的假設(shè)下,這些模型可能達(dá)到更高的準(zhǔn)確率,但這一需求本身可能限制其在實(shí)際場(chǎng)景中的應(yīng)用。
相比之下,MovieNet 通過(guò)模仿自然神經(jīng)元的編碼策略,以更高效的方式解決了電影識(shí)別問(wèn)題,體現(xiàn)了基于大腦算法的獨(dú)特優(yōu)勢(shì)。
這種出色的識(shí)別能力,使其在醫(yī)療領(lǐng)域展現(xiàn)出巨大的應(yīng)用潛力。例如,MovieNet 能夠捕捉蝌蚪在接觸不同化學(xué)物質(zhì)時(shí)游泳模式的細(xì)微變化,這有望對(duì)藥物篩選技術(shù)進(jìn)行改進(jìn)。
傳統(tǒng)方法往往依賴靜態(tài)圖像的間隔捕獲,容易遺漏動(dòng)態(tài)變化中的關(guān)鍵信息。而 MovieNet 能夠持續(xù)觀察和記錄動(dòng)態(tài)細(xì)胞反應(yīng),從而追蹤藥物測(cè)試過(guò)程中最微小的變化。
此外,MovieNet 也有望成為一種診斷早期疾病的工具。例如,與帕金森癥相關(guān)的微小運(yùn)動(dòng)變化往往難以被人眼捕捉,而 MovieNet 的高靈敏度算法可以提前標(biāo)記這些變化,為臨床醫(yī)生提供寶貴的干預(yù)時(shí)間。
同樣地,該技術(shù)還可能用于心律不齊等疾病的早期檢測(cè),為患者爭(zhēng)取更多治療窗口。這種實(shí)時(shí)捕捉和分類復(fù)雜動(dòng)態(tài)模式的能力,展現(xiàn)了 MovieNet 在醫(yī)療診斷中的巨大潛力。
研究團(tuán)隊(duì)的首席科學(xué)家 Hollis Cline 表示:“MovieNet 的成功不僅證明了生物啟發(fā)式 AI 的可行性,更重要的是開(kāi)創(chuàng)了一個(gè)新的研究方向。
通過(guò)深入理解生物神經(jīng)系統(tǒng)的工作原理,我們可以開(kāi)發(fā)出更智能、更高效的 AI 系統(tǒng)。這種方法不僅能夠提高 AI 的性能, 還能大幅降低能源消耗和計(jì)算資源需求。”
展望未來(lái),研究團(tuán)隊(duì)計(jì)劃進(jìn)一步優(yōu)化模型架構(gòu),提高處理效率,并探索更多應(yīng)用場(chǎng)景。
他們特別關(guān)注醫(yī)療診斷領(lǐng)域的應(yīng)用拓展,以及與其他 AI 技術(shù)的融合可能性。同時(shí),團(tuán)隊(duì)也將致力于研究更復(fù)雜的視覺(jué)認(rèn)知任務(wù),推動(dòng) AI 技術(shù)在視頻理解領(lǐng)域的持續(xù)進(jìn)步。
“從生物學(xué)中汲取靈感將繼續(xù)成為推動(dòng)人工智能發(fā)展的沃土,”Cline 說(shuō)!巴ㄟ^(guò)設(shè)計(jì)像生物體一樣思考的模型,我們可以達(dá)到傳統(tǒng)方法無(wú)法實(shí)現(xiàn)的效率水平。”
參考資料:
1.https://www.pnas.org/doi/10.1073/pnas.2412260121#data-availability
2.https://neurosciencenews.com/brain-ai-video-watching-28218/
運(yùn)營(yíng)/排版:何晨龍