展會信息港展會大全

用LLaVA解讀數(shù)萬神經(jīng)元,大模型竟然自己打開了多模態(tài)智能黑盒
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-12-08 19:55:18   瀏覽:157次  

導(dǎo)讀:AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實(shí)驗室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文主要作者來自LMMs-Lab團(tuán)隊與新加坡南洋理工大學(xué),分別是張愷宸、沈逸飛、李博,指 ......

AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實(shí)驗室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文主要作者來自LMMs-Lab團(tuán)隊與新加坡南洋理工大學(xué),分別是張愷宸、沈逸飛、李博,指導(dǎo)老師為MMLab@NTU劉子緯教授。LMMs-Lab是一個由學(xué)生,研究人員和教師組成的團(tuán)隊,致力于多模態(tài)模型的研究,主要研究方向包括多模態(tài)模型的訓(xùn)練以及全面評估,此前的工作包括多模態(tài)測評框架 LMMs-Eval,以及多模態(tài)模型 LLaVA-OneVision,長視頻理解模型LongVA等。

用LLaVA解讀數(shù)萬神經(jīng)元,大模型竟然自己打開了多模態(tài)智能黑盒

多模態(tài)大模型(LMMs)給語言模型裝上了 “眼睛”,讓 AI 更接近通用智能。但它們的大腦里每個神經(jīng)元到底在干啥?南洋理工大學(xué) LMMs-Lab 團(tuán)隊用 “模型看模型” 的方法,成功解鎖了數(shù)十萬神經(jīng)元的秘密。

以 GPT4V 為代表的多模態(tài)大模型(LMMs)在大語言模型(LLMs)上增加如同視覺的多感官技能,以實(shí)現(xiàn)更強(qiáng)的通用智能。雖然 LMMs 讓人類更加接近創(chuàng)造智慧,但迄今為止,我們并不能理解自然與人工的多模態(tài)智能是如何產(chǎn)生的。

像 LLaVA 一樣的開源模型是理解多模態(tài)智能的一個契機(jī)。但這些模型(在未來)可能比人類更加聰明,如何去理解他們的智力呢?來自南洋理工大學(xué)的 LMMs-Lab 團(tuán)隊給出的解決方案是:問問 LLaVA 自己是怎么說的。

LMMs-Lab 團(tuán)隊使用 LLaVA-OV-72B 對 LLaVA-NeXT-8B 中的神經(jīng)元進(jìn)行了自動解讀,獲得了非常多有趣的結(jié)果。

傳統(tǒng)的可解釋性的研究是人工去檢查每個神經(jīng)元并且解讀他們的含義。這樣的操作很難拓展到多模態(tài)大模型上:其一,多模態(tài)大模型的神經(jīng)元數(shù)量是傳統(tǒng)模型的成百上千倍,人工檢查成本過于高昂;其二,根據(jù)神經(jīng)科學(xué)中的分布式表示原理,一個神經(jīng)元可能會有多個含義,一個語義可能分布在多個神經(jīng)元當(dāng)中。

在大語言模型中,OpenAI 和 Anthropic 提出了使用稀疏自編碼機(jī)來解離特征表示,或者用更大的語言模型來解讀小模型里面的神經(jīng)元。比如使用 GPT-4 解讀 GPT-2。但這些工作尚未被應(yīng)用到多模態(tài)模型當(dāng)中,圖像作為比語言更加自然的信號,解讀圖像與文字的交互能讓人們更加理解智能的產(chǎn)生。LMMs-Lab 基于這些工作對于 LLaVA-NeXT-8B 做出了初步的嘗試:使用稀疏自編碼機(jī)(SAEs)來把多語義神經(jīng)元解離為單語義神經(jīng)元,并且用 LLaVA-OV-72B 對單語義神經(jīng)元進(jìn)行自動解釋,解釋能夠接近人類水平。

用LLaVA解讀數(shù)萬神經(jīng)元,大模型竟然自己打開了多模態(tài)智能黑盒

論文地址:arxiv.org/abs/2411.14982

代碼:EvolvingLMMs-Lab/multimodal-sae: Auto Interpretation Pipeline and many other functionalities for Multimodal SAE Analysis.

5k 個神經(jīng)元解讀樣例:lmms-lab/llava-sae-explanations-5k·Datasets at Hugging Face

這個項目能夠讓自動挖掘多模態(tài)大模型中神經(jīng)元的語義信息,讓后續(xù)研究工作可以通過修改神經(jīng)元的激活來改變模型行為,包括減少幻覺和增加安全性。

用LLaVA解讀數(shù)萬神經(jīng)元,大模型竟然自己打開了多模態(tài)智能黑盒

(a) 把 SAE 放在 Llava 的某一層并且在 Llava-NEXT 所有數(shù)據(jù)上訓(xùn)練;(b) 找到一個神經(jīng)元的最大激活的圖片和區(qū)域,讓 Llava 找出公共點(diǎn);(c) 刺激神經(jīng)元可以改變模型行為

具體方法

使用 LMMs 解釋 LMMs 分為以下個步驟:

步驟一:用 SAEs 獲得單語義神經(jīng)元

SAE 是一個可以追溯到 1996 年的經(jīng)典解釋性的方法 [1] ,其本質(zhì)是對特征找到一組互相關(guān)性很小的基,把特征分解為這組基的一個稀疏表示。因為基的互相關(guān)性很小,所以這些基很可能是單語義的。這篇文章使用了 OpenAI 的兩層 SAE 實(shí)現(xiàn):

用LLaVA解讀數(shù)萬神經(jīng)元,大模型竟然自己打開了多模態(tài)智能黑盒

其中 z 是稀疏表示也是 SAEs 的神經(jīng)元,W_2 是一組基。

步驟二:使用 LLaVA 解釋單語義神經(jīng)元

對于上一步當(dāng)中 SAE 的每個神經(jīng)元 z,獲得訓(xùn)練集里面激活最大的 K 張圖片,以及激活最大的圖像區(qū)域,把這些圖像給 LLaVA-OV-72B 找出共同點(diǎn)。

模型對神經(jīng)元生成的解釋:炸薯條。

用LLaVA解讀數(shù)萬神經(jīng)元,大模型竟然自己打開了多模態(tài)智能黑盒

步驟三:刺激對應(yīng)的神經(jīng)元

把 SAE 神經(jīng)元的激活值調(diào)高,看看模型如何表現(xiàn)。

用LLaVA解讀數(shù)萬神經(jīng)元,大模型竟然自己打開了多模態(tài)智能黑盒

用LLaVA解讀數(shù)萬神經(jīng)元,大模型竟然自己打開了多模態(tài)智能黑盒

可以看到,無論是否包含圖像輸入或者是純文字輸入,LMM 與 LLM 的不同之處在于能夠理解視覺輸入,我們在稀疏編碼器的神經(jīng)元中也找到了許多與 LLM 不一樣的地方。在進(jìn)行神經(jīng)元探測時,我們發(fā)現(xiàn)不同于先前的 LLM 工作,往往激活最強(qiáng)烈的神經(jīng)元并不是與高層級概念直接相關(guān)的,而是許多低層級的感知神經(jīng)元。這體現(xiàn)了模型的思考步驟,先看懂物體是什么,再去思考更高層級的抽象概念,譬如情感等概念。

LMMs 獨(dú)特的神經(jīng)元

低層級感知神經(jīng)元:對線條形狀紋理激活的神經(jīng)元

用LLaVA解讀數(shù)萬神經(jīng)元,大模型竟然自己打開了多模態(tài)智能黑盒

物體神經(jīng)元

用LLaVA解讀數(shù)萬神經(jīng)元,大模型竟然自己打開了多模態(tài)智能黑盒

感情與共情神經(jīng)元

這種方法找到了很多情感神經(jīng)元,在刺激這些神經(jīng)元之前,模型是一個冰冷的 AI,刺激這些神經(jīng)元能夠引發(fā)模型的共情。

用LLaVA解讀數(shù)萬神經(jīng)元,大模型竟然自己打開了多模態(tài)智能黑盒

多模態(tài)一致性神經(jīng)元

對動作場景,以及對應(yīng)文字圖像都激活的神經(jīng)元。下圖描繪了對于吃和 hungry 文字都激活的神經(jīng)元,這樣的神經(jīng)元在人腦中也存在 [2] 。

用LLaVA解讀數(shù)萬神經(jīng)元,大模型竟然自己打開了多模態(tài)智能黑盒

定位模型錯誤原因

用LLaVA解讀數(shù)萬神經(jīng)元,大模型竟然自己打開了多模態(tài)智能黑盒

LMM 在實(shí)際應(yīng)用使往往會產(chǎn)生許多幻覺,上面便是 LLaVA-NeXT-8B 在實(shí)際場景下產(chǎn)生幻覺的一個例子,圖片中并未標(biāo)注玻利維亞但模型仍舊回答了 “Yes”。為了研究為何產(chǎn)生這一現(xiàn)象以及如何通過刺激神經(jīng)元的方式抑制這一現(xiàn)象,我們效仿了 [3,4] 的方法進(jìn)行探究。

用LLaVA解讀數(shù)萬神經(jīng)元,大模型竟然自己打開了多模態(tài)智能黑盒

通過探究發(fā)現(xiàn),造成模型輸出 Yes 的罪魁禍?zhǔn)撞⒉辉趫D像的理解能力上,模型能夠很好的找到需要關(guān)注的點(diǎn),并準(zhǔn)確的找到各個國家的名字。然而,在文字上面,我們發(fā)現(xiàn)模型過分的關(guān)注了 Bolivia 這一詞,導(dǎo)致了最后的輸出產(chǎn)生幻覺。通過這一探究,我們思考如何能夠抑制這一幻覺現(xiàn)象并展開了實(shí)驗。

用LLaVA解讀數(shù)萬神經(jīng)元,大模型竟然自己打開了多模態(tài)智能黑盒

用LLaVA解讀數(shù)萬神經(jīng)元,大模型竟然自己打開了多模態(tài)智能黑盒

我們展示了兩個例子用刺激神經(jīng)元的方式成功抑制了這一現(xiàn)象。我們嘗試激活 OCR 相關(guān)的神經(jīng)元,強(qiáng)行讓模型關(guān)注點(diǎn)集中在圖像上,而這成功使得模型 “回心轉(zhuǎn)意”,不再依賴文字的輸出。

可能的應(yīng)用以及局限性

因為這超出了文章的范圍,這篇文章只給出了一個應(yīng)用:找到引起幻覺的神經(jīng)元并糾正。在未來,這樣的方法可以找出模型有危害、不誠實(shí)行為的原因并加以修正,真正達(dá)到可控的 AGI。但到達(dá)這個目標(biāo)還有很多問題需要一一攻克:

1. 更高效的自動可解釋流程  由于稀疏編碼器中的神經(jīng)元數(shù)量眾多且需要緩存大量激活值,解釋所有神經(jīng)元在目前代價十分高昂。

2. 自動激活神經(jīng)元的流程  自動且高效地尋找并刺激神經(jīng)元從而達(dá)到控制模型輸出的目的

3. 更準(zhǔn)確的自動解釋流程  由于模型的局限性,許多神經(jīng)元的解釋往往存在錯誤,隨著多模態(tài)大模型的推理能力逐漸增強(qiáng),我們相信這一問題將會被慢慢攻克

參考文獻(xiàn)

[1] Bruno A Olshausen and David J Field. Emergence of simple-cell receptive field properties by learning a sparse code for natural images. Nature, 381 (6583):607609, 1996.

[2] R Quian Quiroga, Leila Reddy, Gabriel Kreiman, Christof Koch, and Itzhak Fried. Invariant visual representation by single neurons in the human brain. Nature, 435 (7045):11021107, 2005.

[3] Neel Nanda. Attribution patching: Activation patching at industrial scale. https://www.neelnanda.io/mechanistic-interpretability/attribution-patching,2023.Accessed: 2024-09-30.

[4] Adly Templeton, Tom Conerly, Jonathan Marcus, Jack Lindsey, Trenton Bricken, Brian Chen, Adam Pearce, Craig Citro, Emmanuel Ameisen, Andy Jones, Hoagy Cunningham, Nicholas L Turner, Callum McDougall, Monte MacDiarmid, C. Daniel Freeman, Theodore R. Sumers, Edward Rees, Joshua Batson, Adam Jermyn, Shan Carter, Chris Olah, and Tom Henighan. Scaling monosemanticity: Extracting interpretable features from claude 3 sonnet. Transformer Circuits Thread, 2024

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港