文/科技新聞 郝博陽
離WWDC還有兩個(gè)月,蘋果的“AI大計(jì)劃”也越來越清晰了。
4月9日,蘋果發(fā)布了一篇最新的論文,推出了一個(gè)叫Ferret UI的新模型。這一模型的技術(shù)本身并不復(fù)雜,但是它所指向的是一場(chǎng)真正的手機(jī)AI革命。
在AI異軍突起的2023年,很多人都在猜測(cè)生成式AI會(huì)對(duì)智能硬件市場(chǎng)帶來什么變局。甚至懷疑智能手機(jī)還能否適應(yīng)AI時(shí)代的新交互模式。
也由此應(yīng)運(yùn)而生了Rabitt R1, AI Pin等多種所謂AI native的硬件。他們通過更好地利用了AI的交互特性和Agent能力試圖挑戰(zhàn)智能手機(jī)的霸權(quán),用取消手機(jī)的方式去替代手機(jī)。
反觀智能手機(jī)一側(cè),卻只能以功能寥寥的端側(cè)模型,可有可無的應(yīng)用來做無力的反擊。其霸主蘋果甚至一度被認(rèn)為完全落后于AI時(shí)代。
但現(xiàn)在它回到了主場(chǎng),還準(zhǔn)備好了智能手機(jī)可能用來面對(duì)AI時(shí)代的答案:AI Native的手機(jī)系統(tǒng)。
蘋果發(fā)了篇新論文,漏出了它的整套計(jì)劃
這次蘋果新發(fā)布的Ferret UI是建立在蘋果在其Ferret多模態(tài)模型之上的。
相較于其他多模態(tài)模型,F(xiàn)erret在發(fā)布時(shí)展示出的主要長項(xiàng)是對(duì)于圖像具體區(qū)域和定位點(diǎn)的認(rèn)知遠(yuǎn)遠(yuǎn)強(qiáng)于其他多模態(tài)模型,包括GPT-4 ROI。
在這個(gè)模型里,蘋果提出了一個(gè)有著圖像編碼器、空間感知的視覺采樣器和語言模型(LLM)的新架構(gòu)。它有能力夠處理不同形狀之間的稀疏性差異,因此可以分辨出來自區(qū)域的形狀(比如點(diǎn)、線和邊框)。用戶可以基于畫面中具體的區(qū)域與大模型展開更深入的對(duì)話。
Ferret在十月剛剛發(fā)布時(shí),業(yè)界對(duì)其反響并不熱烈,一來因?yàn)樗膮^(qū)域識(shí)別長處并非當(dāng)時(shí)大模型領(lǐng)域所最關(guān)注的問題,二來它只有7B和13B兩個(gè)大小,相對(duì)于主流大模型太小了。10月中,硅谷的模型公司還在卷上下文,行內(nèi)只把它當(dāng)成蘋果在大模型上的一場(chǎng)試水。
但隨著Ferret UI的推出,F(xiàn)erret的定位和目標(biāo)就顯得清晰多了:它就是蘋果準(zhǔn)備在新IOS上裝載的模型,至少是其中一個(gè)主要模型。
Ferret UI所做的事情就是將Ferret模型本來就很強(qiáng)大的圖片區(qū)域識(shí)別能力應(yīng)用在手機(jī)UI之中,通過優(yōu)化,使它能夠更好的識(shí)別手機(jī)應(yīng)用的界面。并將自然語言翻譯為界面操作點(diǎn)。
簡單來講,就是當(dāng)你和AI去聊關(guān)于手機(jī)界面的情況時(shí),它能懂你在說什么,并找到具體的元素了。
在之前,多模態(tài)大模型(MLMM)去理解手機(jī)UI經(jīng)常會(huì)出現(xiàn)錯(cuò)誤。這主要是因?yàn)椋?/p>
UI界面通常具有更長的縱橫比 ,基于正常圖片(16:9 / 4:3)訓(xùn)練的大模型無法抓住其圖像全貌。
并且包含許多小的感興趣對(duì)象(如圖標(biāo)和文本),直接應(yīng)用現(xiàn)有模型可能會(huì)丟失理解UI界面所需的重要細(xì)節(jié)。
為解決UI不常見的問題,F(xiàn)erret UI以Ferret模型為基礎(chǔ),在其上集成了"any resolution"(anyres)技術(shù)來靈活適應(yīng)各種屏幕縱橫比。整個(gè)流程如下:
UI界面大,那就把它分割成幾個(gè)小的子圖像,以更好地捕捉UI界面的細(xì)節(jié)特征。
分割出來的所有子圖像都使用相同的圖像編碼器單獨(dú)編碼,以獲取最大的信息度。
最后,把這些子圖像的特征和全局圖像的特征都輸入到核心的大語言模型(LLM)中。
靠著這種“用放大鏡分別觀察”的模式,最終Ferret UI模型就能夠更好地捕捉UI界面的細(xì)節(jié)信息。
解決第二個(gè)問題更簡單,缺數(shù)據(jù)識(shí)別不了, 那就在訓(xùn)練階段狂喂相關(guān)數(shù)據(jù)。
Ferret UI收集了各種初級(jí)UI任務(wù)的訓(xùn)練數(shù)據(jù),如圖標(biāo)識(shí)別、查找文本、組件列表等。這些任務(wù)數(shù)據(jù)訓(xùn)練模型精確定位和理解UI組件。同時(shí)它還收集了與AI交互相關(guān)的高級(jí)任務(wù)數(shù)據(jù)集,包括詳細(xì)描述、感知/交互對(duì)話和功能推理,來增強(qiáng)模型和UI相關(guān)的推理能力。
經(jīng)過了這樣的UI強(qiáng)化訓(xùn)練,最終的結(jié)果就是,13B的Ferret UI在完成初級(jí)和高級(jí)的UI相關(guān)對(duì)話后的能力,iPhone環(huán)境下在初級(jí)UI任務(wù)中超越了GPT4-V,在包含高級(jí)任務(wù)的全任務(wù)平均得分非常相近。 雖然在安卓環(huán)境下Ferret UI表現(xiàn)略差,但是這對(duì)蘋果來說有什么關(guān)系呢?
經(jīng)過了Ferret UI的升級(jí),F(xiàn)erret模型可以完成簡單的定位類任務(wù)(Referring Tasks):識(shí)別UI的邊框,圖標(biāo)和其中的文字內(nèi)容。識(shí)別類任務(wù)(Grounding Tasks):給定一個(gè)UI相關(guān)的查詢,模型需要在界面上定位并標(biāo)注出相關(guān)的元素。
(簡單UI任務(wù)一覽)
同時(shí)它也可以完成更復(fù)雜的詳細(xì)描述UI構(gòu)成的任務(wù);根據(jù)UI與用戶進(jìn)行感知對(duì)話、交互對(duì)話,可以告訴用戶相應(yīng)位置具體的UI內(nèi)容是什么,如何去和該UI進(jìn)行交互的任務(wù);以及根據(jù)UI元素推斷這個(gè)軟件功能的功能推理任務(wù)。
這就意味著Ferret UI已經(jīng)建立起了對(duì)于手機(jī)應(yīng)用的功能,操作的相對(duì)完整的理解。而且是GPT4級(jí)別的理解。
如果僅僅停留在理解這個(gè)層面上,F(xiàn)erret UI的應(yīng)用其實(shí)是有限的。比如視障用戶可以用語言交互來了解UI的位置,或者整合到蘋果自身的圖形識(shí)別系統(tǒng)中增強(qiáng)識(shí)別能力。
但這種理解如果結(jié)合上Agent的功能,讓Ferret UI模型可以去基于用戶的自然語言交互操作手機(jī),那一個(gè)AI Native的手機(jī)系統(tǒng)雛形就誕生了。
AI Native 的手機(jī),而不是AI 手機(jī)
在過去的一年里,如何將AI大模型應(yīng)用到手機(jī)里已經(jīng)成了不論是芯片廠商,還是手機(jī)制造商最重要的議題。端側(cè)大模型,AI手機(jī)的概念層出不窮。然而時(shí)至今日,芯片廠商和手機(jī)廠商們展示的AI大模型能力都還僅僅停留在手機(jī)系統(tǒng)之外。
一種方式就是硬塞一個(gè)大模型進(jìn)去,通過云端或本地算力驅(qū)動(dòng)。其體驗(yàn)和Kimi助手,GPT app沒有什么本質(zhì)區(qū)別,最多就是可以讀取手機(jī)上的相應(yīng)數(shù)據(jù),應(yīng)用相對(duì)方便一點(diǎn)。
另一種方式就是將AI能力賦能在其預(yù)裝應(yīng)用之中,轉(zhuǎn)變成如魔法修圖,短信回復(fù)自動(dòng)生成這種完全無需大模型就能在一定程度上實(shí)現(xiàn)的功能。
這樣的應(yīng)用方式讓AI手機(jī)這個(gè)概念顯得不倫不類,更像是裝了AI大模型應(yīng)用的手機(jī)。
而真正能夠應(yīng)對(duì)來勢(shì)洶洶的AI新硬件的,至少應(yīng)該是一個(gè)適應(yīng)AI新交互的完全的手機(jī)系統(tǒng)。
現(xiàn)在Ferret UI的出現(xiàn),使得這件事成為了可能。
一個(gè)14B以下的,可以直接在手機(jī)本地運(yùn)行的大模型,可以讓你用自然語言控制UI,進(jìn)行相關(guān)操作。如果這項(xiàng)功能整合在Siri上,那Siri就可以成為一切App的新入口,只要一句話你就可以控制手機(jī)的一切功能,以及所有App的相關(guān)功能。這其實(shí)和Rabitt R1所設(shè)想的一樣。
而且這一次,你并不用犧牲屏幕本身了。在體驗(yàn)Humane 的AI Pin和其他AI智能設(shè)備時(shí),雖然它們確實(shí)可以通過自然語言完成幾乎所有的交互,但他們沒有屏幕。沒有屏幕這對(duì)于生活在視頻時(shí)代的人類來講幾乎是無法忍耐的。另外,缺乏聲音之外的交互方式也使得它們?cè)谀銓?duì)面有人的時(shí)候根本不好意思用。
但如果手機(jī)能做到這種交互,而且還有屏幕的話。我們?yōu)槭裁催會(huì)需要一個(gè)新的所謂AI智能設(shè)備去完成這一切呢?
因此,兜兜轉(zhuǎn)轉(zhuǎn)了一年,蘋果應(yīng)該是找到了AI 手機(jī)的真意。如果情況順利,也許我們?cè)趦蓚(gè)月后的WWDC上就能看到原生AI的蘋果手機(jī)系統(tǒng)了。而且很有可能是第一款Native AI 手機(jī)系統(tǒng)。
Google和蘋果,一場(chǎng)新競(jìng)爭正式開賽
之所以說可能,是因?yàn)樘O果在系統(tǒng)上的老對(duì)頭谷歌,其實(shí)也做了一樣的路線判斷。
在半個(gè)月前的3月19日,谷歌發(fā)表了一個(gè)新模型ScreenAI,它和Ferret UI一樣,都是直指 UI 理解的多模態(tài)模型。它的架構(gòu)相對(duì)簡單,基于Pali,包含兩個(gè)組成部分,一個(gè)視覺變換器 (ViT),用來理解UI視覺;一個(gè)T5圖文編碼器,用于對(duì)應(yīng)用戶提問的文字和圖像信息。
為解決UI問題,基本上谷歌的操作和蘋果沒什么差別,它把UI界面分割成5*7的小塊去識(shí)別細(xì)節(jié),并利用UI相關(guān)的訓(xùn)練集加強(qiáng)模型對(duì)UI元素的認(rèn)知。
雖然沒有像蘋果一樣和GPT4進(jìn)行比較,但它也和自家的Gemini Ultra在UI任務(wù)上進(jìn)行了比對(duì),也是相差無多。值得注意的是ScreenAI比蘋果的Ferret更小,僅有不到5B。谷歌還嘗試著用ScreenAI串聯(lián) Palm2完成高級(jí)UI任務(wù),能力足以超過Gemini Ultra。
所以,2024年春天,智能手機(jī)OS屆的兩大霸主,在AI手機(jī)這件事上殊途同歸。強(qiáng)于AI的谷歌和強(qiáng)于系統(tǒng)的蘋果走到了同樣的起跑線上。
現(xiàn)在的問題,只剩誰跑得快了。
谷歌 I / O大會(huì)在5月14日,蘋果的WWDC在6月。爭分奪秒的戰(zhàn)爭已經(jīng)開始了。