機(jī)器之心報(bào)道
編輯:張倩、Panda
三人是緊密的合作伙伴。
最近,OpenAI 又迎來了新的人事變動(dòng),但這次不是某個(gè)技術(shù)大牛離職,而是從谷歌挖來了一些新鮮血液。
這些「新人」來自谷歌 DeepMind 的蘇黎世辦事處,包括資深研究科學(xué)家 Xiaohua Zhai(翟曉華)、研究科學(xué)家 Lucas Beyer 和 Alexander Kolesnikov。在谷歌 DeepMind 工作期間,三人就是密切的合作伙伴,共同參與了 ViT 等重要研究。之后,他們將一起建立 OpenAI 蘇黎世辦事處。
OpenAI 高管在周二的一份內(nèi)部備忘錄中告訴員工,三人入職后將從事多模態(tài) AI 研究。
在 DeepMind 工作期間,Beyer 似乎一直在密切關(guān)注 OpenAI 發(fā)布的研究成果以及該公司卷入的公共爭(zhēng)議,他經(jīng)常在 X 上向自己的 7 萬多名粉絲發(fā)布相關(guān)信息。去年,當(dāng)首席執(zhí)行官 Sam Altman 被 OpenAI 董事會(huì)短暫解雇時(shí),Beyer 發(fā)帖稱,他目前讀到的關(guān)于解雇的「最合理」解釋是,Altman 同時(shí)參與了太多其他初創(chuàng)公司的工作。
在競(jìng)相開發(fā)最先進(jìn)的人工智能模型的同時(shí),OpenAI 及其競(jìng)爭(zhēng)對(duì)手也在激烈競(jìng)爭(zhēng),從世界各地招聘有限的頂尖研究人員,通常為他們提供接近七位數(shù)或更高的年薪。對(duì)于最搶手的人才來說,在不同公司之間跳槽并不罕見。
例如,Tim Brooks 曾是 OpenAI 的 Sora 負(fù)責(zé)人,最近他離職前往 DeepMind 工作。不過,高調(diào)挖角的熱潮遠(yuǎn)不止 DeepMind 和 OpenAI。今年 3 月,微軟從 Inflection AI 公司挖走了其人工智能負(fù)責(zé)人 Mustafa Suleyman 以及該公司的大部分員工。而谷歌斥資 27 億美元將 Character.AI 創(chuàng)始人 Noam Shazeer 拉回麾下。
在過去幾個(gè)月里,OpenAI 的一些關(guān)鍵人物相繼離職,有的加入了 DeepMind 和 Anthropic 等直接競(jìng)爭(zhēng)對(duì)手,有的創(chuàng)辦了自己的企業(yè)。OpenAI 聯(lián)合創(chuàng)始人、前首席科學(xué)家 Ilya Sutskever 離職后,創(chuàng)辦了一家專注于人工智能安全和生存風(fēng)險(xiǎn)的初創(chuàng)公司 Safe Superintelligence。OpenAI 前首席技術(shù)官 Mira Murati 于 9 月份宣布離職,據(jù)說她正在為一家新的人工智能企業(yè)籌集資金。
今年 10 月,OpenAI 表示正在努力向全球擴(kuò)張。除了新的蘇黎世辦事處,該公司還計(jì)劃在紐約市、西雅圖、布魯塞爾、巴黎和新加坡開設(shè)新的分支機(jī)構(gòu)。除舊金山總部外,該公司已在倫敦、東京和其他城市設(shè)立了分支機(jī)構(gòu)。
LinkedIn 上的資料顯示,Zhai、Beyer 和 Kolesnikov 都住在蘇黎世,蘇黎世已成為歐洲一個(gè)相對(duì)突出的科技中心。蘇黎世是 ETH (蘇黎世聯(lián)邦理工學(xué)院)的所在地,ETH 是一所公立研究型大學(xué),擁有全球知名的計(jì)算機(jī)科學(xué)系。據(jù)《金融時(shí)報(bào)》今年早些時(shí)候報(bào)道,蘋果公司還從谷歌挖走了一些人工智能專家,在「蘇黎世的一個(gè)秘密歐洲實(shí)驗(yàn)室」工作。
也有人猜測(cè),OpenAI 之所以在蘇黎世設(shè)立辦事處,是因?yàn)槿齻(gè)人都不愿意搬家。
緊密合作的三位科學(xué)家
從已發(fā)表的研究看,這三位研究者經(jīng)常從事同一個(gè)項(xiàng)目的研究,并且他們也做出了一些非常重要的研究成果,其中一些被 AI 頂會(huì)作為 Spotlight 和 Oral 論文接收。
Xiaohua Zhai(翟曉華)
個(gè)人主頁:https://sites.google.com/view/xzhai
Google DeepMind(蘇黎世)的資深研究科學(xué)家和管理者。他領(lǐng)導(dǎo)著蘇黎世的一個(gè)多模態(tài)研究團(tuán)隊(duì),其研究重心是多模態(tài)數(shù)據(jù)、開放權(quán)重模型和包容性。
根據(jù)其領(lǐng)英簡(jiǎn)歷,他于 2014 年在北京大學(xué)取得了計(jì)算機(jī)科學(xué)博士學(xué)位。之后曾在谷歌從事了三年軟件工程師的工作。2017 年 12 月,他加入 DeepMind 擔(dān)任研究科學(xué)家,并一直在此工作了 7 年。
目前,翟曉華在 Google Scholar 上的被引量已經(jīng)達(dá)到了 6 萬多,其中大部分被引量來自他們?nèi)斯餐瑓⑴c的 ViT 論文《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》。
Lucas Beyer
Lucas Beyer 是 DeepMind 研究科學(xué)家。
個(gè)人博客:https://lucasb.eyer.be/
他在 2018 年于德國亞琛工業(yè)大學(xué)完成了自己的高等學(xué)業(yè),期間曾在谷歌以實(shí)習(xí)生身份從事過研究工作,也在 Kindred.ai 擔(dān)任過 AI 工程師,在德國亞琛工業(yè)大學(xué)擔(dān)任過研究助理。
畢業(yè)后,他正式加入谷歌,先后在谷歌大腦與 DeepMind 從事研究工作。
他在博客中寫到:「我是一名自學(xué)成才的黑客和科學(xué)家,致力于創(chuàng)造非凡事物。目前在瑞士蘇黎世生活、工作、戀愛和玩耍。」
Alexander Kolesnikov
Alexander Kolesnikov 已經(jīng)更新了自己的領(lǐng)英頁面,他曾經(jīng)也是 DeepMind 的研究科學(xué)家。
個(gè)人主頁:https://kolesnikov.ch
他于 2012 年碩士畢業(yè)于莫斯科國立大學(xué),之后在奧地利科學(xué)技術(shù)研究所取得了機(jī)器學(xué)習(xí)與計(jì)算機(jī)視覺博士學(xué)位。類似地,2018 年博士畢業(yè)后,他也先后在谷歌大腦和 DeepMind 從事研究工作。
出色的研究成果
很顯然,這三位研究者是一個(gè)非常緊密的研究團(tuán)隊(duì),也因此,他們的很多研究成果都是三人共同智慧的結(jié)晶(當(dāng)然還有其他合作者),我們下面將其放在一起介紹。
首先必須提到的就是這篇論文:
論文標(biāo)題:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
論文地址:https://arxiv.org/pdf/2010.11929
項(xiàng)目地址:https://github.com/google-research/vision_transformer
這篇就是大名鼎鼎的 Vision Transformer(ViT)論文,其中提出可以使用 Transformer 來大規(guī)模地生成圖像,機(jī)器之心也曾做過報(bào)道,參閱《NLP/CV 模型跨界進(jìn)行到底,視覺 Transformer 要趕超 CNN?》。目前,這篇論文的引用量已經(jīng)接近 5 萬,這三位研究者均是共同技術(shù)一作。
此后,他們還研究了 ViT 的 Scaling Law。
論文標(biāo)題:Scaling Vision Transformers
論文地址:https://arxiv.org/pdf/2106.04560
通過擴(kuò)大和縮小 ViT 模型和數(shù)據(jù)的規(guī)模,他們研究了錯(cuò)誤率、數(shù)據(jù)和計(jì)算之間的關(guān)系。在此過程中,他們還對(duì) ViT 的架構(gòu)和訓(xùn)練進(jìn)行了改進(jìn),減少了內(nèi)存消耗并提高了生成模型的準(zhǔn)確性。
另外,他們也為 ViT 開發(fā)了一些改進(jìn)版本,對(duì)其性能或效率等不同方面進(jìn)行了優(yōu)化,比如能適應(yīng)不同圖塊大小的 FlexiViT,參閱論文《FlexiViT: One Model for All Patch Sizes》。
他們也探索了另一些架構(gòu)創(chuàng)新,比如他們?cè)谡撐摹禡LP-Mixer: An all-MLP Architecture for Vision》中提出了一種用于視覺任務(wù)的純 MLP 架構(gòu) MLP-Mixer;在論文《Big Transfer (BiT): General Visual Representation Learning》中,他們重新審視了在大型監(jiān)督數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練并在目標(biāo)任務(wù)上微調(diào)模型的范式,并通過擴(kuò)大了預(yù)訓(xùn)練的規(guī)模提出了所謂的 Big Transfer 方案。
他們也開發(fā)了一些在當(dāng)時(shí)都達(dá)到了 SOTA 的開發(fā)模型,比如 PaliGemma,這是一個(gè)基于 SigLIP-So400m 視覺編碼器和 Gemma-2B 語言模型的開放式視覺語言模型 (VLM),其在同等規(guī)模下的表現(xiàn)非常出色。而在論文《Sigmoid Loss for Language Image Pre-Training》中,他們僅使用 4 塊 TPUv4 芯片,在 2 天時(shí)間內(nèi)就訓(xùn)練出了一個(gè)在 ImageNet 上實(shí)現(xiàn)了 84.5% 的零樣本準(zhǔn)確度的模型。
他們?cè)谟?jì)算機(jī)視覺方面的很多研究成果都統(tǒng)一在了 Google 的 Big Vision 項(xiàng)目中,參閱 https://github.com/google-research/big_vision
他們近期的研究重心是統(tǒng)一、簡(jiǎn)化和擴(kuò)展多模態(tài)深度學(xué)習(xí),比如:
UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes,該論文提出了一種建模多樣化計(jì)算機(jī)視覺任務(wù)的統(tǒng)一方法。該方法通過組合使用一個(gè)基礎(chǔ)模型和一個(gè)語言模型實(shí)現(xiàn)了互相增益,從而在全景分割、深度預(yù)測(cè)和圖像著色上取得了不錯(cuò)的效果。
Tuning computer vision models with task rewards,這項(xiàng)研究展示了強(qiáng)化學(xué)習(xí)在多種計(jì)算機(jī)視覺任務(wù)上的有效性,為多模態(tài)模型的對(duì)齊研究做出了貢獻(xiàn)。
JetFormer: An Autoregressive Generative Model of Raw Images and Text,這是上個(gè)月底才剛剛發(fā)布的新研究成果,其中提出了一種創(chuàng)新的端到端多模態(tài)生成模型,通過結(jié)合歸一化流和自回歸 Transformer,以及新的噪聲課程學(xué)習(xí)方法,實(shí)現(xiàn)了無需預(yù)訓(xùn)練組件的高質(zhì)量圖像和文本聯(lián)合生成,并取得了可與現(xiàn)有方法競(jìng)爭(zhēng)的性能。
當(dāng)然,這三位研究者多年的研究成果遠(yuǎn)不只這些,更多成果請(qǐng)?jiān)L問他們各自的主頁。
看來,OpenAI 這次是真挖到寶了,難怪有人說谷歌失去這三位人才會(huì)是一個(gè)戰(zhàn)略失誤。
參考鏈接:
https://www.wired.com/story/openai-hires-deepmind-zurich/
https://x.com/XiaohuaZhai/status/1864175652624097366