北京時間3月13日深夜,一段人形機器人視頻在社交媒體上熱傳,主角是Figure AI的人形機器人。2月底,F(xiàn)igure AI剛剛傳出被OpenAI、微軟及亞馬遜、英偉達等投資的消息,最近一輪融資中籌集了6.75億美元。此次機器人展示正是由Figure AI和OpenAI合作完成。
視頻中,F(xiàn)igure AI人形機器人具有視覺能力并能表述所見畫面,它伸手拿起桌上的蘋果,并解釋了這么做的原因,人類的提問后,這臺人形機器人“思索”2~3秒后便能順暢作答,手部動作速度則接近人類。據(jù)視頻介紹,機器人采用了端到端神經(jīng)網(wǎng)絡(luò),且視頻并未加速。
Figure AI創(chuàng)始人Brett Adcock和AI團隊負(fù)責(zé)人Corey Lynch在社交媒體上解釋,該人形機器人由OpenAI提供了視覺推理和語言理解,F(xiàn)igure AI的神經(jīng)網(wǎng)絡(luò)則提供快速、靈巧的機器人動作。人形機器人將攝像機的圖像輸入和麥克風(fēng)接收的語音文字輸入OpenAI提供的視覺語言大模型(VLM)中,該模型可以理解圖像和文字。Figure機載相機以10hz的頻率拍攝畫面,隨后神經(jīng)網(wǎng)絡(luò)以200hz的頻率輸出24個自由度動作。畫面中的人形機器人不依賴遠程操作,行為都是學(xué)習(xí)而得的。兩周前,F(xiàn)igure AI才宣布與OpenAI合作,以突破機器人學(xué)習(xí)的界限,這個視頻是合作13天的成果,雙方正在為人形機器人研發(fā)下一代AI模型。
“機器人的速度有了顯著提高,我們開始接近人類的速度。“Brett Adcock表示。
Figure AI成立于2022年,已開發(fā)一款名為Figure 01的通用機器人,完成最新6.75億美元融資后,估值達到約26億美元左右。對比今年2月發(fā)布的一條視頻,其機器人進行的是雙腿行走、拿起塑料箱的任務(wù),最新視頻展示的新技能則是與人類對話的能力。
人形機器人進展已在加快。去年年底,特斯拉發(fā)布了第二代人形機器人Optimus Gen2的產(chǎn)品展示,該人形機器人搭載了AI大模型,可拿起雞蛋。今年1月發(fā)布的視頻中,特斯拉人形機器人可以折疊衣服。語言對話上,英國公司Engineered Arts人形機器人Ameca不久前與人類對話的視頻也曾引發(fā)關(guān)注,該機器人具備視覺能力,可以描述空間特征,例如窗戶開著、光線太亮,眼球和嘴巴都會動,表情逼真。
OpenAI也借著與Figure AI的合作展示了大模型應(yīng)用至人形機器人方面的能力。在趨于激烈的市場競爭中,OpenAI已在加快迭代。
今年3月,被視為OpenAI最強競爭對手的Anthropic發(fā)布其最新大模型系列Claude 3,其中Claude 3 Opus在多項基準(zhǔn)中得分均超GPT-4和Gemini 1.0 Ultra。彼時有AI業(yè)內(nèi)人士告訴第一財經(jīng)記者,在OpenAI站在第一梯隊、Anthropic等站在第二梯隊的層層向下“打壓鏈”中,Anthropic最新產(chǎn)品推出可能會打亂OpenAI的節(jié)奏,更早推出GPT-5。近日記者從大模型從業(yè)者了解到,實際使用中Claude 3在某些任務(wù)下的表現(xiàn)較好,可勝過GPT-4。
OpenAI確乎更希望穩(wěn)住自身地位。除了與Figure AI合作外,美國當(dāng)?shù)貢r間周三,OpenAI CTO Mira Murati(米拉穆拉迪)還透露,文生視頻模型Sora或?qū)⒂诮衲昴┌l(fā)布,OpenAI正在通過紅隊測試確保Sora的安全和可靠性。昨日則有消息稱,網(wǎng)友發(fā)現(xiàn)在必應(yīng)等搜索引擎可搜到GPT-4.5 Turbo產(chǎn)品頁面,頁面摘要顯示GPT-4.5 Turbo在速度、準(zhǔn)確性和可擴展性上超越GPT-4 Turbo,支持25.6萬tokens的上下文窗口,但很快相關(guān)鏈接就下架了,這或許意味著OpenAI將加快推出大模型新版本。