機(jī)器人如何更像人?
作者/IT時(shí)報(bào)記者沈毅斌
編輯/ 孫妍
兩個(gè)月前在上海舉辦的世界人工智能大會(huì)上,來(lái)自多家企業(yè)的人形機(jī)器人“十八金剛”集體出道,不僅成為鎮(zhèn)館之寶,還向觀眾展現(xiàn)出一張未來(lái)科技藍(lán)圖。作為改革開(kāi)放“排頭兵”,深圳也加入由AI卷起的科技浪潮中。
9月8日至10日,以“智創(chuàng)未來(lái)價(jià)值鏈接”為主題的第五屆深圳國(guó)際人工智能展(GAIE)在深圳會(huì)展中心拉開(kāi)帷幕。展會(huì)現(xiàn)場(chǎng),迎賓巡更機(jī)器人在入口處迎接遠(yuǎn)道而來(lái)的觀眾,并發(fā)放論壇議程;休息區(qū)可以品嘗咖啡機(jī)器人和炒面機(jī)器人的“手藝”;智能訪客機(jī)器人回答著觀展問(wèn)題......具身智能憑借強(qiáng)大的交互能力,成為全場(chǎng)焦點(diǎn)。
目前,具身智能在語(yǔ)言對(duì)話交互方面已經(jīng)取得一定進(jìn)步,不過(guò)在行動(dòng)、情感等方面的交互還較為簡(jiǎn)單,恐怖谷效應(yīng)依然存在。“人形機(jī)器人在交互領(lǐng)域達(dá)到‘手眼心腦’協(xié)同,實(shí)現(xiàn)人機(jī)共融,才是未來(lái)發(fā)展的方向。”數(shù)字華夏解決方案總經(jīng)理戴鵬表示。
行動(dòng)交互
輸入感知信息,輸出運(yùn)動(dòng)執(zhí)行
“各位參會(huì)的先生們女士們,以及現(xiàn)場(chǎng)的機(jī)器人朋友們,大家好。”在智能機(jī)器人創(chuàng)新發(fā)展論壇上,北京大學(xué)人工智能研究院、具身智能與機(jī)器人研究中心主任劉宏用一句開(kāi)玩笑式的打招呼方式吸引了觀眾的注意。之所以這樣打招呼,劉宏說(shuō),因?yàn)橐呀?jīng)將機(jī)器人看作是一個(gè)有思想的獨(dú)立個(gè)體,未來(lái)將是人機(jī)共存的時(shí)代。
如今,大模型的出現(xiàn)賦予具身智能一顆“智慧大腦”,也推動(dòng)具身智能走向更深的應(yīng)用場(chǎng)景。但想要成為獨(dú)立個(gè)體,還要求具身智能將思考變?yōu)樾袆?dòng),具備一套強(qiáng)大的執(zhí)行交互能力。在劉宏眼中,將輸入的感知信息轉(zhuǎn)化為輸出的運(yùn)動(dòng)執(zhí)行,才能被定義為具身智能。同時(shí)需要具備安全性、靈活性、流暢度、自主性,即行為越來(lái)越像人,才能實(shí)現(xiàn)人機(jī)自然交互。
行為認(rèn)知學(xué)習(xí)和未來(lái)運(yùn)動(dòng)預(yù)測(cè)是行動(dòng)交互的關(guān)鍵。在行為認(rèn)知方面,多位業(yè)內(nèi)人士都表示需要以人腦為參考。憶海原識(shí)總裁助理陳詩(shī)薇在論壇上表示,需要為具身智能打造一個(gè)類腦智能,即利用豐富的基礎(chǔ)模型,結(jié)合生物神經(jīng)系統(tǒng)工作原理的技術(shù)體系。相比深度學(xué)習(xí)體系,類腦計(jì)算體系結(jié)構(gòu)由擴(kuò)展機(jī)制、變量體系、抽象模塊、基礎(chǔ)模型等多種核心組成,結(jié)構(gòu)更加復(fù)雜,卻具有較強(qiáng)的可塑性機(jī)制,可快速刻畫(huà)出行為的因果聯(lián)系,數(shù)據(jù)量小也能進(jìn)行訓(xùn)練。
中國(guó)科學(xué)院院士、北京科學(xué)智能研究院理事長(zhǎng)鄂維南在論壇上也表示,下一代大模型實(shí)現(xiàn)進(jìn)一步智能化,需要借鑒人腦的“記憶分層”,將技術(shù)框架進(jìn)行分層處理。
在未來(lái)運(yùn)動(dòng)預(yù)測(cè)方面,目前基于RNN方法(循環(huán)神經(jīng)網(wǎng)絡(luò)),可以學(xué)習(xí)時(shí)序數(shù)據(jù)中的動(dòng)態(tài)依賴性。簡(jiǎn)單理解是通過(guò)反饋連接,將此前識(shí)別信息用于當(dāng)前決策中。但人體運(yùn)動(dòng)是一種相互組合的復(fù)合運(yùn)動(dòng),例如走路動(dòng)作由邁步和擺手兩個(gè)原子動(dòng)作組成,而訓(xùn)練數(shù)據(jù)不足會(huì)使得人體運(yùn)動(dòng)預(yù)測(cè)任務(wù)面臨挑戰(zhàn),學(xué)習(xí)中的誤差也會(huì)積累。
對(duì)此,劉宏提出一個(gè)復(fù)合動(dòng)作生成模塊,該模塊基于VAE模型(變分自編碼器,學(xué)習(xí)潛在變量,生成新的數(shù)據(jù)樣本),將復(fù)合動(dòng)作拆分提煉成若干個(gè)原子動(dòng)作,再組合成動(dòng)作序列進(jìn)行行為交互訓(xùn)練。這就意味著使用原子動(dòng)作訓(xùn)練就可以生成合成復(fù)合運(yùn)動(dòng),解決復(fù)合運(yùn)動(dòng)訓(xùn)練數(shù)據(jù)收集費(fèi)時(shí)費(fèi)力的痛點(diǎn)。
盡管已經(jīng)有解決方案提出,但是浙江大學(xué)智能系統(tǒng)與控制研究所機(jī)器人實(shí)驗(yàn)室主任熊蓉認(rèn)為,技術(shù)層面還需要進(jìn)一步打磨,包括從提升整個(gè)運(yùn)動(dòng)的可靠性,長(zhǎng)時(shí)間長(zhǎng)距離擬人化的各種動(dòng)態(tài)運(yùn)動(dòng);操作層面,需要提升適應(yīng)各種場(chǎng)景的智能性;從產(chǎn)品上來(lái)說(shuō),需要去定義適合市場(chǎng)需求的產(chǎn)品,并且要去打造供應(yīng)鏈,降低成本,以及面向應(yīng)用去做各種開(kāi)發(fā)。
情感交互
手眼心腦協(xié)同,避免恐怖谷效應(yīng)
在某個(gè)展會(huì)上,幾位擁有長(zhǎng)發(fā)、人臉的人形機(jī)器人舞動(dòng)雙手,跳起網(wǎng)紅舞蹈“科目三”。盡管動(dòng)作十分標(biāo)準(zhǔn),但面對(duì)越來(lái)越像人的人形機(jī)器人,難免會(huì)產(chǎn)生恐怖谷效應(yīng)。僅做到行動(dòng)交互并不能讓人類打心底接受人形機(jī)器人,因此需要提升情感交互能力。
“我們需要一款‘有溫度’的人形交互機(jī)器人。”戴鵬在論壇上表示,傳統(tǒng)人形協(xié)作機(jī)器人具備自動(dòng)控制和編程能力,可以與人類在同一工作空間協(xié)同作業(yè);而有溫度的人形交互機(jī)器人,是實(shí)現(xiàn)和人類一樣“手眼心腦”協(xié)同。“眼”為眼神交流與表情互動(dòng);“心”則能讀懂人的喜怒哀樂(lè),感知人類細(xì)微且豐富的情感和認(rèn)知狀態(tài);“腦”是具備豐富的通用知識(shí),能進(jìn)行有深度的情感溝通,其中最直觀的感受便是表情的呈現(xiàn)。
以數(shù)字華夏打造的交互型人形機(jī)器人“夏瀾”為例,臉部多達(dá)26個(gè)執(zhí)行器,19個(gè)電機(jī)模擬面部肌肉進(jìn)行控制。表情交互技術(shù)以多模態(tài)大模型為基礎(chǔ),通過(guò)視頻數(shù)據(jù),機(jī)器人自我模型就會(huì)通過(guò)觀察學(xué)習(xí)視頻中人類的交流方式、情感表達(dá)等實(shí)現(xiàn)泛化交互。在現(xiàn)實(shí)交流時(shí),表情預(yù)測(cè)和眼動(dòng)追蹤可以讓機(jī)器人預(yù)測(cè)面部活動(dòng),從而快速做出表情回應(yīng)。
無(wú)獨(dú)有偶,多家機(jī)器人研究院也在強(qiáng)化情感互動(dòng)能力。今年5月,中國(guó)科學(xué)技術(shù)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院機(jī)器人實(shí)驗(yàn)室內(nèi),“90后”博士曹榮昀自主研發(fā)了一款人形情感交互機(jī)器人。該款機(jī)器人的亮點(diǎn)在于其高度仿真的面部表情和觸感。通過(guò)部署30個(gè)電機(jī)驅(qū)動(dòng)器,實(shí)現(xiàn)機(jī)器人面部肌肉的協(xié)同工作,讓機(jī)器人呈現(xiàn)出真實(shí)自然的表情。
為了讓人形機(jī)器人提升情感交互能力,戴鵬在論壇上公布了人形機(jī)器人交互技術(shù)框架,可以分為laaS(基礎(chǔ)設(shè)施即服務(wù))、核心能力、RaaS(機(jī)器人即服務(wù))三層,其中核心能力包括感知理解引擎、綜合決策引擎、任務(wù)編排引擎,以及情感分析和表情控制兩種模型。
排版/孫妍