經(jīng)濟(jì)觀察報(bào) 記者 沈怡然 “我口渴了。”“需不需要我給你倒杯水?”
這是一段人類與機(jī)器人之間的對(duì)話。焦繼超首次聽(tīng)到這段對(duì)話時(shí)非常激動(dòng),因?yàn)橐酝鶛C(jī)器人是不會(huì)這樣回應(yīng)的,機(jī)器人可能會(huì)嘗試解釋口渴的原因,或者干脆沒(méi)有任何反應(yīng)。
焦繼超是深圳市優(yōu)必選科技股份有限公司(09880.HK,下稱“優(yōu)必選”)的科技副總裁、研究院執(zhí)行院長(zhǎng)。他說(shuō),過(guò)去,即使一個(gè)機(jī)器人詞匯量再大,也無(wú)法真正聽(tīng)懂人類的語(yǔ)言,只會(huì)響應(yīng)預(yù)設(shè)的關(guān)鍵詞。這種情況在實(shí)際互動(dòng)中的局限非常明顯,例如,機(jī)器人能理解具體的命令“給我倒杯水”,但無(wú)法理解更抽象地表述“我口渴了”。
焦繼超說(shuō):“即使是三歲的小孩也知道‘口渴’意味著需要喝水。”2016年,優(yōu)必選啟動(dòng)了第一代人形機(jī)器人的研發(fā)工作。盡管研發(fā)團(tuán)隊(duì)能夠讓機(jī)器人的骨架和關(guān)節(jié)實(shí)現(xiàn)非常精準(zhǔn)地運(yùn)動(dòng),但提升其“大腦”的智能性始終是個(gè)難題。
機(jī)器人之所以能夠完成這段對(duì)話,是因?yàn)樗捎昧讼馛hatGPT(OpenAI研發(fā)的一款聊天機(jī)器人程序)這樣的人工智能大型語(yǔ)言模型。
大語(yǔ)言模型技術(shù)第一次成功模擬了人類的語(yǔ)言系統(tǒng),讓機(jī)器人實(shí)現(xiàn)與人類自然對(duì)話。AI(人工智能)大模型技術(shù)的快速更新又讓機(jī)器人陸續(xù)擁有了類似人類的“眼睛”和“耳朵”等感官。通過(guò)視覺(jué)和語(yǔ)音大模型,機(jī)器人能夠更好地感知和理解周圍環(huán)境。當(dāng)大模型演進(jìn)到更高級(jí)的階段,不僅能夠處理和響應(yīng)各種信息,還能夠自主決策和執(zhí)行任務(wù),模擬出越來(lái)越接近人類大腦的功能。
人工智能技術(shù)起源于20世紀(jì)50年代,它朝著模仿人類大腦的方向演進(jìn)了七十多年,卻始終游走于數(shù)字世界;機(jī)器人技術(shù)起源于更早的20世紀(jì)20年代,并經(jīng)歷了超過(guò)一個(gè)世紀(jì)的發(fā)展,機(jī)器人已經(jīng)擁有了靈活的身軀和骨架,但一直未能獲得一個(gè)聰明的大腦。
在長(zhǎng)期發(fā)展和“雙向奔赴”后,這兩大技術(shù)終于在當(dāng)前的時(shí)間點(diǎn)交匯,這讓人工智能以實(shí)體之軀步入現(xiàn)實(shí),去觸摸和改變世界;而機(jī)器人也不再只是執(zhí)行簡(jiǎn)單命令的機(jī)械,而是變得能夠思考、學(xué)習(xí)和適應(yīng)環(huán)境,像人類一樣在工業(yè)生產(chǎn)線、醫(yī)療手術(shù)臺(tái)上工作。
焦繼超說(shuō):“這是一次質(zhì)的躍遷,人形機(jī)器人的iPhone時(shí)刻到來(lái)了。”
讓機(jī)器人像人一樣說(shuō)話
機(jī)器人“成為”人的第一關(guān)是語(yǔ)言。
起初,優(yōu)必選嘗試使用傳統(tǒng)的處理方法和AI小模型來(lái)實(shí)現(xiàn)這一目標(biāo):先給機(jī)器人預(yù)設(shè)一些關(guān)鍵詞,然后再利用傳統(tǒng)的小語(yǔ)言模型(SLM)進(jìn)行語(yǔ)義分割,通過(guò)識(shí)別關(guān)鍵詞來(lái)讓機(jī)器人觸發(fā)相應(yīng)的指令。
焦繼超將這個(gè)過(guò)程描述為“類似于條件反射”。盡管這種方法能夠讓機(jī)器人熟悉特定的語(yǔ)言命令,但對(duì)于未預(yù)設(shè)過(guò)的關(guān)鍵詞和命令,機(jī)器人很難給出正確的反應(yīng)。
為了擴(kuò)展機(jī)器人的“詞匯量”,企業(yè)不得不通過(guò)編程不斷添加預(yù)設(shè)程序和關(guān)鍵詞,以模擬更多的條件反射,讓機(jī)器人能響應(yīng)更多的人類語(yǔ)言。這一過(guò)程既煩瑣又復(fù)雜,涉及數(shù)據(jù)采集、標(biāo)注、訓(xùn)練以及驗(yàn)證推理等多個(gè)環(huán)節(jié),工程師們還需要不斷地調(diào)整參數(shù)。
盡管團(tuán)隊(duì)付出了巨大的努力,但機(jī)器人在語(yǔ)言理解上始終存在局限,無(wú)法達(dá)到與人類自然對(duì)話的水平。反應(yīng)慢、缺乏思考和推理能力,對(duì)于預(yù)設(shè)之外的新情況和問(wèn)題,機(jī)器人往往無(wú)法給出合適的反應(yīng)。焦繼超說(shuō),這無(wú)疑給團(tuán)隊(duì)帶來(lái)了巨大的挑戰(zhàn)。
面對(duì)這種情況,他們轉(zhuǎn)而探索另一種技術(shù)知識(shí)圖譜技術(shù)。他們構(gòu)建了一個(gè)龐大的知識(shí)圖譜庫(kù),希望通過(guò)命中關(guān)鍵詞來(lái)搜索數(shù)據(jù)庫(kù)中的知識(shí),并據(jù)此生成回答。這種方法在一定程度上提升了機(jī)器人對(duì)自然語(yǔ)言的理解能力,但仍然存在局限性,機(jī)器人的回答往往預(yù)設(shè)性強(qiáng),缺乏靈活性和人性化,這與團(tuán)隊(duì)追求的自然、流暢的人機(jī)交互體驗(yàn)仍有很大的差距。
經(jīng)歷了一系列的嘗試后,焦繼超認(rèn)識(shí)到,要實(shí)現(xiàn)真正的突破,需要更先進(jìn)的技術(shù)。
機(jī)器人有了嘴巴、眼睛和耳朵
2021年底,OpenAI發(fā)布了具有里程碑意義的ChatGPT模型。ChatGPT以其強(qiáng)大的語(yǔ)言理解和生成能力引起了廣泛關(guān)注,它在自然語(yǔ)言處理技術(shù)上取得了飛躍式的進(jìn)步,開(kāi)啟了人工智能的“大模型時(shí)代”。
商湯科技智能產(chǎn)業(yè)研究院院長(zhǎng)田豐對(duì)經(jīng)濟(jì)觀察報(bào)說(shuō),在IT時(shí)代,人類通過(guò)編程語(yǔ)言開(kāi)發(fā)軟件、實(shí)現(xiàn)人機(jī)對(duì)話,而大語(yǔ)言模型的出現(xiàn)簡(jiǎn)化了這一流程,通過(guò)“人類母語(yǔ)”就能實(shí)現(xiàn)人機(jī)對(duì)話,這顯著降低了軟硬件開(kāi)發(fā)和使用AI的門(mén)檻。
焦繼超首次使用ChatGPT時(shí)感到非常興奮,因?yàn)檫@種技術(shù)為解決機(jī)器人的語(yǔ)言交互問(wèn)題提供了新的可能性。2022年初,焦繼超團(tuán)隊(duì)通過(guò)開(kāi)源的方式引入了大語(yǔ)言模型,并嘗試將其與機(jī)器人現(xiàn)有的系統(tǒng)集成,利用多年積累的數(shù)據(jù)和場(chǎng)景來(lái)提升機(jī)器人的語(yǔ)言交互能力。
結(jié)果令焦繼超驚喜,他舉例稱,當(dāng)用戶說(shuō)“我有口腔潰瘍”時(shí),機(jī)器能夠理解其含義并推理出“緩解癥狀需要補(bǔ)充維生素”“水果里有維生素”,然后詢問(wèn)用戶要不要吃水果,在用戶同意的前提下去為其拿取水果。
田豐說(shuō),AI大模型不僅能讀懂語(yǔ)言、文字,還能讀懂語(yǔ)氣、情緒,能敏感地捕捉和理解上下文信息。
但這還遠(yuǎn)遠(yuǎn)不夠。人類有五官,大語(yǔ)言模型僅僅作為機(jī)器人的語(yǔ)言系統(tǒng)而存在,機(jī)器人還需要多種感官能力。焦繼超注意到,處理圖像和語(yǔ)音的大模型也相繼被開(kāi)發(fā)出來(lái),這些模型的能力可以處理和理解機(jī)器人采集的視頻、音頻,像人的大腦能夠處理眼睛和耳朵收集到的外部信息一樣。
2023年9月,OpenAI根據(jù)ChatGPT進(jìn)一步發(fā)明出了具備圖像和語(yǔ)音識(shí)別功能的GPT-4V,這意味著AI開(kāi)始模擬人腦中復(fù)雜的神經(jīng)網(wǎng)絡(luò)來(lái)識(shí)別圖像和聲音,并將其轉(zhuǎn)換為語(yǔ)言指令。
田豐稱,正如人類有視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)、味覺(jué)、嗅覺(jué)五感,這種多模態(tài)大模型帶來(lái)了多種感知能力。
焦繼超和團(tuán)隊(duì)運(yùn)用技術(shù)的手段將“嘴巴”“眼睛”和“耳朵”串聯(lián)起來(lái),并實(shí)現(xiàn)互通協(xié)作,機(jī)器人變得能看懂、聽(tīng)懂人類的指令,也就能夠更加準(zhǔn)確地執(zhí)行命令。
焦繼超說(shuō),當(dāng)一個(gè)機(jī)器人具備了類似人類的眼睛,只要它進(jìn)門(mén)在你家轉(zhuǎn)一圈,觀察一下,便會(huì)自主在“大腦”中形成一幅房屋的空間格局與陳設(shè)的地圖,過(guò)程中無(wú)須人為干預(yù),而在過(guò)去,一個(gè)機(jī)器人觀察環(huán)境之后,還需要工程師做大量的建模和編程,才能在機(jī)器人的“大腦”中“畫(huà)”出一幅空間地圖,為后期的行動(dòng)提供導(dǎo)航。
機(jī)器人的避障反應(yīng)也更快了。
北京云跡科技股份有限公司(下稱“云跡科技”)CPO李全印稱,遇到障礙物的機(jī)器人的反應(yīng)步驟非常多,要判斷是不是要減速、是不是要躲開(kāi)、向右躲還是向左躲,F(xiàn)在,公司運(yùn)用AI大模型的強(qiáng)大計(jì)算能力和更精細(xì)化的算法,開(kāi)發(fā)了先進(jìn)的動(dòng)態(tài)避障算法,能夠讓機(jī)器人理解環(huán)境,并快速作出正確決策。
然而,要將語(yǔ)言、視覺(jué)、語(yǔ)音等多類大模型集成在一起,組成一個(gè)完整的大腦,這并非易事。
田豐稱,多模態(tài)大模型的挑戰(zhàn)之一是如何統(tǒng)一處理差異化的跨模態(tài)數(shù)據(jù),以保證時(shí)間的同步和空間的對(duì)齊。
焦繼超說(shuō),人類感官收集信息的路徑是通過(guò)語(yǔ)言形式傳輸?shù)酱竽X,機(jī)器人也應(yīng)該按照這種思路來(lái)串聯(lián)它的“眼睛”“耳朵”和“嘴巴”。因此,團(tuán)隊(duì)將不同維度的信息接入到AI大模型的框架里,機(jī)器人看到的圖像和聽(tīng)到的聲音以語(yǔ)言的形式傳入“大腦”,并讓“大腦”中的語(yǔ)言、視覺(jué)、聽(tīng)覺(jué)系統(tǒng)彼此協(xié)作,以更好地作出決策。
僅僅能看、能聽(tīng)、能說(shuō)還不夠,人工智能距離真正模擬出人類大腦,還有最后一步要走使用工具、自主執(zhí)行任務(wù)。
田豐稱,當(dāng)人工智能技術(shù)從單模態(tài)發(fā)展到多模態(tài),并可以將AI大模型、記憶庫(kù)、執(zhí)行體組合到一起的時(shí)候,就進(jìn)化出了一種新形態(tài)智能體(AIAgent)。
在形態(tài)上,智能體可以是純軟件的,也可以嵌入到硬件中。相較于AI大模型,它的升級(jí)之處在于進(jìn)一步模擬了人類的決策和行動(dòng)過(guò)程。如果AI大模型是一臺(tái)發(fā)動(dòng)機(jī),智能體就是一輛汽車。智能體不僅依賴于AI大模型的計(jì)算能力,還需要調(diào)用各種工具和執(zhí)行部件來(lái)完成任務(wù)。
解決人的問(wèn)題
李全印總結(jié)了機(jī)器人干活的三層“境界”:第一層是“你說(shuō)啥我干啥”,第二層是“你稍微表達(dá)一下,我就知道要干啥”,第三層就是“你啥也不說(shuō),就我來(lái)干”。人工智能技術(shù)正讓機(jī)器人進(jìn)入第三層“境界”,此時(shí)的機(jī)器人已經(jīng)非常接近人類的思考和行動(dòng)能力了。
借助AI大模型和超強(qiáng)算力的力量,一些機(jī)器人在服務(wù)人類方面解鎖了更多技能。2023年,云跡科技開(kāi)發(fā)了一款用于酒店的多功能服務(wù)機(jī)器人,與上一代產(chǎn)品不同的是,新款機(jī)器人不僅會(huì)干活,而且可以自己用工具干活。
根據(jù)云跡科技提供數(shù)據(jù),2024年2月,該公司的智能客服機(jī)器人和物理機(jī)器人“合作”為某一家酒店干了將近1000件工作,客人在客房?jī)?nèi)通過(guò)電話、二維碼等方式向智能客服提出需求,智能客服把命令下給物理機(jī)器人,由物理機(jī)器人取物、送物,中間不需要人參與。
云跡科技生產(chǎn)的數(shù)萬(wàn)臺(tái)機(jī)器人應(yīng)用在全球四十多個(gè)國(guó)家和地區(qū)的酒店,這些酒店對(duì)其提出的要求是:干活,干更多種類的活。
2023年,云跡科技開(kāi)發(fā)了一款用于酒店的多功能服務(wù)機(jī)器人,與上一代產(chǎn)品不同的是,新款機(jī)器人可以自己用工具干活了。例如接到清掃任務(wù),會(huì)主動(dòng)找到吸塵器的功能倉(cāng)進(jìn)行組合,然后走到相應(yīng)的區(qū)域進(jìn)行清掃。按照這個(gè)思路,它還可以收衣服、收垃圾。
李全印認(rèn)為,這是一個(gè)巨大的進(jìn)步,它讓機(jī)器人具備了人的智慧使用工具。“過(guò)去,你讓機(jī)器人去掃地,它是聽(tīng)不懂的,你必須拆解任務(wù),先拿吸塵器再掃地。但現(xiàn)在不同了,當(dāng)你讓機(jī)器人去掃地,它會(huì)自己將任務(wù)拆分成兩步,先去拿吸塵器再進(jìn)行清掃。”李全印稱。
李全印稱,過(guò)去需要人機(jī)合作的事情,未來(lái)機(jī)器人可以自閉環(huán)完成。過(guò)往在酒店場(chǎng)景中,清掃、收垃圾、消殺等很多任務(wù)都是機(jī)器人與服務(wù)員共同完成,現(xiàn)在,機(jī)器人可以自主執(zhí)行一個(gè)完整的任務(wù)。這一進(jìn)步意味著更多人力被解放,可以做更多有價(jià)值的事情。
他說(shuō),在不久的將來(lái),機(jī)器人還能學(xué)會(huì)自己找活兒干。當(dāng)人類命令它把房間打掃干凈,機(jī)器人會(huì)感知環(huán)境里哪些是垃圾,知道需要拿垃圾桶收垃圾,然后拿吸塵器吸塵;機(jī)器人送過(guò)來(lái)一杯水,水灑了,它會(huì)感知到水灑了,并且知道再重新拿一杯水過(guò)來(lái),甚至可以拿紙巾把水擦干凈。
焦繼超說(shuō),優(yōu)必選的最終目標(biāo)是讓機(jī)器人走入家庭并成為其中的一員,相比一般機(jī)器人,人形機(jī)器人需要給人帶來(lái)更加極致的交互體驗(yàn)。
在一些商用和養(yǎng)老服務(wù)的場(chǎng)景中,客戶希望機(jī)器人不僅能完成一些基礎(chǔ)工作,還能在情感上與客戶進(jìn)行更深入地互動(dòng),提供陪伴。
優(yōu)必選以人形機(jī)器人全棧式技術(shù)為基礎(chǔ),開(kāi)展智能服務(wù)機(jī)器人解決方案的研發(fā)、設(shè)計(jì)、智能生產(chǎn)和商業(yè)化應(yīng)用。每年用超過(guò)一半的營(yíng)收投入到研發(fā)中。2023年,該公司營(yíng)收10.55億元,人工智能教育、智慧物流、消費(fèi)級(jí)機(jī)器人及其他硬件貢獻(xiàn)了93.7%的收入。
焦繼超稱,“隨著AI進(jìn)入大模型時(shí)代,技術(shù)的發(fā)展速度超出了我們的預(yù)期。這種加速的進(jìn)展可能意味著原本預(yù)計(jì)需要5年8年才能實(shí)現(xiàn)場(chǎng)景化落地,現(xiàn)在有可能被縮短至2年3年。”