展會(huì)信息港展會(huì)大全

元宇宙的本質(zhì)是融合,“鑄魂”是關(guān)鍵|專訪AI大牛田奇
來源:互聯(lián)網(wǎng)   發(fā)布日期:2022-05-13 08:32:45   瀏覽:16751次  

導(dǎo)讀:元宇宙的本質(zhì)是物理和數(shù)字兩個(gè)世界的 融合 , 鑄魂 是關(guān)鍵。 這,便是AI科學(xué)家對于元宇宙所持的最新觀點(diǎn)。 他叫 田奇 ,是計(jì)算機(jī)視覺、多媒體信息檢索專家,國際歐亞科學(xué)院院士,IEEE Fellow。 而他更為大眾所熟知的身份,是華為云人工智能領(lǐng)域首席科學(xué)家。...

元宇宙的本質(zhì)是物理和數(shù)字兩個(gè)世界的融合,“鑄魂”是關(guān)鍵。

這,便是AI科學(xué)家對于元宇宙所持的最新觀點(diǎn)。

他叫田奇,是計(jì)算機(jī)視覺、多媒體信息檢索專家,國際歐亞科學(xué)院院士,IEEE Fellow。

而他更為大眾所熟知的身份,是華為云人工智能領(lǐng)域首席科學(xué)家。

在田奇看來,元宇宙已經(jīng)實(shí)現(xiàn)了“盤古開天”。下一階段,數(shù)字人將成為元宇宙的核心要素。

而且在這位AI大牛眼中,元宇宙已然不再是獨(dú)立的一片天地,而是物理世界和數(shù)字世界的融合體融合,是元宇宙的關(guān)鍵詞。

更進(jìn)一步的,田奇認(rèn)為,預(yù)訓(xùn)練大模型是幫助元宇宙更好地實(shí)現(xiàn)“融合”的關(guān)鍵技術(shù)。

如何用大模型給數(shù)字人“鑄魂”?

近兩年,像BERT、GPT-3等大規(guī)模預(yù)訓(xùn)練模型逐漸走進(jìn)大眾的視野,其“大力出奇跡”的優(yōu)異效果為AI技術(shù)的發(fā)展應(yīng)用帶來了極大的想象空間。

與此同時(shí),隨著Facebook正式更名為Meta,元宇宙的熱潮也被推向了前所未有的高度。

那么當(dāng)最潮的AI技術(shù)遇上最I(lǐng)n的熱門領(lǐng)域,又會(huì)擦出怎樣的火花?

在田奇看來,二者的相遇會(huì)讓元宇宙的核心要素數(shù)字人,能夠在形象上“以假亂真”,甚至可以具備與人類媲美的智慧。

首先,田奇介紹了數(shù)字人智能的表現(xiàn),以及如何通過技術(shù)讓數(shù)字人更聰明。

他認(rèn)為,數(shù)字人的智能可以分為感知認(rèn)知兩個(gè)方面。

感知智能的核心在于讓數(shù)字人具備人的視覺、聽覺、觸覺等感知能力,并且與自然界進(jìn)行交互。

譬如,基于語音大模型,數(shù)字人可以擁有聽覺;基于語言大模型,數(shù)字人可以具備流暢對話的能力;基于視覺大模型,數(shù)字人能夠看見周圍環(huán)境并與之進(jìn)行互動(dòng)……

田奇認(rèn)為,數(shù)字人若是結(jié)合上一些特殊信號,甚至可以衍生出人類所不具備的超感知能力,以輔助人類探索更多突破想象的技術(shù),比如“千里眼”、“順風(fēng)耳”等。田奇表示,這在今天已完全可以實(shí)現(xiàn)。

認(rèn)知智能方面,數(shù)字人應(yīng)當(dāng)側(cè)重于信息整合、推理、創(chuàng)造等能力,這正是人類區(qū)別于其它生物的關(guān)鍵所在。

田奇牽頭打造的華為云盤古大模型便可以讓數(shù)字人具備更強(qiáng)的認(rèn)知能力。

△2021 HDC.Cloud中現(xiàn)場演示

田奇:什么樣的車沒有油也可以跑?

盤古:新能源車和自行車沒有油都可以跑。當(dāng)然,還有玩具車。

田奇:什么是碳中和?碳排放主要來自于哪些行業(yè)?

盤古:碳中和就是把人為排放的二氧化碳,通過植樹造林、節(jié)能減排等形式抵消掉,從而使得釋放到大氣中的總碳量凈值為零。目前發(fā)電和供熱行業(yè)、制造和建筑業(yè)是主要的碳排放行業(yè)。

……

在這段流暢且出乎意料的對話中,盤古的常識(shí)推理等能力展露無遺。

總而言之,利用預(yù)訓(xùn)練大模型的海量參數(shù)來模擬人類超大腦容量,并且用海量數(shù)據(jù)驅(qū)動(dòng)模型去認(rèn)識(shí)和理解世界,是田奇非?春玫募夹g(shù)之一。

因?yàn)榇竽P途拖袷且粋(gè)強(qiáng)勁的馬達(dá),為數(shù)字人在感知智能和認(rèn)知智能方面的進(jìn)步提供了強(qiáng)大的推動(dòng)力。

而除了智能之外,超寫實(shí)的外觀也是數(shù)字人的重要發(fā)展方向。

在這一方面,AI技術(shù)與華為云MetaStudio能夠讓數(shù)字人的形象和真人“傻傻分不清”。

具體而言,在“學(xué)習(xí)”了大量的人類照片和實(shí)際采集的皮膚信息后,再經(jīng)過簡單的訓(xùn)練,AI就能夠打造皮膚材質(zhì)模型,接著MetaStudio則能夠更加快速地渲染出近似真實(shí)質(zhì)感的皮膚。

再比如,通過AI表情的訓(xùn)練,可以獲取更豐富的表情驅(qū)動(dòng)模型,讓數(shù)字人的表情效果更自然。

除此之外,理想的數(shù)字人“塑形”工作應(yīng)當(dāng)采用“極簡模式”。例如傳統(tǒng)方式往往需要走遍完整的一條“路徑”:從原畫到建模、渲染,中間有瑕疵時(shí)還需要手動(dòng)來調(diào)整。

但AI能力的介入,不僅僅會(huì)讓這個(gè)過程變得智能化、提高效率,還能以1個(gè)模板為基礎(chǔ),生產(chǎn)出多種不同風(fēng)格的數(shù)字人,例如超寫實(shí)和卡通風(fēng)格。

……

以上便是田奇眼中對元宇宙數(shù)字人“鑄魂”“塑形”的過程了。

除了數(shù)字人這一核心要素外,田奇從更為宏觀的角度,分享了他對于元宇宙的更多理解。

融合,是元宇宙的關(guān)鍵

元宇宙代表了人類社會(huì)對于虛擬和現(xiàn)實(shí)進(jìn)一步融合的期待和向往。

田奇解釋道,元宇宙既非我們表面理解的完全“脫實(shí)向虛”,也非平行于現(xiàn)實(shí)世界。

它的本質(zhì)是物理和數(shù)字兩個(gè)世界的融合。

而這個(gè)“融合”包括物理世界數(shù)字化數(shù)字世界現(xiàn)實(shí)化兩方面。

怎么理解這兩個(gè)概念?

舉個(gè)例子。

如果我們想要預(yù)防臺(tái)風(fēng)災(zāi)害,就可以通過數(shù)字孿生,來模擬全球的氣候流動(dòng)和洋流流動(dòng)。

通過這個(gè)數(shù)字世界的模型,我們就可以推斷臺(tái)風(fēng)的運(yùn)行軌跡,以及對沿途區(qū)域可能造成的災(zāi)害影響,從而進(jìn)行預(yù)防,減少損失。

也就是說,元宇宙先將物理世界數(shù)字化,再利用這個(gè)數(shù)字化世界幫助解決現(xiàn)實(shí)世界的問題,兩個(gè)世界相輔相成,融為一體。

在這個(gè)融合世界中,不光人有智慧,路邊的樹木、房屋……都有智慧,它們都可以觀測、記錄、計(jì)算數(shù)據(jù),并對現(xiàn)實(shí)世界作出一定的反饋和影響。

那么從AI技術(shù)的角度來說,這兩者最關(guān)鍵的技術(shù)是什么呢?

田奇認(rèn)為,對于物理世界數(shù)字化,對現(xiàn)實(shí)世界的識(shí)別和理解最為重要,比如用攝像頭、傳感器等設(shè)備采集場景和人物信息時(shí)涉及到的識(shí)別、分類和分割等視覺算法,就是其中的核心技術(shù)。

在完成對物理世界的識(shí)別和理解后,就該重建了。

田奇表示,目前的技術(shù)在二維圖像生成方面已經(jīng)達(dá)到了比較好的效果,未來要做的就是對開放場景、三維物體的建模技術(shù)進(jìn)行突破。

而三維物體的建模難度大,需要巨大算力,也需要眾多高校等科研力量共同構(gòu)建大規(guī)模的數(shù)據(jù)集。

對于數(shù)字世界現(xiàn)實(shí)化,這里面的關(guān)鍵便是如何將數(shù)字內(nèi)容與現(xiàn)實(shí)世界進(jìn)行無縫地疊加渲染。

我們需要把現(xiàn)有的風(fēng)格化技術(shù)進(jìn)一步擴(kuò)展到更大的三維場景中,并與視覺理解的結(jié)果結(jié)合起來,進(jìn)行更精細(xì)的效果展示。

田奇補(bǔ)充道,風(fēng)格遷移在這里的作用是帶來二次創(chuàng)作,增強(qiáng)虛擬世界的吸引力。

比如我們可以思考:如何把現(xiàn)在的西安街景渲染為古代長安的風(fēng)格。

說完元宇宙的關(guān)鍵,我們又該如何進(jìn)行落地呢?

元宇宙技術(shù)架構(gòu)

田奇認(rèn)為,一般來講,可以把元宇宙的技術(shù)架構(gòu)分為四層:聯(lián)接層、平臺(tái)層、交互層和應(yīng)用層。

所謂聯(lián)接層,主要作用就是聯(lián)通物理和數(shù)字世界,涉及光纖、5G、WiFi6等網(wǎng)絡(luò)技術(shù)。在滿足大帶寬、低時(shí)延、高可靠等需求的同時(shí),聯(lián)接層還要保障所有設(shè)備、終端能夠快速接入業(yè)務(wù)。

平臺(tái)層擁有基于云+AI的基礎(chǔ)設(shè)施,是物理世界向虛實(shí)融合世界轉(zhuǎn)型的關(guān)鍵底座。

它通過對復(fù)雜系統(tǒng)建模、實(shí)時(shí)仿真、渲染,將物理世界簡單、快速、逼真地映射到數(shù)字世界,也就是做到我們所說的“數(shù)字孿生”。

具體來說,其映射包括環(huán)境和人物兩個(gè)方面,前者涉及三維物體的建模和渲染,后者則需要某些AI技術(shù)來輔助完成人物動(dòng)作和表情的重構(gòu)。

在這一層,數(shù)字世界反作用于物理世界,提升物理世界的生產(chǎn)效率。

而這取決于其中的智能化水平。田奇表示,大模型、求解器、知識(shí)計(jì)算是提升智能化水平的關(guān)鍵。

最后,平臺(tái)層還有一個(gè)顯著特點(diǎn),那就是各種云服務(wù)和AI能力均以服務(wù)化方式對外提供,做到隨時(shí)隨地、按需獲齲

這也與華為云近年來提出的“一切皆服務(wù)”的理念一脈相承。

第三層的交互層很好理解,就是虛實(shí)融合世界的窗口。但要做到虛實(shí)結(jié)合、看得清晰、交互自然和戴得舒服四種基礎(chǔ)體檢,才能讓普通人愿意去看、去了解元宇宙。

需要注意的是,這里的交互不僅只是從2D走向3D,還有從間接交互走向直接感知交互。

同時(shí)在這層,除了更先進(jìn)的硬件設(shè)備,AI技術(shù)同樣也可以輔助提升我們的體驗(yàn)。

比如目前業(yè)界的動(dòng)畫或影視制作公司的動(dòng)作輔助重建等技術(shù),如果能把門檻降低到大眾化,就可以很好的彌補(bǔ)設(shè)備的上不足。

最后一個(gè)應(yīng)用層則將通過開放合作,打造如自動(dòng)駕駛仿真訓(xùn)練、智能工廠仿真優(yōu)化、智能城市孿生等應(yīng)用,徹底重構(gòu)數(shù)字世界的價(jià)值和體驗(yàn)。

元宇宙應(yīng)為民生和社會(huì)服務(wù)

說到應(yīng)用,田奇強(qiáng)調(diào),未來元宇宙的應(yīng)用行業(yè)和場景并不能局限于游戲和娛樂,還應(yīng)該在更廣泛的領(lǐng)域?yàn)槿祟惷裆蜕鐣?huì)服務(wù)。

比如教育和醫(yī)療。

在教育方面,田奇認(rèn)為我們最關(guān)心的兩點(diǎn)其實(shí)是教育質(zhì)量和覆蓋范圍。

而元宇宙恰恰最能從這兩點(diǎn)進(jìn)行賦能:

既能拓展教育的表現(xiàn)力,營造沉浸感很強(qiáng)的親身體驗(yàn),提升教育質(zhì)量;又因?yàn)橛袛?shù)字人和虛擬世界的加持,具備很強(qiáng)的可復(fù)制性,因此就能覆蓋更廣大的人群,從而改善教育資源的不平等問題,甚至引起人類教育方式的變革。

醫(yī)療方面,由于全球范圍內(nèi)都存在嚴(yán)重的醫(yī)療資源不平等問題,我們就可以利用元宇宙技術(shù)進(jìn)行虛擬線上問診和智能分診,讓患者與醫(yī)生的虛擬化身進(jìn)行面對面的溝通,進(jìn)行多角度的細(xì)致觀察。

這樣既能提升患者的就醫(yī)體驗(yàn),也能緩解醫(yī)療資源的緊張與不均衡,讓欠發(fā)達(dá)地區(qū)也能享受最為優(yōu)質(zhì)的醫(yī)療資源。

因此,田奇認(rèn)為擁有技術(shù)能力的科技公司,應(yīng)在推動(dòng)元宇宙建設(shè)過程中具有超越經(jīng)濟(jì)利益的人文關(guān)懷意識(shí)和社會(huì)擔(dān)當(dāng)。

除了上面提到的這些,還有很多行業(yè)或場景都可以“塞”進(jìn)元宇宙,甚至可以說是“萬物皆可元宇宙”。

再比如從經(jīng)濟(jì)效益來看,田奇認(rèn)為廣告行業(yè)可能會(huì)有巨大顛覆。

他解釋道,相比傳統(tǒng)的廣告在固定場景進(jìn)行的無差別展示,以及在手機(jī)等設(shè)備上進(jìn)行的個(gè)性化推薦,元宇宙里的廣告將會(huì)“更進(jìn)一步”。

一是屏幕的變化,借助近眼顯示等設(shè)備,數(shù)字信息和廣告將會(huì)呈現(xiàn)在任何地方,比如天空、建筑,甚至路人的衣服……

二是在元宇宙中數(shù)字信息將會(huì)做到更加“千人千面”,每個(gè)人看到的東西都會(huì)不一樣。

更重要的是,獲取這些信息的方式也將由“給我看什么”變成“我想看什么”,個(gè)人在信息的獲取方面將更加具有主動(dòng)性。

元宇宙如何防沉迷?

元宇宙作為新鮮事物,能高度滿足我們在現(xiàn)實(shí)中感受不到的體驗(yàn),但其誕生也可能會(huì)帶來一些問題,如用戶沉迷、知識(shí)產(chǎn)權(quán)、隱私安全等。對此,田奇認(rèn)為:

在元宇宙建設(shè)過程中光有計(jì)算機(jī)科學(xué)家和工程師的參與勢必是遠(yuǎn)遠(yuǎn)不夠的,還需要政府機(jī)構(gòu)、社會(huì)學(xué)家、經(jīng)濟(jì)學(xué)家、倫理學(xué)家、法學(xué)家等各種角色的參與。

比如當(dāng)我們面對用戶沉迷問題時(shí),各界專家學(xué)者就可以從技術(shù)和法規(guī)兩個(gè)層面來進(jìn)行解決:

在技術(shù)層面,完善防沉迷系統(tǒng)設(shè)置;在法規(guī)層面,聯(lián)合游戲開發(fā)商、游戲運(yùn)營商、設(shè)備商和社會(huì)組織等共同推進(jìn)防沉迷系統(tǒng)建設(shè)。

再比如,在元宇宙中需要對創(chuàng)作者的知識(shí)產(chǎn)權(quán)進(jìn)行保護(hù),而這也需要監(jiān)管部門進(jìn)行配合。

此外,田奇表示,未來的元宇宙很可能是去中心化的,在平臺(tái)中,如何保證內(nèi)容受到道德和法律的約束,不冒犯自然人的權(quán)利和價(jià)值觀,不對性別、種族、地域、民族、年齡、收入、宗教等因素產(chǎn)生偏見……都是非常重要的課題。

“我們需要預(yù)先設(shè)想風(fēng)險(xiǎn)點(diǎn),然后制定監(jiān)管標(biāo)準(zhǔn)和措施。”田奇總結(jié)道。

至于“去中心化”是不是一個(gè)好的做法,他認(rèn)為,可以再探討,但還是監(jiān)管和引導(dǎo)最重要。

田奇:共同合作才能創(chuàng)造元宇宙的未來

田奇2018年加入華為,后加入華為云,擔(dān)任華為云人工智能領(lǐng)域首席科學(xué)家。

在20多年的研究生涯中,田奇博士始終專注于圖像內(nèi)容理解這一計(jì)算機(jī)視覺領(lǐng)域的核心問題,并先后在大規(guī)模圖像檢索、行人重識(shí)別、自動(dòng)化機(jī)器學(xué)習(xí),預(yù)訓(xùn)練大模型等方面做出了一系列具有深遠(yuǎn)影響的研究工作。

基于田奇在學(xué)界和產(chǎn)業(yè)界的長期積累,同時(shí)由于其主導(dǎo)開發(fā)的盤古預(yù)訓(xùn)練大模型在中國人工智能技術(shù)創(chuàng)新及應(yīng)用領(lǐng)域具有較大影響力,2021年,他被授予“吳文俊人工智能杰出貢獻(xiàn)獎(jiǎng)”。

如今,對于元宇宙這個(gè)有人看好有人唱衰的概念,他認(rèn)為:

對技術(shù)的看法存在爭議非常正常,而總的來說,我看好元宇宙的長遠(yuǎn)發(fā)展。

究其原因,他表示,互聯(lián)網(wǎng)發(fā)展至今,就是一個(gè)越來越數(shù)字化的過程。

也就是說,元宇宙并非突然“石頭縫里突然冒出”的一個(gè)概念,而是技術(shù)發(fā)展的必然過程。

而AI技術(shù)和元宇宙之間的關(guān)系,是相輔相成,互相促進(jìn)的,AI技術(shù)在帶動(dòng)元宇宙建設(shè)的同時(shí),也必將極大地促進(jìn)自身的快速發(fā)展。

最后,對于未來元宇宙的建設(shè)問題,田奇表示:

由于涉及的概念實(shí)在太廣,最重要的就是根據(jù)華為云自身開發(fā)團(tuán)隊(duì)的能力,找到高價(jià)值的應(yīng)用場景,并與各地伙伴進(jìn)行各種形式的技術(shù)合作不僅僅是數(shù)字人,也包括元宇宙所需的各種基礎(chǔ)智慧能力。

大家發(fā)揮所長,優(yōu)勢互補(bǔ),才能共同創(chuàng)造數(shù)字世界的未來。


贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港