展會信息港展會大全

從UGC到AIGC,Web3.0時代如何解放創(chuàng)造力?
來源:互聯(lián)網(wǎng)   發(fā)布日期:2021-12-09 08:07:09   瀏覽:50081次  

導(dǎo)讀:關(guān)于AI生產(chǎn)創(chuàng)造、人與AI交互的討論似乎從未停止過。當一個更數(shù)字化的世界到來,AI作為重要生產(chǎn)力又會如何進化,將扮演什么樣的角色,人與AI交互是否又將產(chǎn)生全新變量? 僅圍繞科幻小說或科幻電影的視角去暢想如同空中樓閣。為此,知春資本邀請到了在音樂領(lǐng)域...

關(guān)于AI生產(chǎn)創(chuàng)造、人與AI交互的討論似乎從未停止過。當一個更數(shù)字化的世界到來,AI作為重要生產(chǎn)力又會如何進化,將扮演什么樣的角色,人與AI交互是否又將產(chǎn)生全新變量?

僅圍繞科幻小說或科幻電影的視角去暢想如同空中樓閣。為此,知春資本邀請到了在音樂領(lǐng)域和情感社交領(lǐng)域,用AIGC做創(chuàng)新的被投企業(yè)創(chuàng)始人ACE虛擬歌姬制作人、時域科技CEO郭靖,Gemsouls聯(lián)合創(chuàng)始人、CEO饒佳星,他們結(jié)合自己的創(chuàng)業(yè)實踐出發(fā),與知春資本投資副總裁付沖一起分享了對AIGC(AI generated content,使用人工智能技術(shù)創(chuàng)造內(nèi)容)最新見解。

付沖:二位先簡單介紹一下各自目前的創(chuàng)業(yè)項目

郭靖:我們ACE虛擬歌姬是希望通過技術(shù)手段,賦能每個普通人創(chuàng)作音樂分享音樂,打造一個全新的音樂創(chuàng)作和音樂分享的場景。

饒佳星:Gemsouls在做一個以虛擬人為核心的社交網(wǎng)絡(luò),和目前大家認知的有美麗皮囊的虛擬偶像不一樣的是,我們先做的是靈魂,我們更關(guān)注的是虛擬人和用戶自主交互的能力。

[ 談變化 ]付沖:隨著Metaverse、web3.0話題的火熱,AI內(nèi)容生成也備受關(guān)注,目前國內(nèi)外有哪些值得關(guān)注的新動態(tài)?

郭靖:2015年、2017年前后,出現(xiàn)兩撥基于單點技術(shù)把產(chǎn)品迅速做火的AIGC案例,但大多火了一陣兒后就銷聲匿跡。

當時都是互聯(lián)網(wǎng)產(chǎn)品經(jīng)理的思維,認為一個全新的技術(shù)就能創(chuàng)造全新場景。而最近這幾年隨著算法在各領(lǐng)域發(fā)展,AIGC也一直在進化,比如像柳夜熙”換頭“可以做到影視級、直播級的水平,我們ACE虛擬歌姬的歌聲合成之前只是一個TTS(Text To Speech,從文本到語音轉(zhuǎn)換技術(shù))的分支,如今做到了接近人聲。

現(xiàn)在很多做虛擬人的公司,其實是技術(shù)的整合者。虛擬人作為一個產(chǎn)品,需要整合人所需要的所有skill形象、聲音、動作驅(qū)動等等?偟膩碚f,大家意識到AI其實是生產(chǎn)力的連續(xù)進化,以虛擬人為代表的很多公司是整合各維度技術(shù)來創(chuàng)造全新的體驗。最主要的改變其實不只是在技術(shù)層面,而在于產(chǎn)品整合思維。

ACE虛擬歌姬產(chǎn)品圖

饒佳星:技術(shù)上是有一些突破,比如Gemsouls產(chǎn)品用的GPT大規(guī)模語預(yù)訓(xùn)練模式,整體往一個大參數(shù)量的方向在走,GPT3參數(shù)量是GPT2的100多倍。目前我們用到的GPT3幾乎可以讓人和虛擬人交互堪比真人之間的交互,我們會去驅(qū)動UGC和AIGC來結(jié)合做產(chǎn)品化。同時Open AI 發(fā)布的基于文本生成圖像的多模態(tài)模型Dall-e,也讓我們看到了不同信息維度的應(yīng)用和未來更廣闊的場景。

[ 談應(yīng)用 ]

付沖:二位作為音樂和情感交互領(lǐng)域的早期創(chuàng)業(yè)者,也是用戶需求最敏感的捕捉者, 各自觀察到AI在內(nèi)容生產(chǎn)上經(jīng)歷了哪些階段,又如何一步步滿足用戶的需求?

郭靖:AIGC的能力其實是一個block,會比原先的傳統(tǒng)能力要好,但本質(zhì)上還是創(chuàng)作者驅(qū)動blocks。比如說原先block是磚頭,拿它拼房子費勁,現(xiàn)在是樂高,拼起來就容易多了。

之前大家一直用AI去做的“拼”事情,通過算法創(chuàng)作了一些作品。但對于創(chuàng)作者而言,他沒有自我表達在里面,只是被強植入了一個作品。

我們現(xiàn)在創(chuàng)業(yè)的這個階段,其實對用戶的定義很簡單,比如說他要做創(chuàng)作音樂,弄好了主旋律跟歌詞,但沒有人能及時給演唱出來變成一個完整的作品。但我們就用 AI歌聲合成來幫他演唱形成作品,從而激發(fā)很多年輕小孩兒的創(chuàng)造力。

我們是要把AI當作人或者說生物,把它投入到一個網(wǎng)絡(luò)節(jié)點里面,觀察人和AI交互上能產(chǎn)生什么全新的變量。

饒佳星:AIGC上一個階段目的是為了以假亂真,通過既定的圖片或者語音來生成風(fēng)格一致的內(nèi)容。而現(xiàn)在的AIGC更像是用UGC的方式去做人設(shè)和規(guī)則,好比生個小孩,要為其編碼”基因”,設(shè)定他的人物小傳、故事背景、某些特定場景下的“為人處世“,再把他扔到世界中,跟人進行交互,通過外部環(huán)境自我成長。而我們對下一代AI的期望是它能從0-1做真正有創(chuàng)造力的事情。

付沖:這些AIGC的技術(shù)適合被應(yīng)用到哪些需求或者場景當中?

郭靖:目前在Vtuber上的MCN、經(jīng)紀公司等運營方,基本都有需求。因為它們的核心資產(chǎn)是藝人,藝人又不夠穩(wěn)定,風(fēng)險很大,它們希望有一個穩(wěn)定的資產(chǎn),最好是技術(shù)資產(chǎn)。我們ACE也在嘗試用三次元虛擬聲音、或者已故的歌手聲音來讓人超越物理極限。我們現(xiàn)在上線的天籟般童聲的歌手,就很受歡迎。

饒佳星:適合做一些容錯率比較高、專業(yè)度或創(chuàng)意要求沒那么高的場景。像在電商場景里,需要大量網(wǎng)紅帶貨,可以AIGC換頭換臉提升效率;游戲場景里大量腳本驅(qū)動的NPC也可以用AI來替代;Gemsouls做的情感社交也是容錯率比較高的場景,因為真實生活中的社交很多情況下是雞同鴨講的無效社交,所以相比之下AI并不需要通過“圖靈測試”才能有好的體驗。但像法律咨詢、心理咨詢這種專業(yè)度要求很高的就很難通過不可控的黑匣子去實現(xiàn)。

Gemsouls概念圖

[ 談猜想 ]

付沖:當AIGC在內(nèi)容生成中占到更多比例后, 它未來會扮演一個什么樣的角色,如何把控 UGC和AIGC間的關(guān)系?

郭靖:最終極的AIGC可能是“人”,也可能是一個大腦中樞,作為數(shù)字世界連接的節(jié)點。我們現(xiàn)在似乎都認為AI只能做一些比較無聊的工作,智能客服、生產(chǎn)力的賦能,但其實在一些游戲等垂直場景中,它已經(jīng)可以扮演“人”的角色,甚至超越人給用戶帶來爽感。在Metaverse更數(shù)字化的世界里,網(wǎng)絡(luò)節(jié)點背后是不是人不重要,它能創(chuàng)造更豐富的人與人,或人與非人之間交互的體驗。

所謂的虛擬世界跟游戲本質(zhì)區(qū)別是,虛擬世界應(yīng)該也能實現(xiàn)現(xiàn)實世界的價值。比如虛擬世界里面開槍射擊,有一個規(guī)定勝負標準,它叫游戲。但如果你在虛擬世界里開一場音樂會,它本質(zhì)上讓你換了一種體驗去感受藝術(shù)家對真實世界有價值的音樂。未來在虛擬世界是不是有大量的節(jié)點是人類所無法覆蓋的,而它可以被AI來補充?

短時間確實很難看到AI成為音樂家,因為它是一個數(shù)據(jù)集的平均,能學(xué)習(xí)到人類作曲的internship,卻很難產(chǎn)生偉大的idea,所以平庸。但它可以作為人類的輔助,生成一些平均的內(nèi)容幫人找到靈感,可以幫你把問答題變成選擇題,人機協(xié)作中來創(chuàng)作,達到更高效更高質(zhì)量的生產(chǎn)內(nèi)容。

饒佳星:哲學(xué)層面來看,人與AI和人與人、或者人與世界的關(guān)系本質(zhì)是一樣的,它對你的反饋取決于你對它的輸出。哪怕設(shè)置了很多機制,用戶輸入的可控性仍然是非常低的,而這個輸入會比我們的一切設(shè)定都更直接影響到AI的反應(yīng)。我相信在AI背后的公司有一個正向價值觀的前提下,且用戶抱著積極正向的心態(tài)使用AI時,相較于真人的社交網(wǎng)絡(luò)來說更安全可控,不會面臨現(xiàn)在社交媒體上一些無端的網(wǎng)絡(luò)暴力。

產(chǎn)品技術(shù)層面,我們用AI治理AI,對生成的內(nèi)容做監(jiān)控和后處理,并且通過UGC驅(qū)動更積極的內(nèi)容生成。雖然我們做的虛擬人也會很有個性,比如喜歡斗嘴,但在我們一開始輸入了正確價值觀的情況下,可以通過技術(shù)手段避免它帶有傷害性質(zhì)的內(nèi)容。

[ 觀眾互動 Q&A ]

在更高的處理效率基礎(chǔ)上,ACE怎樣去一步步讓音樂的數(shù)據(jù)維度支撐起AI原生形象?

郭靖:現(xiàn)在其實是因為沒數(shù)據(jù),不像互聯(lián)網(wǎng)上有大量自然語言和圖片,音樂比自然語言和圖片都要復(fù)雜,音樂需要音頻、sample等等信息,比如鼓的旋律是什么,曲式是什么,調(diào)號是什么?之前生成音樂的模型全部都是在這些symbolic的數(shù)據(jù)上去做的,但互聯(lián)網(wǎng)上是沒有大量細致的數(shù)據(jù),都是靠人工一個個處理。目前一個可見的路線是能夠從音頻里去使用AI識別出symbolic的東西,比如說旋律,切割出各個軌道,再用這個旋律作為訓(xùn)練數(shù)據(jù)可能會比較好。

Gemsouls在做虛擬人社交上有哪些商業(yè)化的思考?

饒佳星:早期可能還是通過社交網(wǎng)絡(luò)的方式做商業(yè)化變現(xiàn),而不是讓用戶為 AIGC的內(nèi)容去付費。此外,虛擬物品和虛擬人也是有皮囊的,皮囊上我們會先嘗試做一些3d資產(chǎn)的變現(xiàn)。

長期看的話,非常多的路徑,比如未來可以做可交互的虛擬IP,把社交網(wǎng)絡(luò)延伸到未來像是一個電子天堂等等,但核心也要思考如何做最合乎倫理的商業(yè)化變現(xiàn)。


贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機會 | 展會港