隨著大模型的落地按下加速鍵,文生圖無(wú)疑是最火熱的應(yīng)用方向之一。
自從 Stable Diffusion 誕生以來(lái),海內(nèi)外的文生圖大模型層出不窮,一時(shí)有「神仙打架」之感。短短幾個(gè)月,「最強(qiáng) AI 畫師」的稱號(hào)幾次易主。每一次技術(shù)迭代,都不斷刷新著AI圖像生成質(zhì)量和速度的上限。
于是現(xiàn)在,我們輸入幾個(gè)文字就能得到任何想要的畫面。無(wú)論是專業(yè)級(jí)別的商業(yè)海報(bào),還是超寫實(shí)畫風(fēng)的寫真照片,AI 制圖的逼真程度已經(jīng)讓我們嘆為觀止。甚至 AI 贏下了 2023 年度的索尼世界攝影獎(jiǎng)。在大獎(jiǎng)公布之前,這幅「照片」已經(jīng)在倫敦薩默賽特宮進(jìn)行展覽如果作者不公開(kāi)說(shuō)明,可能沒(méi)有人會(huì)發(fā)現(xiàn)這張照片實(shí)際出自 AI 之手。
Eldagse和他的AI生成作品《電工》
如何讓 AI 畫出來(lái)的圖片更具美感,這離不開(kāi) AI 技術(shù)人員持之以恒的付出。第六期的《AIGC體驗(yàn)派》就邀請(qǐng)到了豆包文生圖技術(shù)專家李亮、NVIDIA 解決方案架構(gòu)師趙一嘉,為我們深入剖析了文生圖模型出圖更美、更快、更懂用戶心意背后的技術(shù)鏈路。
直播開(kāi)始,李亮首先詳細(xì)拆解了近期國(guó)產(chǎn)大模型「頂流」 字節(jié)跳動(dòng)豆包大模型在文生圖模型方面的技術(shù)升級(jí)。
李亮表示,豆包團(tuán)隊(duì)想解決的問(wèn)題主要包含三個(gè)方面:一是如何實(shí)現(xiàn)更強(qiáng)的圖文匹配來(lái)滿足用戶的想法設(shè)計(jì);第二個(gè)是如何生成更具美感的圖像來(lái)提供更極致的用戶體驗(yàn);第三個(gè)是如何更快速地出圖來(lái)滿足超大規(guī)模的服務(wù)調(diào)用。
在圖文匹配方面,豆包團(tuán)隊(duì)從數(shù)據(jù)入手,對(duì)海量圖文數(shù)據(jù)做精細(xì)化篩選和過(guò)濾,最終入庫(kù)了千億量級(jí)的高質(zhì)量圖像。此外,團(tuán)隊(duì)還專門訓(xùn)練了一個(gè)多模態(tài)大語(yǔ)言模型進(jìn)行 recapiton 任務(wù)。這個(gè)模型將更加全面、客觀地描述圖片中圖像的物理關(guān)系。
有了高質(zhì)量高細(xì)節(jié)的圖文對(duì)數(shù)據(jù)之后,想要更好地發(fā)揮出模型的實(shí)力,還需要提升文本理解模塊的能力。團(tuán)隊(duì)采用原生雙語(yǔ)大語(yǔ)言模型作為文本編碼器,顯著提升了模型理解中文的能力,因此,面對(duì)「唐代」、「元宵節(jié)」等國(guó)風(fēng)元素,豆包·文生圖模型也展現(xiàn)出了更加深刻的理解力。
對(duì)于 Diffsuion 模型架構(gòu),豆包團(tuán)隊(duì)也注入了獨(dú)門秘籍,他們 UNet 進(jìn)行了有效地scaling,通過(guò)增加參數(shù)量,豆包·文生圖模型進(jìn)一步地提升了圖像文本對(duì)的理解和高保真的生成能力。
針對(duì)用戶直觀感受最明顯的美學(xué)風(fēng)格,豆包團(tuán)隊(duì)引入了專業(yè)的美學(xué)指導(dǎo),也時(shí)刻關(guān)注用戶和大眾審美的偏好。與此同時(shí),團(tuán)隊(duì)也在數(shù)據(jù)和模型架構(gòu)上下了一番功夫。很多時(shí)候,用戶得到的圖像和 demo 展示的效果對(duì)比好比「買家秀」和「賣家秀」,實(shí)際上是給出的 prompt 對(duì)于模型來(lái)說(shuō)不夠詳細(xì)和明確,而豆包文生圖模型引入了一個(gè)「Rephraser」,在遵循用戶原始意圖的同時(shí),為提示詞增加更多的細(xì)節(jié)描述,所有用戶也將因此體驗(yàn)到更完美的生成效果。
為了讓模型出圖速度更快,每張圖消耗的成本更低,豆包團(tuán)隊(duì)在模型的蒸餾方式上也給出了新的解題思路,一項(xiàng)代表性的成果是 Hyber-SD,這是一種新穎的擴(kuò)散模型蒸餾框架,在壓縮去噪步數(shù)的同時(shí)可保持接近無(wú)損的性能。
接下來(lái),英偉達(dá)解決方案架構(gòu)師趙一嘉從底層技術(shù)出發(fā),講解了文生圖最主流的基于Unet的SD和DIT兩種模型架構(gòu)及其相應(yīng)的特性,并介紹了英偉達(dá)的Tensorrt, Tensorrt-LLM, Triton, Nemo Megatron 等工具如何為部署模型提供支持,助力大模型更加高效地推理。
趙一嘉首先分享了 Stable Diffusion 背后模型的原理詳解,細(xì)致地闡述了 Clip、VAE 和 Unet 等關(guān)鍵組件的工作原理。隨著 Sora 爆火,也帶火了背后的 DiT(擴(kuò)散 Transformer)架構(gòu)。趙一嘉進(jìn)一步從模型結(jié)構(gòu)、特性和算力消耗三方面,從模型結(jié)構(gòu)、特性和資源消耗三個(gè)方面,對(duì) SD 和 DiT 的優(yōu)勢(shì)進(jìn)行了全面的比較。
使用 Stable diffusion 生成圖像時(shí),往往會(huì)感覺(jué)提示詞內(nèi)容在生成結(jié)果中都得到了呈現(xiàn),但圖不是自己想要的,這是因?yàn)榛谖淖殖鰣D的 Stable diffusion 并不擅長(zhǎng)控制圖像的細(xì)節(jié),例如構(gòu)圖、動(dòng)作、面部特征、空間關(guān)系等。因此,基于Stable diffusion 的工作原理,研究人員們?cè)O(shè)計(jì)了許多控制模塊,彌補(bǔ) Stable diffusion 的短板。趙一嘉補(bǔ)充了其中具有代表性的 IP-adapter 和 ControlNet。
想要加快吃算力的文生圖模型的推理速度,英偉達(dá)的技術(shù)支持發(fā)揮了關(guān)鍵作用。趙一嘉介紹了 Nvidia TensorRT 和 TensorRT-LLM 工具,這些工具通過(guò)高性能卷積、高效調(diào)度和分布式部署等技術(shù),優(yōu)化了圖文生成模型的推理過(guò)程。同時(shí),英偉達(dá)的 Ada、Hopper 以及即將推出的 BlackWell 硬件架構(gòu),都已支持 FP8 訓(xùn)練和推理,將為模型訓(xùn)練帶來(lái)更加絲滑的體驗(yàn)。
經(jīng)歷了六場(chǎng)精彩的直播,由火山引擎、NVIDIA 聯(lián)手機(jī)器之心和 CMO CLUB 共同推出的《AIGC體驗(yàn)派》迎來(lái)了圓滿收官。通過(guò)這六期節(jié)目,相信大家對(duì) AIGC 如何從「有趣」變?yōu)椤赣杏谩褂辛烁畹睦斫。我們也期待著《AIGC 體驗(yàn)派》不止停留在節(jié)目的討論中,并更能在實(shí)際中加速營(yíng)銷領(lǐng)域智能化升級(jí)的進(jìn)程。
《AIGC 體驗(yàn)派》全六期回顧地址:https://vtizr.xetlk.com/s/7CjTy