展會(huì)信息港展會(huì)大全

【ACL2024】阿里云人工智能平臺(tái)PAI多篇論文入選ACL2024
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-08-12 15:08:08   瀏覽:5749次  

導(dǎo)讀:近期,阿里云人工智能平臺(tái)PAI的多篇論文在ACL2024上入...

近期,阿里云人工智能平臺(tái)PAI的多篇論文在ACL2024上入眩論文成果是阿里云與阿里集團(tuán)安全部、華南理工大學(xué)金連文教授團(tuán)隊(duì)、華東師范大學(xué)何曉豐教授團(tuán)隊(duì)共同研發(fā)。ACL(國(guó)際計(jì)算語(yǔ)言學(xué)年會(huì))是人工智能自然語(yǔ)言處理領(lǐng)域的頂級(jí)國(guó)際會(huì)議,聚焦于自然語(yǔ)言處理技術(shù)在各個(gè)應(yīng)用場(chǎng)景的學(xué)術(shù)研究。該會(huì)議曾推動(dòng)了預(yù)訓(xùn)練語(yǔ)言模型、文本挖掘、對(duì)話系統(tǒng)、機(jī)器翻譯等自然語(yǔ)言處理領(lǐng)域的核心創(chuàng)新,在學(xué)術(shù)和工業(yè)界都有巨大的影響力。此次入選標(biāo)志著阿里云人工智能平臺(tái)PAI在自然語(yǔ)言處理和多模態(tài)算法、算法框架能力方面研究獲得了學(xué)術(shù)界認(rèn)可。

論文簡(jiǎn)述

PAI-Diffusion中文開(kāi)源文圖生成模型系列及云上推理服務(wù)

在過(guò)去幾年中,Stable Diffusion類文圖生成模型在AIGC領(lǐng)域嶄露頭角。阿里云人工智能PAI團(tuán)隊(duì)參考了Stable Diffusion的模型結(jié)構(gòu),結(jié)合中文語(yǔ)言的特點(diǎn),通過(guò)對(duì)中文預(yù)訓(xùn)練數(shù)據(jù)的處理和過(guò)濾,以及訓(xùn)練過(guò)程的優(yōu)化,提出了PAI-Diffusion系列中文文圖生成模型,實(shí)現(xiàn)了圖像生成質(zhì)量的大幅提升和風(fēng)格多樣化。在這一工作中,PAI-Diffusion系列一共12個(gè)中文模型(包括基礎(chǔ)模型、LoRA、ControlNet等)全部開(kāi)源,與開(kāi)發(fā)者一起共同推動(dòng)AI生成內(nèi)容技術(shù)的發(fā)展,創(chuàng)造出更有創(chuàng)意和影響力的作品。這一工作還包括了兩個(gè)PAI-Diffusion模型的推理工具。其中,Chinese SD WebUI是Stable Diffusion WebUI的插件,用于零代碼的方式生成用戶所需的圖像;Diffusers-API通過(guò)API調(diào)用的方式,支持支持中文模型的在線部署。詳細(xì)工作介紹參見(jiàn)論文和技術(shù)博客。上述工作也將在ACL 2024會(huì)議上進(jìn)行展示。

面向Stable Station的交互式多輪Prompt生成模型DiffChat

基于擴(kuò)散模型的文圖生成模型(例如Stable Diffusion)的效果有時(shí)會(huì)受到輸入文本即提示詞撰寫(xiě)的影響。當(dāng)用戶對(duì)創(chuàng)作的圖像有特定需求或者希望執(zhí)行特定的內(nèi)容修改時(shí),通常需要進(jìn)行反復(fù)多次的提示詞修改,且每次嘗試的結(jié)果都是不可預(yù)期的。 這造成了不可忽略的時(shí)間和計(jì)算資源的耗費(fèi)。基于這一問(wèn)題,我們提出了DiffChat,這是一個(gè)文到文的多輪生成模型,可以根據(jù)用戶的需求指令對(duì)原始提示詞進(jìn)行適當(dāng)?shù)男薷,得到新的提示詞來(lái)使得文到圖生成模型能夠生成更美觀且符合指令的圖像。整個(gè)過(guò)程做到了用戶和文圖生成模型的迭代交互,最終完成用戶的創(chuàng)作需求。

該方法首先通過(guò)提示詞美化和提示詞工程的方法建立了一個(gè)和該任務(wù)高度相關(guān)的數(shù)據(jù)集。 然后,在執(zhí)行有監(jiān)督微調(diào)訓(xùn)練后,為了進(jìn)一步提升模型性能,該方法提出了一種帶有美學(xué)、人類偏好和內(nèi)容完整度反饋的強(qiáng)化學(xué)習(xí)技術(shù)來(lái)進(jìn)一步優(yōu)化模型。同時(shí),該方法還提出了動(dòng)作空間動(dòng)態(tài)修正和基于內(nèi)容完整度的狀態(tài)價(jià)值估計(jì)兩項(xiàng)技術(shù)進(jìn)行額外改進(jìn)。實(shí)驗(yàn)結(jié)果表明,該方法顯著優(yōu)于一些具有競(jìng)爭(zhēng)力的同類方法。

長(zhǎng)尾知識(shí)對(duì)檢索增強(qiáng)大語(yǔ)言模型的作用

檢索增強(qiáng)生成(retrieval-augmented generation,RAG)通過(guò)檢索與用戶查詢相關(guān)的文檔,在提升大型語(yǔ)言模型(large language models,LLM)的知識(shí)能力方面表現(xiàn)出優(yōu)異的性能。然而,RAG只關(guān)注通過(guò)不加區(qū)分地使用檢索到的信息增強(qiáng)查詢來(lái)提高LLM的響應(yīng)質(zhì)量,很少關(guān)注LLM真正需要什么類型的知識(shí)來(lái)更準(zhǔn)確地回答原始查詢。在本文中,我們認(rèn)為長(zhǎng)尾知識(shí)對(duì)RAG是至關(guān)重要的,因?yàn)長(zhǎng)LM在大規(guī)模的預(yù)訓(xùn)練的時(shí)候已經(jīng)記住了通用高頻的世界知識(shí)。在此基礎(chǔ)上,提出了一種簡(jiǎn)單有效的長(zhǎng)尾知識(shí)檢測(cè)方法。具體地說(shuō),本文提出了一種新的基于統(tǒng)計(jì)和語(yǔ)義的生成性期望校準(zhǔn)誤差(GECE)度量方法來(lái)度量知識(shí)的“長(zhǎng)尾性”。因此,只有當(dāng)輸入查詢涉及長(zhǎng)尾知識(shí)時(shí),我們才檢索相關(guān)文檔并將其注入到大模型中。實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有的RAG方法相比,該方法在平均推理時(shí)間上實(shí)現(xiàn)了4倍以上的加速,在下游任務(wù)上性能得到了一致的提高。

具體來(lái)說(shuō),pred和ref分別表示生成的文本和模型任務(wù)的標(biāo)準(zhǔn)結(jié)果。M(pred, ref)是模型對(duì)應(yīng)的METEOR score度量結(jié)果。平均token概率中的P(ti)表示由LLM產(chǎn)生的第i個(gè)token的概率,n是token序列長(zhǎng)度。對(duì)于分母部分,α是平均詞頻。我們可以看到,長(zhǎng)尾實(shí)例的α值較小,因此其倒數(shù)將較大。另外,ins是當(dāng)前實(shí)例的梯度,E(ins)是整個(gè)數(shù)據(jù)集的平均梯度。為了獲得梯度,我們僅通過(guò)使用數(shù)據(jù)集微調(diào)LLM來(lái)運(yùn)行前向和后向梯度傳遞。我們可以看到,與數(shù)據(jù)集的平均得分相比,長(zhǎng)尾實(shí)例具有更小的梯度ins,從而獲得更小的點(diǎn)積E(ins)ins。

面向大語(yǔ)言模型的知識(shí)編輯算法DAFNet

近年來(lái),大型語(yǔ)言模型(LLM)雖然取得了令人印象深刻的研究成果,但仍存在幻覺(jué)現(xiàn)象,即產(chǎn)生虛假信息。模型編輯是修復(fù)LLMs中事實(shí)錯(cuò)誤的任務(wù);然而,以往的工作大多將其視為一次性編輯任務(wù),很少關(guān)注LLM產(chǎn)生的不斷出現(xiàn)的錯(cuò)誤。我們解決了順序模型編輯(SME)的任務(wù),旨在不斷糾正錯(cuò)誤。設(shè)計(jì)了一種動(dòng)態(tài)輔助融合網(wǎng)絡(luò)(DAFNet),以增強(qiáng)整個(gè)序列中事實(shí)知識(shí)之間的語(yǔ)義交互,防止多知識(shí)三元組編輯過(guò)程中的災(zāi)難性遺忘。

具體來(lái)說(shuō),(1) 對(duì)于關(guān)系三元組內(nèi)的語(yǔ)義融合,我們?cè)贚LMs中將編輯內(nèi)的注意流聚合為具有標(biāo)記級(jí)粒度的自回歸自注意力。我們進(jìn)一步利用多層對(duì)角互編輯注意力流更新整個(gè)序列級(jí)粒度的加權(quán)表示。(2) 考慮到序列編輯需要輔助參數(shù)來(lái)存儲(chǔ)知識(shí),我們構(gòu)造了一個(gè)新的數(shù)據(jù)集DAFSet,實(shí)現(xiàn)了最近性、流行性、長(zhǎng)尾性和魯棒性,增強(qiáng)了序列編輯的通用性。實(shí)驗(yàn)結(jié)果表明,DAFNet在單輪編輯和順序編輯中均顯著優(yōu)于強(qiáng)基線。DAFSet的使用還不斷提高了其他基于輔助網(wǎng)絡(luò)的方法在各種場(chǎng)景中的性能。

產(chǎn)品化服務(wù)

上述科研成果也在人工智能平臺(tái)PAI的各個(gè)模塊進(jìn)行了深度的集成和整合,持續(xù)為PAI客戶提供AI模型訓(xùn)練和推理相關(guān)服務(wù)。其中,Chinese SD WebUI作為Stable Diffusion WebUI的插件與PAI-EAS無(wú)縫兼容,支持5分鐘內(nèi)一鍵在PAI-EAS拉起中文AIGC應(yīng)用。Diffusers-API與PAI-EAS進(jìn)行融合,使客戶更加容易在云上部署各類文圖生成大模型,用于生產(chǎn)環(huán)境的實(shí)時(shí)調(diào)用。此外,PAI-QuickStart集成了超過(guò)50個(gè)熱門大語(yǔ)言模型,及其多種訓(xùn)練和推理方式,使客戶更加簡(jiǎn)單地微調(diào)和部署大語(yǔ)言模型。在未來(lái),我們也將在PAI平臺(tái)上持續(xù)提供業(yè)界領(lǐng)先的算法和模型能力給廣大客戶。

論文匯總

論文名字:PAI-Diffusion: Constructing and Serving a Family of Open Chinese Diffusion Models for Text-to-image Synthesis on the Cloud

論文作者:汪誠(chéng)愚、段忠杰、劉冰雁、鄒心怡、陳岑、賈奎、黃俊

論文pdf鏈接:https://arxiv.org/abs/2309.05534

論文名字:DiffChat: Learning to Chat with Text-to-Image Synthesis Models for Interactive Image Creation

論文作者:汪嘉鵬、汪誠(chéng)愚、曹庭鋒、黃竣金連文

論文pdf鏈接:https://arxiv.org/abs/2403.04997

論文名字:On the Role of Long-tail Knowledge in Retrieval Augmented Large Language Models

論文作者:李東陽(yáng)、嚴(yán)俊冰、張濤林、汪誠(chéng)愚、何曉豐、黃龍濤、薛暉、黃俊

論文pdf鏈接:https://arxiv.org/pdf/2406.16367

論文名字:DAFNet: Dynamic Auxiliary Fusion for Sequential Model Editing in Large Language Models

論文作者:張濤林、陳頎周、李東陽(yáng)、汪誠(chéng)愚、何曉豐、黃龍濤、薛暉、黃俊

論文pdf鏈接:https://arxiv.org/abs/2405.20588

阿里云人工智能平臺(tái)PAI長(zhǎng)期招聘研究實(shí)習(xí)生。團(tuán)隊(duì)專注于深度學(xué)習(xí)算法研究與應(yīng)用,重點(diǎn)聚焦大語(yǔ)言模型和多模態(tài)AIGC大模型的應(yīng)用算法研究和應(yīng)用。

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港