近期,阿里云人工智能平臺PAI的多篇論文在ACL2024上入眩論文成果是阿里云與阿里集團安全部、華南理工大學金連文教授團隊、華東師范大學何曉豐教授團隊共同研發(fā)。ACL(國際計算語言學年會)是人工智能自然語言處理領域的頂級國際會議,聚焦于自然語言處理技術在各個應用場景的學術研究。該會議曾推動了預訓練語言模型、文本挖掘、對話系統(tǒng)、機器翻譯等自然語言處理領域的核心創(chuàng)新,在學術和工業(yè)界都有巨大的影響力。此次入選標志著阿里云人工智能平臺PAI在自然語言處理和多模態(tài)算法、算法框架能力方面研究獲得了學術界認可。
論文簡述
PAI-Diffusion中文開源文圖生成模型系列及云上推理服務
在過去幾年中,Stable Diffusion類文圖生成模型在AIGC領域嶄露頭角。阿里云人工智能PAI團隊參考了Stable Diffusion的模型結構,結合中文語言的特點,通過對中文預訓練數(shù)據(jù)的處理和過濾,以及訓練過程的優(yōu)化,提出了PAI-Diffusion系列中文文圖生成模型,實現(xiàn)了圖像生成質量的大幅提升和風格多樣化。在這一工作中,PAI-Diffusion系列一共12個中文模型(包括基礎模型、LoRA、ControlNet等)全部開源,與開發(fā)者一起共同推動AI生成內容技術的發(fā)展,創(chuàng)造出更有創(chuàng)意和影響力的作品。這一工作還包括了兩個PAI-Diffusion模型的推理工具。其中,Chinese SD WebUI是Stable Diffusion WebUI的插件,用于零代碼的方式生成用戶所需的圖像;Diffusers-API通過API調用的方式,支持支持中文模型的在線部署。詳細工作介紹參見論文和技術博客。上述工作也將在ACL 2024會議上進行展示。
面向Stable Station的交互式多輪Prompt生成模型DiffChat
基于擴散模型的文圖生成模型(例如Stable Diffusion)的效果有時會受到輸入文本即提示詞撰寫的影響。當用戶對創(chuàng)作的圖像有特定需求或者希望執(zhí)行特定的內容修改時,通常需要進行反復多次的提示詞修改,且每次嘗試的結果都是不可預期的。 這造成了不可忽略的時間和計算資源的耗費。基于這一問題,我們提出了DiffChat,這是一個文到文的多輪生成模型,可以根據(jù)用戶的需求指令對原始提示詞進行適當?shù)男薷,得到新的提示詞來使得文到圖生成模型能夠生成更美觀且符合指令的圖像。整個過程做到了用戶和文圖生成模型的迭代交互,最終完成用戶的創(chuàng)作需求。
該方法首先通過提示詞美化和提示詞工程的方法建立了一個和該任務高度相關的數(shù)據(jù)集。 然后,在執(zhí)行有監(jiān)督微調訓練后,為了進一步提升模型性能,該方法提出了一種帶有美學、人類偏好和內容完整度反饋的強化學習技術來進一步優(yōu)化模型。同時,該方法還提出了動作空間動態(tài)修正和基于內容完整度的狀態(tài)價值估計兩項技術進行額外改進。實驗結果表明,該方法顯著優(yōu)于一些具有競爭力的同類方法。
長尾知識對檢索增強大語言模型的作用
檢索增強生成(retrieval-augmented generation,RAG)通過檢索與用戶查詢相關的文檔,在提升大型語言模型(large language models,LLM)的知識能力方面表現(xiàn)出優(yōu)異的性能。然而,RAG只關注通過不加區(qū)分地使用檢索到的信息增強查詢來提高LLM的響應質量,很少關注LLM真正需要什么類型的知識來更準確地回答原始查詢。在本文中,我們認為長尾知識對RAG是至關重要的,因為LLM在大規(guī)模的預訓練的時候已經記住了通用高頻的世界知識。在此基礎上,提出了一種簡單有效的長尾知識檢測方法。具體地說,本文提出了一種新的基于統(tǒng)計和語義的生成性期望校準誤差(GECE)度量方法來度量知識的“長尾性”。因此,只有當輸入查詢涉及長尾知識時,我們才檢索相關文檔并將其注入到大模型中。實驗結果表明,與現(xiàn)有的RAG方法相比,該方法在平均推理時間上實現(xiàn)了4倍以上的加速,在下游任務上性能得到了一致的提高。
具體來說,pred和ref分別表示生成的文本和模型任務的標準結果。M(pred, ref)是模型對應的METEOR score度量結果。平均token概率中的P(ti)表示由LLM產生的第i個token的概率,n是token序列長度。對于分母部分,α是平均詞頻。我們可以看到,長尾實例的α值較小,因此其倒數(shù)將較大。另外,ins是當前實例的梯度,E(ins)是整個數(shù)據(jù)集的平均梯度。為了獲得梯度,我們僅通過使用數(shù)據(jù)集微調LLM來運行前向和后向梯度傳遞。我們可以看到,與數(shù)據(jù)集的平均得分相比,長尾實例具有更小的梯度ins,從而獲得更小的點積E(ins)ins。
面向大語言模型的知識編輯算法DAFNet
近年來,大型語言模型(LLM)雖然取得了令人印象深刻的研究成果,但仍存在幻覺現(xiàn)象,即產生虛假信息。模型編輯是修復LLMs中事實錯誤的任務;然而,以往的工作大多將其視為一次性編輯任務,很少關注LLM產生的不斷出現(xiàn)的錯誤。我們解決了順序模型編輯(SME)的任務,旨在不斷糾正錯誤。設計了一種動態(tài)輔助融合網絡(DAFNet),以增強整個序列中事實知識之間的語義交互,防止多知識三元組編輯過程中的災難性遺忘。
具體來說,(1) 對于關系三元組內的語義融合,我們在LLMs中將編輯內的注意流聚合為具有標記級粒度的自回歸自注意力。我們進一步利用多層對角互編輯注意力流更新整個序列級粒度的加權表示。(2) 考慮到序列編輯需要輔助參數(shù)來存儲知識,我們構造了一個新的數(shù)據(jù)集DAFSet,實現(xiàn)了最近性、流行性、長尾性和魯棒性,增強了序列編輯的通用性。實驗結果表明,DAFNet在單輪編輯和順序編輯中均顯著優(yōu)于強基線。DAFSet的使用還不斷提高了其他基于輔助網絡的方法在各種場景中的性能。
產品化服務
上述科研成果也在人工智能平臺PAI的各個模塊進行了深度的集成和整合,持續(xù)為PAI客戶提供AI模型訓練和推理相關服務。其中,Chinese SD WebUI作為Stable Diffusion WebUI的插件與PAI-EAS無縫兼容,支持5分鐘內一鍵在PAI-EAS拉起中文AIGC應用。Diffusers-API與PAI-EAS進行融合,使客戶更加容易在云上部署各類文圖生成大模型,用于生產環(huán)境的實時調用。此外,PAI-QuickStart集成了超過50個熱門大語言模型,及其多種訓練和推理方式,使客戶更加簡單地微調和部署大語言模型。在未來,我們也將在PAI平臺上持續(xù)提供業(yè)界領先的算法和模型能力給廣大客戶。
論文匯總
論文名字:PAI-Diffusion: Constructing and Serving a Family of Open Chinese Diffusion Models for Text-to-image Synthesis on the Cloud
論文作者:汪誠愚、段忠杰、劉冰雁、鄒心怡、陳岑、賈奎、黃俊
論文pdf鏈接:https://arxiv.org/abs/2309.05534
論文名字:DiffChat: Learning to Chat with Text-to-Image Synthesis Models for Interactive Image Creation
論文作者:汪嘉鵬、汪誠愚、曹庭鋒、黃竣金連文
論文pdf鏈接:https://arxiv.org/abs/2403.04997
論文名字:On the Role of Long-tail Knowledge in Retrieval Augmented Large Language Models
論文作者:李東陽、嚴俊冰、張濤林、汪誠愚、何曉豐、黃龍濤、薛暉、黃俊
論文pdf鏈接:https://arxiv.org/pdf/2406.16367
論文名字:DAFNet: Dynamic Auxiliary Fusion for Sequential Model Editing in Large Language Models
論文作者:張濤林、陳頎周、李東陽、汪誠愚、何曉豐、黃龍濤、薛暉、黃俊
論文pdf鏈接:https://arxiv.org/abs/2405.20588
阿里云人工智能平臺PAI長期招聘研究實習生。團隊專注于深度學習算法研究與應用,重點聚焦大語言模型和多模態(tài)AIGC大模型的應用算法研究和應用。