當(dāng)?shù)貢r(shí)間12月10日,人工智能領(lǐng)域全球頂級(jí)學(xué)術(shù)會(huì)議 NeurIPS (Annual Conference on Neural Information Processing Systems) 在加拿大溫哥華正式召開(kāi)。官方數(shù)據(jù)顯示,NeurIPS 2024共收到超一萬(wàn)五千篇有效論文投稿,投稿量創(chuàng)新高,參會(huì)人數(shù)超萬(wàn)人規(guī)模。
阿里云 PAI 團(tuán)隊(duì)的論文《PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations》被 NeurIPS D&B Track 2024 收錄,并被列為 Spotlight,本年度 NeurIPS 的 Spotlight 論文錄取率僅為3%。論文通過(guò)對(duì)大語(yǔ)言模型真實(shí)知識(shí)能力的評(píng)估,揭示現(xiàn)有靜態(tài)評(píng)測(cè)集指標(biāo)的可信性問(wèn)題以及大語(yǔ)言模型知識(shí)掌握中的各種弱點(diǎn),并指導(dǎo)改進(jìn)的發(fā)展。
同時(shí),在本次會(huì)議中,PAI 團(tuán)隊(duì)為參會(huì)者帶來(lái)主題演講分享、AI 工程化平臺(tái)產(chǎn)品能力 Demo。演講分享的議題為“可信 AI 的技術(shù)解讀與最佳實(shí)踐”,深入研討在大語(yǔ)言模型廣泛應(yīng)用的當(dāng)下,如何保障使用 AI 全流程的安全、可靠和可信。
中選論文
論文《PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations》被 NeurIPS 2024 收錄,并入選 Spotlight。PertEval 是一款大型語(yǔ)言模型評(píng)估工具包,通過(guò)引入“知識(shí)不變擾動(dòng)”的創(chuàng)新概念,對(duì)靜態(tài)基準(zhǔn)(static benchmarks)進(jìn)行改寫,從而更準(zhǔn)確地揭示大型語(yǔ)言模型(LLMs)的真實(shí)知識(shí)能力。
革新評(píng)估方式,提升可信度
傳統(tǒng)上,評(píng)估 LLM 性能的方法依賴于靜態(tài)基準(zhǔn)測(cè)試,例如 MMLU 和 C-Eval 等,這些方法雖然廣泛使用,但存在明顯的局限性和數(shù)據(jù)污染風(fēng)險(xiǎn),導(dǎo)致對(duì)模型真實(shí)能力的認(rèn)知失真。PertEval 通過(guò)應(yīng)用知識(shí)不變擾動(dòng),確保了在不改變模型所識(shí)別和應(yīng)用的知識(shí)前提下,對(duì)原始評(píng)估問(wèn)題進(jìn)行修改。這種方法緩解了由于記憶效應(yīng)和數(shù)據(jù)污染造成的評(píng)估失真問(wèn)題,顯著提高評(píng)估結(jié)果可靠性。
揭示現(xiàn)有評(píng)估方法的不足
研究團(tuán)隊(duì)利用 PertEval 重新評(píng)估了六個(gè)代表性的 LLM,包括 GPT-4,并發(fā)現(xiàn)這些模型在MMLU 等靜態(tài)基準(zhǔn)上的表現(xiàn)被顯著高估,其中 GPT-4 的表現(xiàn)被絕對(duì)高估了26%。進(jìn)一步分析顯示,這種虛高的性能主要源自 LLM 面對(duì)不確定知識(shí)時(shí)表現(xiàn)出的猶豫不決,以及對(duì)正確答案的死記硬背現(xiàn)象。這表明當(dāng)前的評(píng)估方法可能無(wú)法充分反映 LLM 在實(shí)際應(yīng)用中的表現(xiàn)。
推動(dòng)行業(yè)進(jìn)步,指導(dǎo)未來(lái)研究
這項(xiàng)研究表明,為了更好地理解和改進(jìn) LLM 的能力,需要一種能夠體現(xiàn)其真實(shí)性能的評(píng)估方法。PertEval 提供了一種新的視角和工具,以幫助研究人員和開(kāi)發(fā)者更準(zhǔn)確地評(píng)估和優(yōu)化 LLM。后續(xù),計(jì)劃將 PertEval 整合到 PAI 平臺(tái)中,支持一鍵式開(kāi)啟任意模型(無(wú)論是 API、開(kāi)源還是微調(diào)后的模型)的真實(shí)能力評(píng)估。此外,還將通過(guò) leadboard 的方式向開(kāi)發(fā)者社區(qū)反饋主流 LLM 的“知識(shí)能力”度量,促進(jìn)整個(gè)行業(yè)的健康發(fā)展。
PertEval 的推出標(biāo)志著在提升 LLM 評(píng)估準(zhǔn)確性方面邁出的重要一步,為推動(dòng) AI 技術(shù)的進(jìn)步提供了有力的支持。隨著這一工具的廣泛應(yīng)用,我們期待看到更加可靠和公平的模型評(píng)估標(biāo)準(zhǔn),以及由此帶來(lái)的技術(shù)創(chuàng)新。
論文標(biāo)題:PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations
論文作者:Jiatong Li, Renjun Hu, Kunzhe Huang, Yan Zhuang, Qi Liu, Mengxiao Zhu, Xing Shi, Wei Lin
論文地址:https://arxiv.org/abs/2405.19740
演講分享
演講標(biāo)題:可信 AI 的技術(shù)解讀與最佳實(shí)踐
Core Technical Interpretation and Best Practices of Responsible AI
演講人:林偉 | 阿里云智能集團(tuán)研究員、人工智能平臺(tái) PAI 負(fù)責(zé)人
演講為 NeurIPS 參會(huì)者帶來(lái)阿里云人工智能平臺(tái) PAI 的企業(yè)級(jí)可信 AI 解決方案以及技術(shù)解析。PAI 平臺(tái)提供的安全、可靠和可信的 AI 解決方案,通過(guò)確保數(shù)據(jù)合規(guī)與安全、算法穩(wěn)健性與可靠性、模型可信度和基礎(chǔ)設(shè)施安全與穩(wěn)定性這四大關(guān)鍵要素得以實(shí)現(xiàn)。為實(shí)現(xiàn)可信 AI,PAI 團(tuán)隊(duì)創(chuàng)新性地提出了 T 型安全架構(gòu)。從垂直的角度考慮,從下至上保障云計(jì)算基礎(chǔ)設(shè)施、數(shù)據(jù)和模型、AI 應(yīng)用的安全;從水平的角度考慮,覆蓋數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練和模型部署的 AI 開(kāi)發(fā)全鏈路。目前,可信 AI-公平性分析、可信 AI-錯(cuò)誤分析功能均已上線,歡迎您前往阿里云人工智能平臺(tái) PAI 體驗(yàn)。
更多原理介紹和操作步驟,請(qǐng)參考產(chǎn)品文檔 「人工智能平臺(tái) PAI-Responsible AI」:https://help.aliyun.com/zh/pai/use-cases/responsible-ai。
產(chǎn)品能力展示
主題:AI Native 的大模型與 AIGC 工程平臺(tái)
阿里云人工智能平臺(tái) PAI 提供包含數(shù)據(jù)集管理、算力管理、模型工具鏈、模型開(kāi)發(fā)、模型訓(xùn)練、模型部署、AI 資產(chǎn)管理在內(nèi)的功能模塊,內(nèi)置100+種大模型最佳實(shí)踐,為用戶提供高性能、高穩(wěn)定、企業(yè)級(jí)的大模型工程化能力。在本次平臺(tái)產(chǎn)品能力 Demo 環(huán)節(jié),人工智能平臺(tái) PAI 為大家?guī)?lái)包含以下多個(gè)實(shí)操展示:
1、以 Qwen2.5-Coder 為例,完成大語(yǔ)言模型微調(diào)訓(xùn)練、部署和評(píng)測(cè)
2、通過(guò) PAI-EAS,搭建企業(yè)級(jí)大模型 RAG 對(duì)話系統(tǒng)
3、通過(guò) PAI-裁判員模型,實(shí)現(xiàn)高效易用的智能模型評(píng)測(cè)
4、通過(guò) PAI-Artlab,體驗(yàn)自動(dòng)化的一站式 AIGC 設(shè)計(jì)平臺(tái)
現(xiàn)場(chǎng)數(shù)百位參會(huì)者體驗(yàn) PAI 平臺(tái)的能力。目前,所有 Demo 均已在線上開(kāi)放,歡迎您前往阿里云人工智能平臺(tái) PAI 體驗(yàn)。
如您對(duì)我們的論文或產(chǎn)品感興趣,或希望加入我們,歡迎您前往 NeurIPS2024 - Alibaba Cloud 展臺(tái)深入交流(West Hall A-Sponsor Exhibit Hall booth 143),期待您的到來(lái)!