黄日韩国产在线观看,视频在线观看一区二区三区

【NeurIPS'24】阿里云 PAI 團(tuán)隊(duì)論文被收錄為 Spotlight，并完成主題演講分享

來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-13 13:24:01 瀏覽：127次

導(dǎo)讀：當(dāng)?shù)貢r(shí)間12月10日，人工智能領(lǐng)域全球頂級(jí)學(xué)術(shù)會(huì)議 NeurIPS (Annual Conference on Neural Information Processing Systems) 在加拿大溫哥華正式召開(kāi)。官方數(shù)據(jù)顯示，NeurIPS 2024共收到超一萬(wàn)五千篇有效論文投稿，投稿量創(chuàng)新高，參會(huì)人數(shù)超萬(wàn)人規(guī)模。阿里云 PAI 團(tuán)隊(duì)的論文《PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invar...

當(dāng)?shù)貢r(shí)間12月10日，人工智能領(lǐng)域全球頂級(jí)學(xué)術(shù)會(huì)議 NeurIPS (Annual Conference on Neural Information Processing Systems) 在加拿大溫哥華正式召開(kāi)。官方數(shù)據(jù)顯示，NeurIPS 2024共收到超一萬(wàn)五千篇有效論文投稿，投稿量創(chuàng)新高，參會(huì)人數(shù)超萬(wàn)人規(guī)模。

阿里云 PAI 團(tuán)隊(duì)的論文《PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations》被 NeurIPS D&B Track 2024 收錄，并被列為 Spotlight，本年度 NeurIPS 的 Spotlight 論文錄取率僅為3%。論文通過(guò)對(duì)大語(yǔ)言模型真實(shí)知識(shí)能力的評(píng)估，揭示現(xiàn)有靜態(tài)評(píng)測(cè)集指標(biāo)的可信性問(wèn)題以及大語(yǔ)言模型知識(shí)掌握中的各種弱點(diǎn)，并指導(dǎo)改進(jìn)的發(fā)展。

同時(shí)，在本次會(huì)議中，PAI 團(tuán)隊(duì)為參會(huì)者帶來(lái)主題演講分享、AI 工程化平臺(tái)產(chǎn)品能力 Demo。演講分享的議題為“可信 AI 的技術(shù)解讀與最佳實(shí)踐”，深入研討在大語(yǔ)言模型廣泛應(yīng)用的當(dāng)下，如何保障使用 AI 全流程的安全、可靠和可信。

中選論文

論文《PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations》被 NeurIPS 2024 收錄，并入選 Spotlight。PertEval 是一款大型語(yǔ)言模型評(píng)估工具包，通過(guò)引入“知識(shí)不變擾動(dòng)”的創(chuàng)新概念，對(duì)靜態(tài)基準(zhǔn)（static benchmarks）進(jìn)行改寫，從而更準(zhǔn)確地揭示大型語(yǔ)言模型（LLMs）的真實(shí)知識(shí)能力。

$【NeurIPS\'24】阿里云 PAI 團(tuán)隊(duì)論文被收錄為 Spotlight，并完成主題演講分享$

革新評(píng)估方式，提升可信度

傳統(tǒng)上，評(píng)估 LLM 性能的方法依賴于靜態(tài)基準(zhǔn)測(cè)試，例如 MMLU 和 C-Eval 等，這些方法雖然廣泛使用，但存在明顯的局限性和數(shù)據(jù)污染風(fēng)險(xiǎn)，導(dǎo)致對(duì)模型真實(shí)能力的認(rèn)知失真。PertEval 通過(guò)應(yīng)用知識(shí)不變擾動(dòng)，確保了在不改變模型所識(shí)別和應(yīng)用的知識(shí)前提下，對(duì)原始評(píng)估問(wèn)題進(jìn)行修改。這種方法緩解了由于記憶效應(yīng)和數(shù)據(jù)污染造成的評(píng)估失真問(wèn)題，顯著提高評(píng)估結(jié)果可靠性。

揭示現(xiàn)有評(píng)估方法的不足

研究團(tuán)隊(duì)利用 PertEval 重新評(píng)估了六個(gè)代表性的 LLM，包括 GPT-4，并發(fā)現(xiàn)這些模型在MMLU 等靜態(tài)基準(zhǔn)上的表現(xiàn)被顯著高估，其中 GPT-4 的表現(xiàn)被絕對(duì)高估了26%。進(jìn)一步分析顯示，這種虛高的性能主要源自 LLM 面對(duì)不確定知識(shí)時(shí)表現(xiàn)出的猶豫不決，以及對(duì)正確答案的死記硬背現(xiàn)象。這表明當(dāng)前的評(píng)估方法可能無(wú)法充分反映 LLM 在實(shí)際應(yīng)用中的表現(xiàn)。

推動(dòng)行業(yè)進(jìn)步，指導(dǎo)未來(lái)研究

這項(xiàng)研究表明，為了更好地理解和改進(jìn) LLM 的能力，需要一種能夠體現(xiàn)其真實(shí)性能的評(píng)估方法。PertEval 提供了一種新的視角和工具，以幫助研究人員和開(kāi)發(fā)者更準(zhǔn)確地評(píng)估和優(yōu)化 LLM。后續(xù)，計(jì)劃將 PertEval 整合到 PAI 平臺(tái)中，支持一鍵式開(kāi)啟任意模型（無(wú)論是 API、開(kāi)源還是微調(diào)后的模型）的真實(shí)能力評(píng)估。此外，還將通過(guò) leadboard 的方式向開(kāi)發(fā)者社區(qū)反饋主流 LLM 的“知識(shí)能力”度量，促進(jìn)整個(gè)行業(yè)的健康發(fā)展。

PertEval 的推出標(biāo)志著在提升 LLM 評(píng)估準(zhǔn)確性方面邁出的重要一步，為推動(dòng) AI 技術(shù)的進(jìn)步提供了有力的支持。隨著這一工具的廣泛應(yīng)用，我們期待看到更加可靠和公平的模型評(píng)估標(biāo)準(zhǔn)，以及由此帶來(lái)的技術(shù)創(chuàng)新。

論文標(biāo)題：PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations

論文作者：Jiatong Li, Renjun Hu, Kunzhe Huang, Yan Zhuang, Qi Liu, Mengxiao Zhu, Xing Shi, Wei Lin

論文地址：https://arxiv.org/abs/2405.19740

演講分享

演講標(biāo)題：可信 AI 的技術(shù)解讀與最佳實(shí)踐

Core Technical Interpretation and Best Practices of Responsible AI

演講人：林偉 | 阿里云智能集團(tuán)研究員、人工智能平臺(tái) PAI 負(fù)責(zé)人

$【NeurIPS\'24】阿里云 PAI 團(tuán)隊(duì)論文被收錄為 Spotlight，并完成主題演講分享$

演講為 NeurIPS 參會(huì)者帶來(lái)阿里云人工智能平臺(tái) PAI 的企業(yè)級(jí)可信 AI 解決方案以及技術(shù)解析。PAI 平臺(tái)提供的安全、可靠和可信的 AI 解決方案，通過(guò)確保數(shù)據(jù)合規(guī)與安全、算法穩(wěn)健性與可靠性、模型可信度和基礎(chǔ)設(shè)施安全與穩(wěn)定性這四大關(guān)鍵要素得以實(shí)現(xiàn)。為實(shí)現(xiàn)可信 AI，PAI 團(tuán)隊(duì)創(chuàng)新性地提出了 T 型安全架構(gòu)。從垂直的角度考慮，從下至上保障云計(jì)算基礎(chǔ)設(shè)施、數(shù)據(jù)和模型、AI 應(yīng)用的安全；從水平的角度考慮，覆蓋數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練和模型部署的 AI 開(kāi)發(fā)全鏈路。目前，可信 AI-公平性分析、可信 AI-錯(cuò)誤分析功能均已上線，歡迎您前往阿里云人工智能平臺(tái) PAI 體驗(yàn)。

更多原理介紹和操作步驟，請(qǐng)參考產(chǎn)品文檔「人工智能平臺(tái) PAI-Responsible AI」：https://help.aliyun.com/zh/pai/use-cases/responsible-ai。

產(chǎn)品能力展示

主題：AI Native 的大模型與 AIGC 工程平臺(tái)

阿里云人工智能平臺(tái) PAI 提供包含數(shù)據(jù)集管理、算力管理、模型工具鏈、模型開(kāi)發(fā)、模型訓(xùn)練、模型部署、AI 資產(chǎn)管理在內(nèi)的功能模塊，內(nèi)置100+種大模型最佳實(shí)踐，為用戶提供高性能、高穩(wěn)定、企業(yè)級(jí)的大模型工程化能力。在本次平臺(tái)產(chǎn)品能力 Demo 環(huán)節(jié)，人工智能平臺(tái) PAI 為大家?guī)?lái)包含以下多個(gè)實(shí)操展示：

1、以 Qwen2.5-Coder 為例，完成大語(yǔ)言模型微調(diào)訓(xùn)練、部署和評(píng)測(cè)

2、通過(guò) PAI-EAS，搭建企業(yè)級(jí)大模型 RAG 對(duì)話系統(tǒng)

3、通過(guò) PAI-裁判員模型，實(shí)現(xiàn)高效易用的智能模型評(píng)測(cè)

4、通過(guò) PAI-Artlab，體驗(yàn)自動(dòng)化的一站式 AIGC 設(shè)計(jì)平臺(tái)

現(xiàn)場(chǎng)數(shù)百位參會(huì)者體驗(yàn) PAI 平臺(tái)的能力。目前，所有 Demo 均已在線上開(kāi)放，歡迎您前往阿里云人工智能平臺(tái) PAI 體驗(yàn)。

$【NeurIPS\'24】阿里云 PAI 團(tuán)隊(duì)論文被收錄為 Spotlight，并完成主題演講分享$

如您對(duì)我們的論文或產(chǎn)品感興趣，或希望加入我們，歡迎您前往 NeurIPS2024 - Alibaba Cloud 展臺(tái)深入交流（West Hall A-Sponsor Exhibit Hall booth 143），期待您的到來(lái)！

【NeurIPS'24】阿里云 PAI 團(tuán)隊(duì)論文被收錄為 Spotlight，并完成主題演講分享
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-13 13:24:01 瀏覽：127次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

【NeurIPS'24】阿里云 PAI 團(tuán)隊(duì)論文被收錄為 Spotlight，并完成主題演講分享 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-13 13:24:01 瀏覽：127次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

【NeurIPS'24】阿里云 PAI 團(tuán)隊(duì)論文被收錄為 Spotlight，并完成主題演講分享
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-13 13:24:01 瀏覽：127次