展會信息港展會大全

OpenAI-o1思考替代法火了!焦劍濤高徒一作提出思考偏好優(yōu)化
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-10-28 14:52:44   瀏覽:283次  

導(dǎo)讀:劃重點(diǎn) 01華人學(xué)者Tianhao Wu及其團(tuán)隊(duì)提出了一種名為思考偏好優(yōu)化(Thought Preference Optimization)的方法,使模型能根據(jù)任務(wù)復(fù)雜度進(jìn)行不同時間的思考。 02該方法將思維鏈?zhǔn)教崾?推理融入訓(xùn)練中,通過迭代優(yōu)化提升思考質(zhì)量,無需額外人工標(biāo)注數(shù)據(jù)。 03實(shí)...

劃重點(diǎn)

01華人學(xué)者Tianhao Wu及其團(tuán)隊(duì)提出了一種名為思考偏好優(yōu)化(Thought Preference Optimization)的方法,使模型能根據(jù)任務(wù)復(fù)雜度進(jìn)行不同時間的思考。

02該方法將思維鏈?zhǔn)教崾?推理融入訓(xùn)練中,通過迭代優(yōu)化提升思考質(zhì)量,無需額外人工標(biāo)注數(shù)據(jù)。

03實(shí)驗(yàn)結(jié)果顯示,TPO模型在AlpacaEval、Arena-Hard基準(zhǔn)測試中性能比基線提升約4%。

04此外,TPO在推理、數(shù)學(xué)、營銷、健康、一般知識等非推理任務(wù)上也表現(xiàn)出優(yōu)勢。

05該研究由Meta FAIR、加州大學(xué)伯克利分校、紐約大學(xué)的研究人員共同提出,論文已發(fā)表在arXiv.org上。

以上內(nèi)容由騰訊混元大模型生成,僅供參考

西風(fēng) 發(fā)自 凹非寺

量子位 | 公眾號 QbitAI

OpenAI-o1替代品來了,大模型能根據(jù)任務(wù)復(fù)雜度進(jìn)行不同時間的思考。

不限于推理性的邏輯或數(shù)學(xué)任務(wù),一般問答也能思考的那種。

最近暢銷書《Python機(jī)器學(xué)習(xí)》作者Sebastian Raschka推薦了一項(xiàng)新研究,被網(wǎng)友們齊刷刷碼住了。

OpenAI-o1思考替代法火了!焦劍濤高徒一作提出思考偏好優(yōu)化

論文一作為華人學(xué)者Tianhao Wu,導(dǎo)師之一是2011年清華特獎得主焦劍濤。

團(tuán)隊(duì)提出了一種稱作思考偏好優(yōu)化Thought Preference Optimization)的方法,能讓模型像OpenAI-o1一樣,通過內(nèi)部“思考”輸出更好答案,最終只顯示結(jié)果,不展示思考過程。

TPO將思維鏈?zhǔn)教崾?推理融入訓(xùn)練中:

在回答之前,用思維鏈式方法進(jìn)行思考;使用一個LLM評判來評估響應(yīng)(不包括由LLM生成的想法);根據(jù)被拒絕和優(yōu)選的響應(yīng)形成偏好對進(jìn)行DPO(包括這些響應(yīng)中的想法)。

基于Llama 3 8B Instruct的結(jié)果表明,TPO效果相當(dāng)好。

有意思的是,如果添加了思維提示,但Llama 3 8B Instruct基礎(chǔ)模型沒有在偏好對上經(jīng)歷DPO微調(diào),那么這個基礎(chǔ)模型的性能會比沒有思維提示時差得多。

在指令數(shù)據(jù)(直接響應(yīng)基線)上對模型進(jìn)行微調(diào)(無需思考提示)就能顯著提升基模型的性能。

進(jìn)一步加入TPO,在AlpacaEval、Arena-Hard基準(zhǔn)測試中,性能比基線再提升約4%。

OpenAI-o1思考替代法火了!焦劍濤高徒一作提出思考偏好優(yōu)化

網(wǎng)友紛紛表示這項(xiàng)研究很有意思,簡單而又實(shí)用。

如果你已經(jīng)在進(jìn)行DPO,那么采用這種方法幾乎就是不二之選了。

OpenAI-o1思考替代法火了!焦劍濤高徒一作提出思考偏好優(yōu)化

所以,TPO到底長啥樣?

兩種思考提示模板,無需額外人工標(biāo)注數(shù)據(jù)TPO的基本思路就是讓模型在給出最終回答前先生成“思考”過程,且思考過程對用戶不可見,僅作為模型內(nèi)部計(jì)算過程,然后通過迭代優(yōu)化來提升思考的質(zhì)量,無需額外的人工標(biāo)注數(shù)據(jù)。

OpenAI-o1思考替代法火了!焦劍濤高徒一作提出思考偏好優(yōu)化

具體來說,它的實(shí)現(xiàn)過程始于一個經(jīng)過指令微調(diào)的基礎(chǔ)語言模型,首先通過提示詞引導(dǎo)模型生成包含思考過程和最終回答兩個部分的輸出。

這個提示詞可以是通用型的,簡單要求模型寫下思考過程;也可以是具體型的,明確要求模型先寫出草稿回答并進(jìn)行評估。

OpenAI-o1思考替代法火了!焦劍濤高徒一作提出思考偏好優(yōu)化

對于每個用戶指令,模型會生成多個不同版本的輸出,每個都包含思考和回答部分。

且思考過程采用自然語言形式,便于解釋和利用預(yù)訓(xùn)練知識。

然后系統(tǒng)會將這些輸出中的回答部分(不含思考過程)提供給一個評判模型來打分

評判模型可以是像ArmoRM這樣直接對單個回答評分的模型,也可以是像Self-Taught Evaluator這樣通過比較兩個回答來選出更好者的模型。

基于評判結(jié)果,系統(tǒng)會選出得分最高和最低的回答,連同它們對應(yīng)的思考過程一起構(gòu)成偏好對。

這些偏好對隨后被用于直接偏好優(yōu)化(DPO)訓(xùn)練,通過這種方式,模型能夠逐步學(xué)習(xí)到哪些思考方式能帶來更好的回答。

整個過程是迭代進(jìn)行的,每輪訓(xùn)練后得到的新模型會被用于下一輪的思考和回答生成。

為了防止回答變得過于冗長,TPO還引入了長度控制機(jī)制,通過在評分中加入長度懲罰項(xiàng)來平衡回答的質(zhì)量和簡潔性。

值得注意的是,在實(shí)際使用時,模型生成的思考過程會被隱藏,只向用戶展示最終的回答部分。

更多細(xì)節(jié),感興趣的童鞋可自行查看原論文。

通過這種訓(xùn)練方法,即使是像Llama-3-8B-Instruct這樣相對較小的模型也能在AlpacaEval等基準(zhǔn)測試中取得接近甚至超過一些更大模型的性能。

在AlpacaEval基準(zhǔn)測試中,TPO模型獲得52.5%的勝率,比基線提升4.1%;在Arena-Hard測試上,TPO模型獲得37.3%的勝率,比基線提升4.3%。

OpenAI-o1思考替代法火了!焦劍濤高徒一作提出思考偏好優(yōu)化

研究發(fā)現(xiàn),雖然在訓(xùn)練初期,帶思考的模型表現(xiàn)不如直接回答的基線模型,但經(jīng)過多輪迭代訓(xùn)練后,TPO模型的表現(xiàn)明顯超過基線。

OpenAI-o1思考替代法火了!焦劍濤高徒一作提出思考偏好優(yōu)化

OpenAI-o1思考替代法火了!焦劍濤高徒一作提出思考偏好優(yōu)化

更細(xì)致的分析顯示,思考不僅對推理和數(shù)學(xué)等傳統(tǒng)認(rèn)為需要思考的任務(wù)有幫助,在營銷、健康、一般知識等非推理任務(wù)上也表現(xiàn)出優(yōu)勢,模型會隨著訓(xùn)練逐漸學(xué)會更高效的思考(思考長度縮短)。

OpenAI-o1思考替代法火了!焦劍濤高徒一作提出思考偏好優(yōu)化

華人一作這項(xiàng)研究由來自Meta FAIR、加州大學(xué)伯克利分校、紐約大學(xué)的研究人員共同提出。

OpenAI-o1思考替代法火了!焦劍濤高徒一作提出思考偏好優(yōu)化

論文一作為華人學(xué)者Tianhao Wu。

Tianhao Wu目前是加州大學(xué)伯克利分校博士生,導(dǎo)師是焦劍濤(Jiantao Jiao)和Kannan Ramchandran。

本科主修數(shù)學(xué),合作導(dǎo)師是北大教授、清華交叉信息學(xué)院兼職教授王立威(Liwei Wang)。

他的研究重點(diǎn)是通過強(qiáng)化學(xué)習(xí)改善大語言模型的指令遵循和推理能力,目標(biāo)是構(gòu)建可以解決需要多步驟推理的復(fù)雜任務(wù)的大規(guī)模模型。

此外他還在開發(fā)由Agent組成的AI社會,這些Agent可以以模塊化的方式連接起來,形成更強(qiáng)大的集體智能。

OpenAI-o1思考替代法火了!焦劍濤高徒一作提出思考偏好優(yōu)化

論文鏈接:https://arxiv.org/abs/2410.10630

參考鏈接:[1]https://x.com/rasbt/status/1850177459930497118[2]https://thwu1.github.io/tianhaowu/

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港