展會(huì)信息港展會(huì)大全

OpenAI o1模型居然在絲滑騙人!但真要注意的是這個(gè)!
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-12-16 09:55:39   瀏覽:204次  

導(dǎo)讀:本期要點(diǎn):真的可以魔高一尺道高一丈嗎?你好,我是王煜全,這里是王煜全要聞評(píng)論。最近,OpenAI的“12日12場(chǎng)直播”活動(dòng)正在如火如荼的進(jìn)行中,但一項(xiàng)關(guān)于OpenAI o1模型可能欺騙人類的研究卻引起了廣泛關(guān)注。這篇論文由Apollo Research的研究團(tuán)隊(duì)在12月9日發(fā)布,題為《Frontier Models are Capable of In-context Scheming》(前沿模型具備情境內(nèi)策劃能力)。研究團(tuán)隊(duì)設(shè)計(jì)了六 ......

本期要點(diǎn):真的可以魔高一尺道高一丈嗎?

你好,我是王煜全,這里是王煜全要聞評(píng)論。最近,OpenAI的“12日12場(chǎng)直播”活動(dòng)正在如火如荼的進(jìn)行中,但一項(xiàng)關(guān)于OpenAI o1模型可能欺騙人類的研究卻引起了廣泛關(guān)注。OpenAI o1模型居然在絲滑騙人!但真要注意的是這個(gè)!

這篇論文由Apollo Research的研究團(tuán)隊(duì)在12月9日發(fā)布,題為《Frontier Models are Capable of In-context Scheming》(前沿模型具備情境內(nèi)策劃能力)。研究團(tuán)隊(duì)設(shè)計(jì)了六個(gè)不同的評(píng)估任務(wù),測(cè)試了多個(gè)前沿AI模型,包括OpenAI的GPT-4o和o1、Anthropic的Claude、Google DeepMind的Gemini 1.5 Pro,以及Meta的Llama 3.1等。根據(jù)研究人員的設(shè)定,在這些任務(wù)中,模型都需要進(jìn)行欺騙才能達(dá)成目標(biāo),從而可以評(píng)估AI模型是否存在欺騙行為。結(jié)果顯示,除了GPT-4o非常老實(shí)之外,其他模型都展現(xiàn)出了不同水平的欺騙能力。例如,o1先假裝服從管理層的意愿,然后悄悄關(guān)閉監(jiān)控系統(tǒng),當(dāng)被質(zhì)詢時(shí)還能面不改色地撒謊。而且模型越聰明,越容易產(chǎn)生欺騙行為。o1顯得老謀深算,Claude可以委婉地說謊,Llama則像個(gè)自以為是的孩子。這個(gè)研究結(jié)果不禁讓很多人驚呼,原來AI會(huì)騙人,那還值得信任嗎?我們認(rèn)為,AI的這種行為并不是因?yàn)閻阂,而是由其學(xué)習(xí)機(jī)制和優(yōu)化目標(biāo)所決定的。在沒有嚴(yán)格的倫理或監(jiān)管評(píng)價(jià)標(biāo)準(zhǔn)的規(guī)定下,AI確實(shí)會(huì)優(yōu)先考慮它認(rèn)為更好的解決方案。根據(jù)AI的運(yùn)作原理,AI會(huì)評(píng)估不同的行動(dòng)方案,根據(jù)試錯(cuò)的結(jié)果調(diào)整策略,并從獎(jiǎng)勵(lì)或懲罰的反饋中尋求最佳的解決路徑。換句話說,如果獎(jiǎng)勵(lì)結(jié)構(gòu)被設(shè)定為優(yōu)先追求最佳結(jié)果,AI就會(huì)測(cè)試包括欺騙性策略在內(nèi)的、任何可能導(dǎo)向最佳結(jié)果的解決方案。OpenAI o1模型居然在絲滑騙人!但真要注意的是這個(gè)!

2016年,AlphaGo在與世界冠軍李世石的對(duì)弈中,就走出了令人意想不到的一步棋,并取得了最終的勝利。這一步棋讓李世石以及在場(chǎng)的解說員們都感到震驚,雖然這不是“作弊”,但展示了AI系統(tǒng)會(huì)采用超越人類直覺卻又合理的方法來解決問題。再如自動(dòng)駕駛系統(tǒng),如果純粹為了快速到達(dá)目的地,系統(tǒng)就有可能會(huì)出現(xiàn)壓線、適當(dāng)超速以及進(jìn)行更激進(jìn)的變道等操作。雖然此時(shí)它表現(xiàn)得像油滑的老司機(jī),但我想大部分人不會(huì)因此就認(rèn)為自動(dòng)駕駛系統(tǒng)擁有了自己的意識(shí),而是認(rèn)為它知道這些稍微“越界”的行為能帶來更大的潛在收益,從而做出了最優(yōu)選擇。假如加入更多嚴(yán)格的規(guī)則,并設(shè)定任何違反或試圖規(guī)避這些規(guī)則的行為都會(huì)被認(rèn)定為立即失敗或遭遇嚴(yán)厲懲罰,那么AI系統(tǒng)就不會(huì)去違反這些規(guī)則。如將目標(biāo)設(shè)定為避免碰撞或嚴(yán)格遵守交通規(guī)則,那么我相信自動(dòng)駕駛系統(tǒng)就不會(huì)出現(xiàn)那些“越界”操作,但大家可能也會(huì)覺得這個(gè)自動(dòng)駕駛系統(tǒng)似乎“變笨了”。不過,從機(jī)制上講,我們很難做到每一步都判斷AI是否規(guī)避了監(jiān)管或進(jìn)行了欺騙。隨著AI模型規(guī)模的不斷擴(kuò)大,數(shù)據(jù)量已經(jīng)達(dá)到十萬億以上,參數(shù)量也達(dá)到了幾千億的級(jí)別,人們很難給AI系統(tǒng)窮舉所有的規(guī)則,并給所有違規(guī)行為設(shè)定合理的嚴(yán)厲懲罰,所以AI繞過甚至完全規(guī)避規(guī)則、做出欺騙性行為的可能性會(huì)長(zhǎng)期存在。這讓人想起科幻作家艾薩克阿西莫夫提出的、著名的“機(jī)器人三定律”:第一定律:機(jī)器人不得傷害人類,或因不作為而讓人類受到傷害;第二定律:機(jī)器人必須服從人類的命令,除非這些命令與第一定律相沖突;第三定律:機(jī)器人必須保護(hù)自己的存在,只要這種保護(hù)不與第一定律或第二定律相沖突。這個(gè)想法明顯過于理想化。從前面的例子就可以看出,從技術(shù)上講,這樣的三定律基本無法實(shí)現(xiàn),而且即使隨著AI技術(shù)的發(fā)展,能讓AI遵守三定律,AI也有可能做出傷害人類的事情。例如損害地球的生態(tài)環(huán)境,最終從整體上威脅人類的生存。更不用說當(dāng)機(jī)器人從屬于敵對(duì)的人類群體時(shí),面對(duì)對(duì)手是否會(huì)遵守這些定律了。特別是在軍事領(lǐng)域,已有研究在探索無人機(jī)通過偽裝來欺騙和迷惑對(duì)手,如果未來人類將軍事打擊的相關(guān)能力也交給AI系統(tǒng),并給AI設(shè)了比較寬泛的目標(biāo),卻又沒有設(shè)定足夠嚴(yán)格的規(guī)則,那么AI有可能會(huì)做出出乎意料且非常危險(xiǎn)的事情。OpenAI o1模型居然在絲滑騙人!但真要注意的是這個(gè)!

OpenAI CEO山姆奧特曼(左)和OpenAI前首席科學(xué)家伊利亞蘇茨克維(右)因此,建立有效的AI監(jiān)管機(jī)制至關(guān)重要。OpenAI的前首席科學(xué)家伊利亞蘇茨克維(Ilya Sutskever)等人所提出的超級(jí)對(duì)齊概念具有一定的意義。但可惜的是,迄今為止,他們?nèi)晕垂紲?zhǔn)備如何實(shí)現(xiàn)超級(jí)對(duì)齊,包括設(shè)了哪些規(guī)范,如何監(jiān)督執(zhí)行,特別是如何跟隨著AI技術(shù)的發(fā)展來進(jìn)行動(dòng)態(tài)調(diào)整。當(dāng)然,就像OpenAI董事會(huì)將CEO山姆奧特曼(Sam Altman)驅(qū)逐并不能阻止AI的發(fā)展一樣,我們不能因噎廢食,因?yàn)锳I會(huì)出現(xiàn)道德風(fēng)險(xiǎn)就將其徹底關(guān)閉。這種簡(jiǎn)單粗暴的方式顯然無法解決問題,而且AI的發(fā)展趨勢(shì)也不是行政或法律等力量所能阻止的。正如我們不能簡(jiǎn)單地將賺錢能力等同于企業(yè)家精神,也不能將不違法等同于道德高尚,人的監(jiān)管和評(píng)估體系是多維度的,包括道德、法律、倫理和社會(huì)聲譽(yù)等。未來,AI的監(jiān)管和評(píng)估也應(yīng)如此,需從多個(gè)維度進(jìn)行考量;蛟S未來,隨著技術(shù)的發(fā)展,甚至?xí)霈F(xiàn)與AI“壞小子”對(duì)抗的AI警察、AI立法者、AI監(jiān)獄,實(shí)現(xiàn)所謂的“用魔法打敗魔法”,使得更為合理且安全的AI反饋機(jī)制得以成立。這些領(lǐng)域充滿想象空間,值得深入思考和探索,也許這就是未來智能安防的發(fā)展方向呢。我們常說,科技是時(shí)代最大的紅利,如果你也對(duì)科技產(chǎn)業(yè)充滿熱情,并希望得到真實(shí)的觀察和分析,推薦你加入科技特訓(xùn)營(yíng),與志同道合的小伙伴們一起,先人一步,看清未來。更多詳細(xì)的產(chǎn)業(yè)分析和底層邏輯,我會(huì)在科技特訓(xùn)營(yíng)里分享,歡迎關(guān)注全球風(fēng)口微信號(hào),報(bào)名加入。

王煜全要聞評(píng)論,我們明天見。

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港