當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能動(dòng)態(tài) > OpenAI 最強(qiáng)競(jìng)品大更新！一句話(huà)模擬人類(lèi)用電腦，AI 智能體覺(jué)醒前的重大突破

OpenAI 最強(qiáng)競(jìng)品大更新！一句話(huà)模擬人類(lèi)用電腦，AI 智能體覺(jué)醒前的重大突破
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-23 13:42:13 瀏覽：1701次

導(dǎo)讀：天下苦 OpenAI 擠牙膏久矣。環(huán)顧宇內(nèi)，能夠與 OpenAI 抗衡的對(duì)手屈指可數(shù)，Anthropic 旗下的 Claude 模型算是一個(gè)靠譜的勁敵。盼星星，盼月亮，沒(méi)有等到「超大杯」Opus 的亮相，但好在也等來(lái)了全新升級(jí)的大杯 Claude 3.5 Sonnet。 X 網(wǎng)友 @skirano 梗圖簡(jiǎn)單...

天下苦 OpenAI 擠牙膏久矣。環(huán)顧宇內(nèi)，能夠與 OpenAI 抗衡的對(duì)手屈指可數(shù)，Anthropic 旗下的 Claude 模型算是一個(gè)靠譜的勁敵。盼星星，盼月亮，沒(méi)有等到「超大杯」Opus 的亮相，但好在也等來(lái)了全新升級(jí)的大杯 Claude 3.5 Sonnet。 OpenAI 最強(qiáng)競(jìng)品大更新！一句話(huà)模擬人類(lèi)用電腦，AI 智能體覺(jué)醒前的重大突破

X 網(wǎng)友 @skirano 梗圖簡(jiǎn)單總結(jié)這次更新的亮點(diǎn)：拳打 GPT-4o，腳踢 Gemini 1.5 Pro，新版 Claude 3.5 Sonnet 表現(xiàn)遙遙領(lǐng)先Claude 3.5 Haiku 響應(yīng)速度最快，性能媲美 GPT-4o mini構(gòu)建 API，教 Claude 怎么玩電腦關(guān)注 AI 第一新媒體，率先獲取 AI 前沿資訊和洞察

教 Claude 玩電腦，AI 鍵盤(pán)俠來(lái)了？這次更新的重頭戲其實(shí)不是新模型，而是怎么教 AI 玩電腦。Anthropic 推出了一個(gè)公開(kāi)測(cè)試的革命性功能「computer use」：通過(guò) API 教 Claude 像個(gè)人一樣操作電腦，能看屏幕、動(dòng)光標(biāo)、點(diǎn)按鈕、打字……簡(jiǎn)單說(shuō)就是，Claude 現(xiàn)在能用人類(lèi)設(shè)計(jì)的標(biāo)準(zhǔn)工具和軟件了。而開(kāi)發(fā)者可以借此解放一些枯燥的重復(fù)性流程任務(wù)，甚至進(jìn)行開(kāi)放式任務(wù)，如研究。 OpenAI 最強(qiáng)競(jìng)品大更新！一句話(huà)模擬人類(lèi)用電腦，AI 智能體覺(jué)醒前的重大突破

為了讓 Claude 具備這種技能，Anthropic 專(zhuān)門(mén)打造了一個(gè) API，并使得 Claude 能夠感知并與計(jì)算機(jī)界面產(chǎn)生交互。具體來(lái)說(shuō)，開(kāi)發(fā)者在交互過(guò)程中集成這一 API，讓 Claude 將指令（比如：「用我電腦上的數(shù)據(jù)，結(jié)合網(wǎng)上信息填個(gè)表」）翻譯成計(jì)算機(jī)指令（比如：檢查個(gè)表格，動(dòng)動(dòng)鼠標(biāo)打開(kāi)個(gè)瀏覽器，導(dǎo)航到相關(guān)網(wǎng)頁(yè)，然后用網(wǎng)上的數(shù)據(jù)把表格填滿(mǎn)）。

案例展示，視頻由 APPSO 簡(jiǎn)單編譯OSWorld 是一個(gè)用于測(cè)試多模態(tài)智能體在真實(shí)計(jì)算機(jī)環(huán)境中執(zhí)行開(kāi)放式任務(wù)的能力的基準(zhǔn)測(cè)試平臺(tái)，通常用來(lái)評(píng)估 AI 模型是否具備像人類(lèi)一樣使用計(jì)算機(jī)的能力。Claude 3.5 Sonnet 在僅用截圖的測(cè)試類(lèi)別中得分 14.9%，遠(yuǎn)超第二名的 7.8%。在允許使用更多步驟時(shí)，Claude 的得分為 22.0%。一些公司的產(chǎn)品已經(jīng)提前用上了這一功能。例如，Replit 正在利用 Claude 3.5 Sonnet 的計(jì)算機(jī)操作與界面導(dǎo)航能力，為其 Replit 智能體產(chǎn)品開(kāi)發(fā)一項(xiàng)關(guān)鍵功能，用于評(píng)估正在構(gòu)建中的應(yīng)用程序。當(dāng)然，這種做法其實(shí)并不新鮮。因?yàn)樵诖酥�，Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 已經(jīng)開(kāi)始探索這些可能性，執(zhí)行需要幾十甚至上百步的任務(wù)。

案例展示，視頻由 APPSO 簡(jiǎn)單編譯不過(guò)，理想很豐滿(mǎn)，現(xiàn)實(shí)很骨感。官方也坦誠(chéng)，當(dāng)前這一功能仍處于實(shí)驗(yàn)階段，在操作計(jì)算機(jī)時(shí)速度較慢，并且經(jīng)常會(huì)出現(xiàn)錯(cuò)誤。一些簡(jiǎn)單的操作比如滾動(dòng)、拖動(dòng)、縮放，看似人類(lèi)一揮手就能搞定的事兒，對(duì) Claude 來(lái)說(shuō)依然是個(gè)不小的挑戰(zhàn)。在錄制這些演示的過(guò)程中，我們遇到了一些有趣的插曲。有一次，Claude 不小心終止了一個(gè)正在進(jìn)行的長(zhǎng)時(shí)間屏幕錄制，結(jié)果所有的錄像素材都丟失了。之后，Claude 在我們的編碼演示間隙休息了一下，開(kāi)始欣賞黃石國(guó)家公園的照片。此外，Claude 通過(guò)截取屏幕的靜態(tài)圖像，然后將這些圖像組合起來(lái)，以理解屏幕上發(fā)生的事情，但也正因此，它可能無(wú)法捕捉到屏幕上的短暫動(dòng)作或通知，比如彈出窗口或快速變化的圖標(biāo)。官方也說(shuō)了，之所以提前發(fā)布這項(xiàng)功能，是為了獲取開(kāi)發(fā)者的反饋，預(yù)計(jì)這功能隨著時(shí)間會(huì)逐漸有所改進(jìn)。 OpenAI 最強(qiáng)競(jìng)品大更新！一句話(huà)模擬人類(lèi)用電腦，AI 智能體覺(jué)醒前的重大突破

案例展示，由 APPSO 簡(jiǎn)單編譯Anthropic 開(kāi)發(fā)者關(guān)系主管 Alex Albert 還分享了一個(gè)有趣的經(jīng)歷。在開(kāi)發(fā)「computer use 」功能時(shí)，他們組織了一次工程故障排查會(huì)，目的是找出 API 中所有潛在的問(wèn)題。幾位工程師聚在一個(gè)房間里工作了幾個(gè)小時(shí)，但自然很快就餓了。其中一位工程師發(fā)出的第一個(gè)「computer use 」請(qǐng)求，就是讓 Claude 導(dǎo)航到外賣(mài)平臺(tái) DoorDash 并訂購(gòu)足夠的食物來(lái)喂飽大家。Claude 思考了大約一分鐘后，最后給工程師們訂了幾份披薩。 OpenAI 最強(qiáng)競(jìng)品大更新！一句話(huà)模擬人類(lèi)用電腦，AI 智能體覺(jué)醒前的重大突破

網(wǎng)友也很快挖出了 computer use 功能拒絕做的清單：在社交媒體或其他平臺(tái)上創(chuàng)建賬戶(hù)發(fā)送電子郵件或消息在社交媒體上發(fā)布評(píng)論進(jìn)行購(gòu)買(mǎi)訪(fǎng)問(wèn)私人信息完成驗(yàn)證碼（CAPTCHA）生成、編輯或修改圖片打電話(huà)訪(fǎng)問(wèn)受限內(nèi)容執(zhí)行需要個(gè)人身份驗(yàn)證的操作 OpenAI 最強(qiáng)競(jìng)品大更新！一句話(huà)模擬人類(lèi)用電腦，AI 智能體覺(jué)醒前的重大突破

真推理模型之王，新模型編碼遙遙領(lǐng)先再來(lái)看看升級(jí)版 Claude 3.5 Sonnet 交出的成績(jī)單。盡管現(xiàn)在大模型榜單的公信力已不如往日，但基于同一套考題的邏輯下，我們?nèi)匀荒軐?duì)新發(fā)布的模型有個(gè)初步了解。拳打 GPT-4o，腳踢 Gemini 1.5 Pro，Claude 3.5 Sonnet 在 GPQA、MMLU Pro、HumanEVal 等一系列基準(zhǔn)測(cè)試中表現(xiàn)亮眼，可謂是遙遙領(lǐng)先。特別是在編碼領(lǐng)域，Claude 3.5 Sonnet 更是進(jìn)一步拉大了領(lǐng)先優(yōu)勢(shì)。或許你會(huì)好奇，為什么榜單里沒(méi)有出現(xiàn)與 OpenAI o1 模型的對(duì)比。 OpenAI 最強(qiáng)競(jìng)品大更新！一句話(huà)模擬人類(lèi)用電腦，AI 智能體覺(jué)醒前的重大突破

別急，Anthropic 預(yù)判了你的預(yù)判，官方給出的解釋是：我們的評(píng)估表格中之所以沒(méi)有包含 OpenAI 的 o1 模型系列，是因?yàn)樗鼈冊(cè)陧憫?yīng)前需要大量的計(jì)算時(shí)間，這與大多數(shù)模型不同。這種本質(zhì)上的區(qū)別使得進(jìn)行性能比較變得復(fù)雜。翻譯一下就是，我們想比但也不好比。不過(guò)，在 SWE-bench Verified 的編碼測(cè)試中，Claude 3.5 Sonnet 的表現(xiàn)從 33.4% 提升到 49.0%，超過(guò)了包括 OpenAI o1-preview 在內(nèi)等推理模型，以及各種智能體編碼系統(tǒng)。Claude 3.5 Sonnet 真推理模型之王。此外，在 TAU-bench 智能體工具測(cè)試中，Claude 3.5 Sonnt 也表現(xiàn)不俗。TAU-bench 主要提供一個(gè)更接近真實(shí)世界應(yīng)用場(chǎng)景的評(píng)估環(huán)境。面對(duì)零售領(lǐng)域問(wèn)題，Claude 3.5 Sonnet 得分從 62.6% 提高至 69.2%，而面對(duì)航空方面的問(wèn)題，其成績(jī)也從 36.0% 上升至 46.0%。 OpenAI 最強(qiáng)競(jìng)品大更新！一句話(huà)模擬人類(lèi)用電腦，AI 智能體覺(jué)醒前的重大突破

更重要的是，這些改進(jìn)并未提高價(jià)格或降低速度，Claude 3.5 Sonnet 仍保持了與前代相同的性?xún)r(jià)比。官方博客中提到，編碼能力的改進(jìn)是 Claude 3.5 Sonnet 的最大亮點(diǎn)。GitLab 測(cè)試發(fā)現(xiàn)其推理能力提升了 10%，無(wú)額外延遲，非常適合多步驟的軟件開(kāi)發(fā)流程。The Browser Company 也指出，Claude 3.5 Sonnet 在自動(dòng)化網(wǎng)頁(yè)工作流程方面的表現(xiàn)超越了他們之前測(cè)試的所有模型。 OpenAI 最強(qiáng)競(jìng)品大更新！一句話(huà)模擬人類(lèi)用電腦，AI 智能體覺(jué)醒前的重大突破

作為追求極高安全系數(shù)的模型公司，Anthropic 自然也對(duì) Claude 3.5 Sonnet 進(jìn)行了災(zāi)難性風(fēng)險(xiǎn)評(píng)估，結(jié)果符合 ASL-2 標(biāo)準(zhǔn)。ASL-2 指的是顯示出危險(xiǎn)能力早期跡象的系統(tǒng)（例如能夠給出如何制造生物武器的指令），但這些信息由于可靠性不足或無(wú)法超越搜索引擎能提供的信息而沒(méi)有太多用處。簡(jiǎn)言之，Claude 3.5 Sonnet 再?gòu)?qiáng)，也還沒(méi)有到威脅人類(lèi)的地步。 OpenAI 最強(qiáng)競(jìng)品大更新！一句話(huà)模擬人類(lèi)用電腦，AI 智能體覺(jué)醒前的重大突破

聊完性能最強(qiáng)的模型，接下來(lái)登場(chǎng)的是，響應(yīng)速度最快的全新升級(jí)模型Claude 3.5 Haiku。光看紙面參數(shù)，中杯 Claude 3.5 Haiku 幾乎不遜色于 GPT-4o mini，甚至可以說(shuō)，它已經(jīng)可以小贏一把，整體表現(xiàn)也與前代 Claude 3 Opus 表現(xiàn)持平。但價(jià)格沒(méi)變，響應(yīng)速度也沒(méi)減，有種「加量不加價(jià)」的錯(cuò)位體驗(yàn)。類(lèi)似地，Claude 3.5 Haiku 在編碼任務(wù)的表現(xiàn)也尤為突出。它在 SWE-bench Verified 上的得分為 40.6%，超過(guò)了很多所謂的最先進(jìn)智能體，包括 Claude 3.5 Sonnet（舊版）和 GPT-4o。 OpenAI 最強(qiáng)競(jìng)品大更新！一句話(huà)模擬人類(lèi)用電腦，AI 智能體覺(jué)醒前的重大突破

低延遲、改進(jìn)的指令執(zhí)行能力以及更精準(zhǔn)的工具使用能力，這些特性都讓 Claude 3.5 Haiku 尤其適用于需要個(gè)性化服務(wù)的場(chǎng)景中。例如，根據(jù)你以前買(mǎi)東西的習(xí)慣來(lái)推薦商品，或者幫你決定商品的價(jià)格，甚至是幫你管理倉(cāng)庫(kù)里的存貨。最后，升級(jí)版的 Claude 3.5 Sonnet 現(xiàn)已面向所有用戶(hù)開(kāi)放。而 Claude 3.5 Haiku 將于本月晚些時(shí)候發(fā)布，初期只支持文本輸入，圖像輸入功能隨后推出。 OpenAI 最強(qiáng)競(jìng)品大更新！一句話(huà)模擬人類(lèi)用電腦，AI 智能體覺(jué)醒前的重大突破

實(shí)際上，如果你最近關(guān)注 AI 圈，你會(huì)發(fā)現(xiàn)行業(yè)里的幾位重要人物都當(dāng)起了「預(yù)言家」。Demis Hassabis、Sam Altman 和 Anthropic 的 Dario Amodei，都宣稱(chēng) AGI 將在未來(lái)幾年或幾千天內(nèi)實(shí)現(xiàn)。他們畫(huà)了一張又一張堪比烏托邦的 AGI 藍(lán)圖，如治愈大多數(shù)疾并解決氣候問(wèn)題、消除貧困等。如果匯總那幾篇長(zhǎng)文的核心思想，AI 幾乎成了包治百病的神藥。但話(huà)說(shuō)回來(lái)，信心還得是靠實(shí)實(shí)在在的產(chǎn)品來(lái)證明。 OpenAI 最強(qiáng)競(jìng)品大更新！一句話(huà)模擬人類(lèi)用電腦，AI 智能體覺(jué)醒前的重大突破

在沒(méi)有可靠、可持續(xù)的商業(yè)模式下，行業(yè)只能靠對(duì) AGI 的「盲信」來(lái)維持高昂的投資和支出，就好像掛在驢前面的那根晃蕩的蘿卜。換個(gè)角度說(shuō)，今天發(fā)布的 Claude 模型等一系列產(chǎn)品功能也是在讓我們重拾信心，而按照以往的產(chǎn)品發(fā)布節(jié)奏，OpenAI 預(yù)計(jì)也快要出手了。不同之處在于，OpenAI 的武器庫(kù)顯然更豐富，靠近年底，下一個(gè)亮相的會(huì)是 OpenAI o1 的正式版，還是「期貨」Sora 呢？接下來(lái)，我們就拭目以待，看 OpenAI 如何「亮劍」了。

上一篇：谷歌 Fluid 顛覆共識(shí)，AI 文生圖領(lǐng)域自回歸模型超越擴(kuò)散模型

下一篇：AI下一步怎么玩？

OpenAI 最強(qiáng)競(jìng)品大更新！一句話(huà)模擬人類(lèi)用電腦，AI 智能體覺(jué)醒前的重大突破
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-23 13:42:13 瀏覽：1701次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門(mén)排行

推薦內(nèi)容

在線(xiàn)客服

熱門(mén)欄目HotCates

關(guān)于我們

版權(quán)聲明

OpenAI 最強(qiáng)競(jìng)品大更新！一句話(huà)模擬人類(lèi)用電腦，AI 智能體覺(jué)醒前的重大突破 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-23 13:42:13 瀏覽：1701次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門(mén)排行

推薦內(nèi)容

在線(xiàn)客服

熱門(mén)欄目HotCates

關(guān)于我們

版權(quán)聲明

OpenAI 最強(qiáng)競(jìng)品大更新！一句話(huà)模擬人類(lèi)用電腦，AI 智能體覺(jué)醒前的重大突破
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-23 13:42:13 瀏覽：1701次