展會信息港展會大全

OpenAI 最強競品大更新!一句話模擬人類用電腦,AI 智能體覺醒前的重大突破
來源:互聯(lián)網   發(fā)布日期:2024-10-23 13:42:13   瀏覽:625次  

導讀:天下苦 OpenAI 擠牙膏久矣。環(huán)顧宇內,能夠與 OpenAI 抗衡的對手屈指可數(shù),Anthropic 旗下的 Claude 模型算是一個靠譜的勁敵。盼星星,盼月亮,沒有等到「超大杯」Opus 的亮相,但好在也等來了全新升級的大杯 Claude 3.5 Sonnet。 X 網友 @skirano 梗圖簡單...

天下苦 OpenAI 擠牙膏久矣。環(huán)顧宇內,能夠與 OpenAI 抗衡的對手屈指可數(shù),Anthropic 旗下的 Claude 模型算是一個靠譜的勁敵。盼星星,盼月亮,沒有等到「超大杯」Opus 的亮相,但好在也等來了全新升級的大杯 Claude 3.5 Sonnet。

X 網友 @skirano 梗圖簡單總結這次更新的亮點:拳打 GPT-4o,腳踢 Gemini 1.5 Pro,新版 Claude 3.5 Sonnet 表現(xiàn)遙遙領先Claude 3.5 Haiku 響應速度最快,性能媲美 GPT-4o mini構建 API,教 Claude 怎么玩電腦關注 AI 第一新媒體,率先獲取 AI 前沿資訊和洞察

教 Claude 玩電腦,AI 鍵盤俠來了?這次更新的重頭戲其實不是新模型,而是怎么教 AI 玩電腦。Anthropic 推出了一個公開測試的革命性功能「computer use」:通過 API 教 Claude 像個人一樣操作電腦,能看屏幕、動光標、點按鈕、打字……簡單說就是,Claude 現(xiàn)在能用人類設計的標準工具和軟件了。而開發(fā)者可以借此解放一些枯燥的重復性流程任務,甚至進行開放式任務,如研究。

為了讓 Claude 具備這種技能,Anthropic 專門打造了一個 API,并使得 Claude 能夠感知并與計算機界面產生交互。具體來說,開發(fā)者在交互過程中集成這一 API,讓 Claude 將指令(比如:「用我電腦上的數(shù)據(jù),結合網上信息填個表」)翻譯成計算機指令(比如:檢查個表格,動動鼠標打開個瀏覽器,導航到相關網頁,然后用網上的數(shù)據(jù)把表格填滿)。

案例展示,視頻由 APPSO 簡單編譯OSWorld 是一個用于測試多模態(tài)智能體在真實計算機環(huán)境中執(zhí)行開放式任務的能力的基準測試平臺,通常用來評估 AI 模型是否具備像人類一樣使用計算機的能力。Claude 3.5 Sonnet 在僅用截圖的測試類別中得分 14.9%,遠超第二名的 7.8%。在允許使用更多步驟時,Claude 的得分為 22.0%。一些公司的產品已經提前用上了這一功能。例如,Replit 正在利用 Claude 3.5 Sonnet 的計算機操作與界面導航能力,為其 Replit 智能體產品開發(fā)一項關鍵功能,用于評估正在構建中的應用程序。當然,這種做法其實并不新鮮。因為在此之前,Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 已經開始探索這些可能性,執(zhí)行需要幾十甚至上百步的任務。

案例展示,視頻由 APPSO 簡單編譯不過,理想很豐滿,現(xiàn)實很骨感。官方也坦誠,當前這一功能仍處于實驗階段,在操作計算機時速度較慢,并且經常會出現(xiàn)錯誤。一些簡單的操作比如滾動、拖動、縮放,看似人類一揮手就能搞定的事兒,對 Claude 來說依然是個不小的挑戰(zhàn)。在錄制這些演示的過程中,我們遇到了一些有趣的插曲。有一次,Claude 不小心終止了一個正在進行的長時間屏幕錄制,結果所有的錄像素材都丟失了。之后,Claude 在我們的編碼演示間隙休息了一下,開始欣賞黃石國家公園的照片。此外,Claude 通過截取屏幕的靜態(tài)圖像,然后將這些圖像組合起來,以理解屏幕上發(fā)生的事情,但也正因此,它可能無法捕捉到屏幕上的短暫動作或通知,比如彈出窗口或快速變化的圖標。官方也說了,之所以提前發(fā)布這項功能,是為了獲取開發(fā)者的反饋,預計這功能隨著時間會逐漸有所改進。

案例展示,由 APPSO 簡單編譯Anthropic 開發(fā)者關系主管 Alex Albert 還分享了一個有趣的經歷。在開發(fā)「computer use 」功能時,他們組織了一次工程故障排查會,目的是找出 API 中所有潛在的問題。幾位工程師聚在一個房間里工作了幾個小時,但自然很快就餓了。其中一位工程師發(fā)出的第一個「computer use 」請求,就是讓 Claude 導航到外賣平臺 DoorDash 并訂購足夠的食物來喂飽大家。Claude 思考了大約一分鐘后, 最后給工程師們訂了幾份披薩。

網友也很快挖出了 computer use 功能拒絕做的清單:在社交媒體或其他平臺上創(chuàng)建賬戶發(fā)送電子郵件或消息在社交媒體上發(fā)布評論進行購買訪問私人信息完成驗證碼(CAPTCHA)生成、編輯或修改圖片打電話訪問受限內容執(zhí)行需要個人身份驗證的操作

真推理模型之王,新模型編碼遙遙領先再來看看升級版 Claude 3.5 Sonnet 交出的成績單。盡管現(xiàn)在大模型榜單的公信力已不如往日,但基于同一套考題的邏輯下,我們仍然能對新發(fā)布的模型有個初步了解。拳打 GPT-4o,腳踢 Gemini 1.5 Pro,Claude 3.5 Sonnet 在 GPQA、MMLU Pro、HumanEVal 等一系列基準測試中表現(xiàn)亮眼,可謂是遙遙領先。特別是在編碼領域,Claude 3.5 Sonnet 更是進一步拉大了領先優(yōu)勢;蛟S你會好奇,為什么榜單里沒有出現(xiàn)與 OpenAI o1 模型的對比。

別急,Anthropic 預判了你的預判,官方給出的解釋是:我們的評估表格中之所以沒有包含 OpenAI 的 o1 模型系列,是因為它們在響應前需要大量的計算時間,這與大多數(shù)模型不同。這種本質上的區(qū)別使得進行性能比較變得復雜。翻譯一下就是,我們想比但也不好比。不過,在 SWE-bench Verified 的編碼測試中,Claude 3.5 Sonnet 的表現(xiàn)從 33.4% 提升到 49.0%,超過了包括 OpenAI o1-preview 在內等推理模型,以及各種智能體編碼系統(tǒng)。Claude 3.5 Sonnet 真推理模型之王。此外,在 TAU-bench 智能體工具測試中,Claude 3.5 Sonnt 也表現(xiàn)不俗。TAU-bench 主要提供一個更接近真實世界應用場景的評估環(huán)境。面對零售領域問題,Claude 3.5 Sonnet 得分從 62.6% 提高至 69.2%,而面對航空方面的問題,其成績也從 36.0% 上升至 46.0%。

更重要的是,這些改進并未提高價格或降低速度,Claude 3.5 Sonnet 仍保持了與前代相同的性價比。官方博客中提到,編碼能力的改進是 Claude 3.5 Sonnet 的最大亮點。GitLab 測試發(fā)現(xiàn)其推理能力提升了 10%,無額外延遲,非常適合多步驟的軟件開發(fā)流程。The Browser Company 也指出,Claude 3.5 Sonnet 在自動化網頁工作流程方面的表現(xiàn)超越了他們之前測試的所有模型。

作為追求極高安全系數(shù)的模型公司,Anthropic 自然也對 Claude 3.5 Sonnet 進行了災難性風險評估,結果符合 ASL-2 標準。ASL-2 指的是顯示出危險能力早期跡象的系統(tǒng)(例如能夠給出如何制造生物武器的指令),但這些信息由于可靠性不足或無法超越搜索引擎能提供的信息而沒有太多用處。簡言之,Claude 3.5 Sonnet 再強,也還沒有到威脅人類的地步。

聊完性能最強的模型,接下來登場的是,響應速度最快的全新升級模型Claude 3.5 Haiku。光看紙面參數(shù),中杯 Claude 3.5 Haiku 幾乎不遜色于 GPT-4o mini,甚至可以說,它已經可以小贏一把,整體表現(xiàn)也與前代 Claude 3 Opus 表現(xiàn)持平。但價格沒變,響應速度也沒減,有種「加量不加價」的錯位體驗。類似地,Claude 3.5 Haiku 在編碼任務的表現(xiàn)也尤為突出。它在 SWE-bench Verified 上的得分為 40.6%,超過了很多所謂的最先進智能體,包括 Claude 3.5 Sonnet(舊版)和 GPT-4o。

低延遲、改進的指令執(zhí)行能力以及更精準的工具使用能力,這些特性都讓 Claude 3.5 Haiku 尤其適用于需要個性化服務的場景中。例如,根據(jù)你以前買東西的習慣來推薦商品,或者幫你決定商品的價格,甚至是幫你管理倉庫里的存貨。最后,升級版的 Claude 3.5 Sonnet 現(xiàn)已面向所有用戶開放。而 Claude 3.5 Haiku 將于本月晚些時候發(fā)布,初期只支持文本輸入,圖像輸入功能隨后推出。

實際上,如果你最近關注 AI 圈,你會發(fā)現(xiàn)行業(yè)里的幾位重要人物都當起了「預言家」。Demis Hassabis、Sam Altman 和 Anthropic 的 Dario Amodei,都宣稱 AGI 將在未來幾年或幾千天內實現(xiàn)。他們畫了一張又一張堪比烏托邦的 AGI 藍圖,如治愈大多數(shù)疾并解決氣候問題、消除貧困等。如果匯總那幾篇長文的核心思想,AI 幾乎成了包治百病的神藥。但話說回來,信心還得是靠實實在在的產品來證明。

在沒有可靠、可持續(xù)的商業(yè)模式下,行業(yè)只能靠對 AGI 的「盲信」來維持高昂的投資和支出,就好像掛在驢前面的那根晃蕩的蘿卜。換個角度說,今天發(fā)布的 Claude 模型等一系列產品功能也是在讓我們重拾信心,而按照以往的產品發(fā)布節(jié)奏,OpenAI 預計也快要出手了。不同之處在于,OpenAI 的武器庫顯然更豐富,靠近年底,下一個亮相的會是 OpenAI o1 的正式版,還是「期貨」Sora 呢?接下來,我們就拭目以待,看 OpenAI 如何「亮劍」了。

贊助本站

AiLab云推薦
推薦內容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港