展會信息港展會大全

Anthropic讓AI像人一樣用電腦,支持開發(fā)者通過API配置和調(diào)用
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-10-23 20:10:07   瀏覽:1102次  

導(dǎo)讀:起猛了!一覺醒來,AI學(xué)會像人類一樣操作電腦了! 當(dāng)?shù)貢r間10月22號,知名AI初創(chuàng)公司Anthropic發(fā)布了Claude 3.5模型家族的更新:新模型Claude 3.5 Haiku發(fā)布,同時現(xiàn)有模型Claude 3.5 Sonnet獲得了升級。 最為驚喜的是,升級版Claude 3.5 Sonnet不僅在各項(xiàng)性...

起猛了!一覺醒來,AI學(xué)會像人類一樣操作電腦了!

當(dāng)?shù)貢r間10月22號,知名AI初創(chuàng)公司Anthropic發(fā)布了Claude 3.5模型家族的更新:新模型Claude 3.5 Haiku發(fā)布,同時現(xiàn)有模型Claude 3.5 Sonnet獲得了升級。

最為驚喜的是,升級版Claude 3.5 Sonnet不僅在各項(xiàng)性能指標(biāo)上取得顯著提升,更是獲得了一項(xiàng)革命性的新技能:能夠像人類一樣操作電腦。

盡管我們現(xiàn)在幾乎每天都能看到AI技術(shù)的更新,但這一新突破足以刷新人們的認(rèn)知,也標(biāo)志著AI技術(shù)在實(shí)際應(yīng)用領(lǐng)域邁出了關(guān)鍵性的一步。

這項(xiàng)功能名為Computer Use(計(jì)算機(jī)使用),目前處于Beta公測階段,僅支持開發(fā)者通過API配置和調(diào)用。網(wǎng)頁端的Claude版本雖然已經(jīng)更新到了Claude 3.5 Sonnet (New),但并沒有這項(xiàng)功能。

具體來說,Claude能夠通過觀看屏幕截圖,實(shí)現(xiàn)移動光標(biāo)、點(diǎn)擊按鈕、使用虛擬鍵盤輸入文本等操作,真正模擬人類與計(jì)算機(jī)交互的方式。

圖 | Claude演示視頻,它正在操作電腦,debug一段代碼(來源:Anthropic)

“這對于 AI 模型來說是一項(xiàng)全新的能力。”Anthropic開發(fā)者關(guān)系負(fù)責(zé)人亞歷克斯艾伯特(Alex Albert)在X平臺上寫道,“我們不是為單個任務(wù)開發(fā)定制工具,而是向 Claude 傳授基本的計(jì)算機(jī)技能,讓它能夠自然地使用人們?nèi)粘J褂玫南嗤浖凸ぞ摺?rdquo;

這意味著AI助手終于可以突破傳統(tǒng)框架的束縛,直接使用為人類設(shè)計(jì)的各類軟件,而不再局限于專門定制的工具。這將為AI在現(xiàn)實(shí)世界中的應(yīng)用開辟全新的可能。

在demo演示中,亞歷克斯展示了如何讓Claude使用Computer Use功能打開Claude網(wǎng)頁,然后使用Artifact功能編寫代碼:

Claude 還能找到并打開電腦上的其他軟件,比如VSCode:

在多個演示視頻中,我們可以看到,Claude能夠絲滑地操作電腦執(zhí)行打開軟件、網(wǎng)頁搜索、文本輸入、編寫代碼、下載文件、debug、查找網(wǎng)頁表格并填入信息等任務(wù),甚至還能打開外賣平臺訂餐。

圖 | Claude 點(diǎn)的外賣(來源:亞歷克斯)

據(jù)介紹,Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 等多家公司已經(jīng)在探索Claude的新功能,執(zhí)行原本需要數(shù)十步甚至數(shù)百步才能完成的任務(wù)。

在研究人員的測試過程中,Claude也出現(xiàn)過一些令人忍俊不禁的失誤。比如,它曾意外地終止了一次長時間的屏幕錄制,導(dǎo)致所有錄像丟失;另一次在進(jìn)行代碼演示時,它突然對黃石國家公園產(chǎn)生了濃厚興趣,于是打開瀏覽器開始悠閑地搜索起來。

這些失誤說明該技術(shù)仍存在很大的提升空間。

數(shù)據(jù)顯示,盡管Claude在使用電腦方面的表現(xiàn)已經(jīng)達(dá)到了業(yè)界領(lǐng)先水平:它在OSWorld電腦操作評估測試中獲得了14.9%的成績,遠(yuǎn)超其他AI模型的7.8%最高分,但與人類的70-75%的水平相比仍有相當(dāng)大的差距。

當(dāng)用戶提供更多完成任務(wù)所需的步驟時,Claude的得分可以提升到22.0%。

目前,一些對人類來說輕而易舉的電腦操作,如滾動、拖拽和縮放等,對Claude來說仍具有相當(dāng)?shù)奶魬?zhàn)性。此外,由于它是通過連續(xù)的截圖來“觀察”屏幕,而不是更細(xì)粒度的視頻流,這使得它可能會錯過一些間隔較短的操作或通知。

升級版Claude 3.5 Sonnet性能如何?

在各種基準(zhǔn)測試的考驗(yàn)下,新版Claude 3.5 Sonnet的表現(xiàn)依舊亮眼。

在軟件工程方面,它在SWE-bench Verified評測中的得分從33.4%大幅躍升至49.0%,一舉超越了包括OpenAI o1-preview在內(nèi)的所有公開可用模型。

(來源:Anthropic,亞歷克斯)

在零售領(lǐng)域的TAU-bench測試中,其表現(xiàn)從62.6%提升到69.2%,在難度更高的航空領(lǐng)域測試中也從36.0%提升至46.0%。這些數(shù)據(jù)充分證明了其在復(fù)雜任務(wù)處理方面的顯著進(jìn)步。

在推理方面,新版Claude 3.5 Sonnet的推理測試基準(zhǔn)GPQA (Diamond) 成績?yōu)?5%,超過了GPT-4o的53.6%。不過OpenAI o1-preview并不在對比之列,Anthropic給出的理由是,“該系列模型依賴大規(guī);貜(fù)前計(jì)算時間,與一般模型不同”。

知名開發(fā)平臺GitLab對新版Claude進(jìn)行的測試顯示,在DevSecOps任務(wù)中,模型的推理能力提升了10%,且沒有增加任何延遲。Browser Company在使用該模型實(shí)現(xiàn)網(wǎng)頁工作流自動化時也發(fā)現(xiàn),新版Claude的表現(xiàn)超越了他們之前測試過的所有模型。

與此同時,新版Claude 3.5 Sonnet的價格并未改變:每百萬輸入Token 3美元,每百萬輸出Token 15美元。

此次更新中,Anthropic還正式推出了Claude 3.5 Haiku。它是Claude 3.5系列里體積最小,但響應(yīng)速度最快的模型。

與前輩Claude 3 Haiku相比,它的各項(xiàng)技能都得到了全面提升,甚至在多個智能基準(zhǔn)測試中超越了上一代最強(qiáng)模型Claude 3 Opus。

在SWE-bench Verified測試中,Haiku獲得了40.6%的高分,超過了許多使用最先進(jìn)模型的AI智能代理。

Anthropic表示,憑借其低延遲、更準(zhǔn)確的指令執(zhí)行能力和工具使用能力,Haiku特別適合需要大量交互的面向用戶的產(chǎn)品,以及使用海量數(shù)據(jù)生成個性化體驗(yàn)。

Claude 3.5 Haiku預(yù)計(jì)將于本月晚些時候推出,可用平臺包括Anthropic API、Amazon Bedrock和谷歌云Vertex AI。起初它僅支持純文本輸入,未來將加入圖像輸入功能。

Claude 3.5 Haiku的定價是每百萬輸入Token 0.25美元,每百萬輸出Token 1.25美元。

值得注意的是,目前Claude 3.5模型系列仍有Opus尚未亮相。這應(yīng)該是其中體積最大、性能最強(qiáng)的模型。

考慮到AI技術(shù)可能被濫用于制造垃圾信息、傳播錯誤信息或?qū)嵤┢墼p等行為,而且它現(xiàn)在還能直接操控用戶電腦,Anthropic在放出更新的同時,格外強(qiáng)調(diào)了對模型安全性的重視。

該公司專門開發(fā)了新的分類器和其他方法來識別和減輕潛在的濫用風(fēng)險(xiǎn)。特別是考慮到即將到來的美國大選,他們加強(qiáng)了對相關(guān)活動的監(jiān)控力度并建立了相應(yīng)機(jī)制,引導(dǎo)Claude避開某些敏感電腦操作,如在社交媒體發(fā)布內(nèi)容、注冊網(wǎng)站域名或與政府網(wǎng)站交互等。

安全性驗(yàn)證方面,新版Claude 3.5 Sonnet已經(jīng)通過了美國AI安全研究所(US AISI)和英國安全研究所(UK AISI)的聯(lián)合測試。

根據(jù)Anthropic的負(fù)責(zé)任擴(kuò)展政策(Responsible Scaling Policy),新版Claude 3.5 Sonnet仍然保持在AI安全等級2級(ASL-2),這表明現(xiàn)有的安全和安保措施足以應(yīng)對其帶來的風(fēng)險(xiǎn)。

該公司特別強(qiáng)調(diào),他們不會將用戶提交的數(shù)據(jù)(包括Claude接收到的屏幕截圖)用于訓(xùn)練生成式AI模型。

對于“提示注入”類網(wǎng)絡(luò)攻擊,Anthropic也采取了防范措施。由于Claude能夠解釋來自互聯(lián)網(wǎng)的屏幕截圖,因此可能會接觸到包含惡意指令的內(nèi)容,這些指令可能會導(dǎo)致原有指令被覆蓋或執(zhí)行與用戶原意相違背的操作。

圖 | Anthropic提醒開發(fā)者注意風(fēng)險(xiǎn)(來源:Anthropic)

為此,該公司為開發(fā)者提供了詳細(xì)的實(shí)施參考指南,幫助他們采取相應(yīng)的預(yù)防措施,其中包括:

1.使用具有最小權(quán)限的專用虛擬機(jī)或容器,以防止直接的系統(tǒng)攻擊或事故。

2.避免讓模型訪問敏感數(shù)據(jù),例如帳戶登錄信息,以防止信息盜竊。

3.將互聯(lián)網(wǎng)訪問限制在域名允許列表中,以減少接觸惡意內(nèi)容的機(jī)會。

4.要求人類確認(rèn)可能導(dǎo)致有意義的現(xiàn)實(shí)世界后果的決定,以及任何需要征求同意(授權(quán))的任務(wù),例如接受 cookie、執(zhí)行金融交易或同意服務(wù)條款。

盡管AI直接操作電腦的技術(shù)仍有局限性和隱藏風(fēng)險(xiǎn),但它所代表的突破性進(jìn)展仍然令人興奮。它預(yù)示著AI技術(shù)正在向著更加實(shí)用和智能的方向邁進(jìn)。通過不斷改進(jìn)和完善,我們有理由相信,AI助手將在未來變得更快、更可靠,能更好地滿足用戶的各種需求。

正如Anthropic開發(fā)者關(guān)系負(fù)責(zé)人所說:“Computer Use功能是邁向全新人機(jī)交互形式的第一步。再過幾年,我們與計(jì)算機(jī)交互的方式將與今天完全不同。”

參考資料:

https://www.anthropic.com/news/3-5-models-and-computer-use

https://docs.anthropic.com/en/docs/build-with-claude/computer-use

https://www.anthropic.com/news/developing-computer-use

https://techcrunch.com/2024/10/22/anthropics-new-ai-can-control-your-pc/

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港