年初 AI 行業(yè)都在說今年會是 AI 硬件元年,現(xiàn)在看來這個說法對了一半,今年應(yīng)該是 AI 眼鏡的爆發(fā)前夜。Meta Ray-Ban 的爆火,讓各家科技公司快速跟進(jìn)。蘋果內(nèi)部啟動「Atlas」的智能眼鏡計劃,OpenAI 消費(fèi)硬件團(tuán)隊挖來了 Meta AR 眼鏡主管。有媒體報道國內(nèi)至少有 50 個團(tuán)隊在做 AI 眼鏡,當(dāng)中不乏小米、vivo、榮耀等硬件廠商。
離大模型更近的互聯(lián)網(wǎng)公司和 AI 公司自然也近水樓臺,百度今天也正式發(fā)布了全球首款搭載中文大模型的原生 AI 眼鏡小度 AI 眼鏡。在今天的百度世界大會 2024 上,百度還宣布文心大模型的日均調(diào)用量超 15 億,相較一年前首次披露的 5000 萬次,增長約 30 倍。李彥宏表示,「這條陡峭的增長曲線,代表著過去兩年中國大模型應(yīng)用的爆發(fā)!
回顧移動互聯(lián)網(wǎng)的黃金十年,應(yīng)用的爆發(fā)離不開智能手機(jī)的崛起。在混沌初開的 AI 時代,廠商開始尋找 AI 應(yīng)用落地的載體。手機(jī) PC 固然還是主流,但或許還有更適合 AI 的硬件形態(tài),眼鏡就是當(dāng)下最被市場看好的一個形態(tài)之一。關(guān)注 AI 第一新媒體,率先獲取 AI 前沿資訊和洞察
小度 AI 眼鏡,打造中國的 Meta Ray-Ban 爆款在端側(cè)硬件中,AI 智能眼鏡講出了最性感的故事。在一眾 AI 原生硬件曇花一現(xiàn)的 2024 年,Meta Ray-Ban 智能眼鏡能夠賣 300 多萬臺,幾乎是目前最成功的 AI 硬件。它能被市場接受有幾個關(guān)鍵的原因:
佩戴體驗接近日常,重量已經(jīng)沒有比常規(guī)眼鏡重太多。功能簡單,但僅有的幾個功能體驗都穩(wěn)定好用,比如語音識別和降噪。定位清晰,一開始就沒有奔著取代手機(jī)的設(shè)備去做,而是針對主流設(shè)備之外補(bǔ)充的場景提升。今天百度在發(fā)布首款 AI 眼鏡時雖然沒有提到 Meta Ray-Ban,但從產(chǎn)品形態(tài)和功能來看,也在沿著這些被驗證的產(chǎn)品設(shè)計靠近。具備第一視角拍攝,邊走邊問、識物百科等六大功能搭載 1600 萬像素超廣角攝像頭,自研 AI 防抖算法采用 4 麥克風(fēng)陣列設(shè)計,集成開放式揚(yáng)聲器支持 56 個小時超長待機(jī),半小時充滿電重量僅 45 克,有多種款式可供選擇
APPSO 在現(xiàn)場
百度希望這款 AI 眼鏡能夠成為一部行走的百科全書。依托百度地圖的位置服務(wù),以及百度搜索、百度百科深度融合,小度 AI 眼鏡可以邊走邊問,結(jié)合視覺和定位的技術(shù),隨時隨地地了解歷史、文化和風(fēng)土人情。
在出國開會或者是逛博物館時,小度 AI 眼鏡不僅能夠?qū)崟r翻譯,還能智能分析拍照的內(nèi)容,提煉信息,特別是面對大段外文文字時,它也能輕松應(yīng)對。在閱讀時,它可以成為你的智能筆記助手,輕點即可將重點文字加入備忘錄。百度的 AI 眼鏡搭載文心大模型沒有懸念,但同時其也搭載了 DuerOS AI 原生操作系統(tǒng),在自然語言交互、多模態(tài)感知和擬人化呈現(xiàn)方面表現(xiàn)出色。
另一方面,小度 AI 眼鏡在硬件素質(zhì)方面也不遑多讓。小度 AI 眼鏡搭載 1600 萬像素的超廣角攝像頭,遠(yuǎn)超行業(yè)標(biāo)準(zhǔn)。相比之下,Meta Ray-Ban 眼鏡也只是搭載了 1200 萬像素的超廣角攝像頭。
同時百度還自研了 AI 防抖的算法,不管是靜態(tài)的風(fēng)景還是動態(tài)的場景,都能表現(xiàn)出色。
作為語音交互的重要載體設(shè)備,小度 AI 眼鏡還具備敏銳的聽覺能力。通過采用 4 麥克風(fēng)陣列設(shè)計,小度 AI 眼鏡不僅可以更立體地進(jìn)行聲音的捕捉,保障嘈雜環(huán)境下通話的清晰度,還能夠更準(zhǔn)確地識別聲源的方向。此外,小度 AI 眼鏡還采用了定制的開放式揚(yáng)聲器單元,聲音更自然,音質(zhì)也更清晰。值得注意的是,語音識別和降噪也是新一代 Meta Ray-Ban 最大的亮點之一,百度這款眼鏡和 Meta Ray-Ban 的 5 麥克風(fēng)陣列對比效果如何,也是后續(xù)用戶體驗很關(guān)鍵的地方
基于低功耗電路架構(gòu)設(shè)計,小度 AI 眼鏡還能實現(xiàn) 56 個小時的待機(jī),連續(xù)聽歌 5 個小時。
摘下眼鏡休息 30 分鐘,就可以快速充滿電,真全天候「智能」。和 Meta Ray-Ban 等產(chǎn)品類似,這款眼鏡也是通過不搭載顯示屏來保證長續(xù)航,這對于一款智能眼鏡的體驗來說十分關(guān)鍵。
作為全天候佩戴的眼鏡,輕薄是必不可少的。小度 AI 眼鏡的重量達(dá)到了 45 克,比 Meta Ray-Ban 還輕了 4 克,能夠減少對鼻梁和耳朵的壓力,在長時間佩戴時更為舒適。此外,小度 AI 眼鏡的外形設(shè)計與普通眼鏡幾乎無異,而且還有多個款式可供選擇,兼顧實用性與時尚性。既有里子,也要面子。小度科技 CEO 李瑩表示,小度 AI 眼鏡是小度軟硬智能化的集大成之作。這款眼鏡計劃明年上半年正式上市,而尚未公布的價格將成為最大懸念。據(jù)說會是一個「驚喜價格」。而此前也有消息稱,小度 AI 眼鏡的售價將低于 Meta Ray-Ban 眼鏡的 299 美元。作為對比,國內(nèi) AI 眼鏡的價格普遍在 2000 至 3000 元價位之間。比如雷鳥 Air 2、XREAL Air 2、Rokid MAX 等產(chǎn)品,起售價分別為 2499元、2599 元和 2999 元。
大模型基本解決幻覺問題,兩大「超級有用」AI 技術(shù)發(fā)布大模型已經(jīng)發(fā)展了兩年,那么對于 AI 行業(yè)而言,最大的變化是什么?李彥宏給出的答案是,大模型基本消除了幻覺。大模型是一個概率模型,生成的內(nèi)容具有不確定性。采用 RAG 技術(shù)后,大模型會利用檢索到的信息來指導(dǎo)文本或答案的生成,從而極大提高內(nèi)容的質(zhì)量和準(zhǔn)確性。今天,文字層面的 RAG 已經(jīng)做得很好,但圖像等多模態(tài)內(nèi)容和 RAG 的結(jié)合還不夠,或者說,至少沒有文生文 RAG 解決得那么好。
隨手讓圖像模型生成一張?zhí)靿恼掌,最后生成的天壇照片連層數(shù)都能弄混。為此,百度將百度搜索的億級圖片資源跟強(qiáng)大的基礎(chǔ)模型能力進(jìn)行結(jié)合,正式發(fā)布了文心 iRAG。文心 iRAG 主打無幻覺、超真實、沒成本以及立等可取等的特點。此外,文心 iRAG 還能夠精準(zhǔn)生成特定物品/人物與任意背景,比如讓不同 AI 模型生成愛因斯坦與天壇的打卡合照。相比之下,由 iRAG 生成的圖像更真實,質(zhì)量也更好。
作為一項基礎(chǔ)技術(shù),iRAG 的應(yīng)用空間廣闊,比如影視作品、漫畫作品,連續(xù)畫本,海報制作等,AI 生圖都可以大幅降低創(chuàng)作成本。另一個最新的 AI 技術(shù),則是無代碼工具「秒噠」。秒噠是一個不需要寫代碼,由大模型和智能體組成的全新軟件。李彥宏表示,無需寫代碼,秒噠能夠?qū)崿F(xiàn)任意想法,讓每個人都具備程序員的能力。我認(rèn)為它是迄今為止人類歷史上最復(fù)雜的多智能體協(xié)作工具。它包括無代碼的編程,多智能體的協(xié)作,以及規(guī);{(diào)用各種工具的能力。
發(fā)布會現(xiàn)場舉例稱,假如我們需要打造一個蘿卜快跑活動邀請系統(tǒng),并把邀請函分享給其他人,收集想法和反饋,直接使用秒噠就可以滿足這個需求。上傳有關(guān)活動的時間、地點和主題,然后秒噠接收到指令之后,就會出現(xiàn)負(fù)責(zé)規(guī)劃和調(diào)度的小組長智能體。
它能夠把任務(wù)拆解成了需求,確定內(nèi)容,生產(chǎn)、答案工程開發(fā)這三個步驟,然后召喚各個智能體來協(xié)作完成這個任務(wù)。比如策劃智能體(一號)負(fù)責(zé)活動邀請函的策劃設(shè)計解決方案。
然后策劃智能體把這個任務(wù)又分拆成了核心需求、內(nèi)容結(jié)構(gòu)、開發(fā)需求、數(shù)據(jù)收集這四個子任務(wù)。接下來,小編智能體(二號)的主要職責(zé)就是編輯邀請函當(dāng)中的所有的文字和媒體內(nèi)容。以此類推,不斷涌現(xiàn)出更多智能體來實現(xiàn)這一需求。
當(dāng)然,如果對成品的畫風(fēng)不太滿意,想要更換的,輸入想法之后,負(fù)責(zé)編寫代碼、制作和部署網(wǎng)頁的程序員智能體會再寫一次代碼,直接給出新的版本。而在這個過程中,你不需要懂得任何代碼。由此,我們可以總結(jié)出秒噠的三個特性無代碼編程,多智能體協(xié)作,多工具調(diào)用。李彥宏表示,即日起,用戶可以排隊預(yù)約秒噠,預(yù)計將在明年一季度正式發(fā)布。
AI 應(yīng)用時代,真的來了百度認(rèn)為,智能體是 AI 應(yīng)用的最主流形態(tài),即將迎來它的爆發(fā)點。在今天的發(fā)布會上,李彥宏也將智能體分為了四類:公司類智能體、角色類智能體、工具類智能體、以及行業(yè)類智能體。公司類智能體公司類智能體可以簡單理解成 AI 時代的公司官網(wǎng),支持主動推薦,及時響應(yīng),一對一服務(wù)。舉例來說,百度搜索比亞迪,喚醒官方智能體,讓其推薦一款性能均衡的車型,以往你需要在傳統(tǒng)官網(wǎng)研究很久,但智能體能夠?qū)?shù)捋清楚,以及回答各種個性化的問題。比起傳統(tǒng)的官網(wǎng),智能體既是你的品牌顧問,又是你的金牌銷售和客服,既專業(yè)又貼心。
據(jù)介紹,比亞迪官方智能體上線以后,它的銷售線索的轉(zhuǎn)化率提升了119%。聯(lián)想 AI PC 的智能體,九月份互動率提升了 89%,銷售線索的轉(zhuǎn)化率提升了 80%。李彥宏表示,未來公司的官方智能體很可能會替代官網(wǎng),成為最直接面向消費(fèi)者的一個界面。角色類智能體高度擬人化的智能體,則更聰明,有情感,有態(tài)度。最典型的例子當(dāng)屬數(shù)字人。百度搜索教育輔導(dǎo),跳轉(zhuǎn)的數(shù)字人的效果更自然,動作幅度更大。據(jù)李彥宏透露,數(shù)字人直播的轉(zhuǎn)化率甚至超越了真人?梢哉f,有了數(shù)字虛擬人,我們從未如此離名師、名醫(yī)、王牌律師這么近。
工具類智能體百度文庫和百度網(wǎng)盤還聯(lián)合發(fā)布了自由畫布。自由畫布支持輸入自由,不限數(shù)據(jù)來源;編輯自由,改寫擴(kuò)寫,續(xù)寫都可以;創(chuàng)作自由;分享自由,支持用戶個人云以及朋友圈。在發(fā)布會現(xiàn)場,李彥宏向我們展示了用自由畫布創(chuàng)造大圣穿越到現(xiàn)代探險的故事。
孫悟空在瀏覽打卡圣地后,最后來到了上海,不僅故事邏輯清晰,而且整體畫面也沒崩,一致性很好,甚至還能跳出條條框框,讓小朋友融入到個人定制的畫本當(dāng)中。李彥宏也說了,自由畫布不是期貨,很快會正式上線,不妨期待一下。
行業(yè)類智能體被車撞了,對方全責(zé),卻不給賠償怎么辦?那么你可以咨詢法律行業(yè)類智能體法行寶,它會給出詳細(xì)的步驟指導(dǎo),并且交通事故賠償怎么計算,幫寫一封交通事故起訴狀,有了法行寶,這些都不是事。
上線半年多以來,法行寶為 940 多萬人提供了高效的、可信賴的法律服務(wù),累計回答用戶 1660 萬個法律問題,堪稱每個普通人專屬的免費(fèi) AI 律師。在大模型的產(chǎn)業(yè)應(yīng)用方面,目前有 15 萬家企業(yè)、80 萬開發(fā)者入駐文心智能體平臺,而且有超 60% 的央國企和大量民營企業(yè)選擇百度智能云進(jìn)行 AI 創(chuàng)新。其中,百度智能云的千帆大模型平臺已經(jīng)累計幫助用戶精調(diào)了 3.3 萬個大模型,開發(fā)出了 77 萬個企業(yè)應(yīng)用,擁有中國最大的大模型產(chǎn)業(yè)落地的規(guī)模。就具體的落地合作案例來說,百度與百勝中國合作,打造大模型服務(wù)專區(qū),實現(xiàn)大模型點餐。智聯(lián)招聘則借助百度 AI 的服務(wù),追求求職者與企業(yè)的雙向奔赴,實現(xiàn)人崗匹配平均準(zhǔn)確率達(dá)到 93%,大模型使用成本下降了 90%。
寫在最后,智能體站在新時代的風(fēng)口浪尖,正在成為下一個應(yīng)用爆發(fā)點。在人類信息技術(shù)演進(jìn)的各個歷史階段,應(yīng)用的形態(tài)各異,各領(lǐng)風(fēng)騷。李彥宏表示,在個人 PC 時代,它們以軟件和網(wǎng)站的形式出現(xiàn);在移動互聯(lián)網(wǎng)時代,它們轉(zhuǎn)變?yōu)橐粋個 APP 和賬號。而現(xiàn)在,在這個由 AI 主導(dǎo)的時代,智能體正在成為應(yīng)用的主流形態(tài)。隨著大模型技術(shù)的能力還在以指數(shù)級的躍遷,自然語言就成為了這個時代最重要的編程語言。我們每一個人都能夠動手,創(chuàng)造一個屬于自己的,也屬于他人的 AI 應(yīng)用或者智能體。如李彥宏在演講的尾聲所說:國外有一種說法叫「軟件吞噬世界」。但我認(rèn)為,這個世界不應(yīng)該被吞噬,而應(yīng)該被創(chuàng)造。AI 時代,應(yīng)用創(chuàng)造世界。