展會(huì)信息港展會(huì)大全

科技巨頭打響語(yǔ)音模型之戰(zhàn)!亞馬遜用Claude升級(jí)Alexa,Cerebras語(yǔ)音模式快如閃電
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-09-10 14:24:51   瀏覽:2518次  

導(dǎo)讀:新智元報(bào)道 編輯:?jiǎn)虠?Frey 【新智元導(dǎo)讀】 雖然OpenAI的「Her」還是期貨,但硅谷的科技巨頭們已經(jīng)開始相繼發(fā)力語(yǔ)音模型。前有谷歌的Gemini Live和蘋果的升級(jí)版Siri,如今巨頭亞馬遜和新秀Cerebras也加入了這場(chǎng)競(jìng)爭(zhēng)。繼OpenAI在5月發(fā)布會(huì)上展示「期貨」GPT-...

新智元報(bào)道

編輯:?jiǎn)虠?Frey【新智元導(dǎo)讀】雖然OpenAI的「Her」還是期貨,但硅谷的科技巨頭們已經(jīng)開始相繼發(fā)力語(yǔ)音模型。前有谷歌的Gemini Live和蘋果的升級(jí)版Siri,如今巨頭亞馬遜和新秀Cerebras也加入了這場(chǎng)競(jìng)爭(zhēng)。繼OpenAI在5月發(fā)布會(huì)上展示「期貨」GPT-4o的語(yǔ)音功能后,「AI語(yǔ)音助手」類的產(chǎn)品又成為了硅谷科技巨頭的必爭(zhēng)之地。

緊跟著OpenAI開發(fā)布會(huì)的谷歌也馬上宣布Gemini將推出語(yǔ)音聊天模式Gemini Live。

8月,谷歌在Pixel 9活動(dòng)上正式發(fā)布了Gemini Live,取代了原來谷歌助手的產(chǎn)品定位。

類似GPT-4o,Gemini Live不僅能實(shí)現(xiàn)隨時(shí)打斷的對(duì)話式交流,還有對(duì)設(shè)備屏幕的感知能力,可以實(shí)時(shí)解釋用戶的屏幕或視頻信息。

Gemini Live目前已經(jīng)針對(duì)安卓設(shè)備推出,但仍只有英語(yǔ)模式,未來還將登錄iOS系統(tǒng)并提供更多語(yǔ)言。

6月,蘋果就在WWDC大會(huì)上展示了如何用Apple Intelligence給2011年就誕生的Siri改頭換面。

與谷歌和OpenAI著重強(qiáng)調(diào)的「交流」功能不同,Siri似乎更專注于語(yǔ)音「助手」的定位。

屏幕感知、跨應(yīng)用操作、智能體般的多命令處理,一個(gè)都不少。

比如,動(dòng)動(dòng)嘴便可打開文檔、將筆記移動(dòng)到另一個(gè)文件夾、發(fā)送或刪除電子郵件、在Apple News中打開特定文章、發(fā)送網(wǎng)頁(yè)鏈接,甚至請(qǐng)求設(shè)備提供文章摘要。

但是,這版更強(qiáng)Siri的上線還沒有明確期限,所依靠的Apple Intelligence也只能在iPhone 15 Pro或更新型號(hào)的手機(jī)才能運(yùn)行。

根據(jù)彭博社的報(bào)道,蘋果團(tuán)隊(duì)似乎需要大量時(shí)間來重構(gòu)Siri的底層,高級(jí)版Siri最快也要等到2025年,才會(huì)出現(xiàn)在iOS 18上。

雖然還未正式上線,但可以看出,GenAI的這波革新讓蘋果13歲的Siri煥發(fā)新生。

而提到Siri,讓人想起和它同代的另一個(gè)語(yǔ)音助手亞馬遜推出的Alexa。

亞馬遜改造Alexa

實(shí)際上,Alexa的革新計(jì)劃由來已久。早在今年1月,Business Insider就報(bào)道過這個(gè)項(xiàng)目,名為Remarkable Alexa,它正在內(nèi)外的重重阻力下艱難推進(jìn)。

發(fā)布的日期也是一拖再拖,從最初的6月30日,到之前決定的8月。

8月30日路透社報(bào)道,有知情人士表示,改進(jìn)版的Alexa將在10月美國(guó)美國(guó)假日季前發(fā)布。

該項(xiàng)目在內(nèi)部被稱為「榕樹」(Banyan),將是Alexa自2014年與Echo系列揚(yáng)聲器一起推出后迎來的首次重大改革。

Remarkable Alexa計(jì)劃向用戶收取5~10美元的訂閱費(fèi)用,以抵銷GenAI模型的成本。

這部分訂閱不會(huì)包含在每年139美元的Prime服務(wù)中,但亞馬遜仍將提供免費(fèi)版本的Classic語(yǔ)音助手。

Alexa難掩頹勢(shì)2014年,亞馬遜首次推出Alexa的語(yǔ)音驅(qū)動(dòng)功能,讓當(dāng)時(shí)的消費(fèi)者驚嘆不已,卻落后于最近的GenAI浪潮。

根據(jù)Insider Intelligence的統(tǒng)計(jì),在美國(guó),Google Assistant今年的用戶數(shù)量預(yù)計(jì)將達(dá)到8880萬(wàn),其次是 Siri的8420萬(wàn)。Alexa的用戶數(shù)量位居第三,約為7560萬(wàn)。

和Siri淪為語(yǔ)音計(jì)時(shí)器的境地類似,通過Echo音響訪問的Alexa也多用于設(shè)置計(jì)時(shí)器、詢問天氣、播放音樂或回答簡(jiǎn)單問題等功能。

不僅如此,亞馬遜想要通過Alexa提升電商業(yè)務(wù)銷售額的希望也落空了。

正如Kindle屏之于電子書商城,健康監(jiān)測(cè)服務(wù)之于Halo手環(huán),便宜到經(jīng)常低于成本價(jià)的Echo音響和免費(fèi)提供的Alexa,實(shí)際上包含著亞馬遜借硬件打造軟件的產(chǎn)品思路

不求在硬件銷售上獲利,但求從用戶后續(xù)對(duì)軟件的使用、數(shù)字內(nèi)容的獲取和平臺(tái)的依賴等中獲取更高毛利的收入。

這種營(yíng)銷方式最初是借鑒剃須刀巨頭吉列推出極具價(jià)格優(yōu)勢(shì)的剃須刀,但通過售賣補(bǔ)充刀片賺得盆滿缽滿。

最初對(duì)Alexa的設(shè)想非常美好用戶通過語(yǔ)音方式詢問購(gòu)買建議,之后委托Alexa直接下單,就能拉動(dòng)亞馬遜的電商銷量。

但隨后他們發(fā)現(xiàn),這個(gè)思路不起作用。主要是因?yàn)橛脩粝矚g「眼見為實(shí)」,僅憑Alexa的語(yǔ)音描述很難讓人甘心掏錢網(wǎng)購(gòu)。

根據(jù)內(nèi)部文件和知情人士的透露,這種不成功的策略讓亞馬遜在Echos、Kindle等智能設(shè)備業(yè)務(wù)上虧損了數(shù)百億美元,可以說是貝佐斯在位時(shí)為數(shù)不多的巨大誤判。

硬件虧錢、軟件不賺錢,力挺Alexa的貝佐斯又離開了管理團(tuán)隊(duì),導(dǎo)致裁員的大刀最先落在了Alexa團(tuán)隊(duì)的頭上。

Business Insider跟蹤LinkedIn上的帖子后發(fā)現(xiàn),在2022年底開始的大裁員中,Alexa的AI系統(tǒng)、自然語(yǔ)言理解和對(duì)話能力團(tuán)隊(duì)幾乎是首當(dāng)其沖、受到了最高等級(jí)的影響。

然而,即使AI技術(shù)落后、虧損巨大,Alexa還掌握著一個(gè)關(guān)鍵優(yōu)勢(shì),可以助他們扳回一城截至2023年,已經(jīng)在全球賣出的支持Alexa的硬件設(shè)備超過5億臺(tái)。

合作Anthropic借用Claude

CNBC和Business Insider在之前的報(bào)道中曾援引知情人士的說法,表示亞馬遜計(jì)劃基于內(nèi)部語(yǔ)言模型Titan或Olympus升級(jí)Alexa。

然而,或許是內(nèi)部技術(shù)不給力,路透社的最新報(bào)道表示,10月發(fā)布的Remarkable Alexa將由Anthropic的Claude模型支持,而非自己的基座模型。

亞馬遜和Anthropic的合作由來已久。去年9月,他們就為Anthropic提供了高達(dá)40億美元的投資,獲得少量股權(quán)的同時(shí),以AWS云服務(wù)交換到了對(duì)Claude模型的使用。

一些知情人士表示,升級(jí)后的Remarkable Alexa可以執(zhí)行更復(fù)雜的任務(wù),例如撰寫簡(jiǎn)短的電子郵件、發(fā)送郵件以及從Uber Eats訂餐,而且讓用戶無(wú)需在對(duì)話中重復(fù)召喚「Alexa」。

此外,亞馬遜還計(jì)劃增強(qiáng)Alexa提供的自動(dòng)化家居功能,可以無(wú)線連接到智能設(shè)備,讓用戶進(jìn)行語(yǔ)音控制。

具體而言,Remarkable的關(guān)鍵功能更新如下:

- 對(duì)話能力增強(qiáng),與用戶進(jìn)行更自然、更有吸引力的對(duì)話,并提供與上下文相關(guān)的響應(yīng)

- 個(gè)性化推薦:根據(jù)用戶喜好和歷史記錄,針對(duì)購(gòu)物、新聞和其他內(nèi)容進(jìn)行定制化推薦

- 家居自動(dòng)化:Remarkable Alexa將作為一個(gè)更復(fù)雜的家居自動(dòng)化中心,記住用戶偏好,自動(dòng)執(zhí)行鬧鐘設(shè)置、咖啡機(jī)啟動(dòng)或電視節(jié)目錄制等任務(wù)

- 復(fù)雜任務(wù)執(zhí)行:用戶可以提出更復(fù)雜的指令,例如訂購(gòu)食物或起草電子郵件

總而言之,面對(duì)谷歌、蘋果等公司來勢(shì)洶洶的競(jìng)爭(zhēng),Alexa團(tuán)隊(duì)現(xiàn)在的任務(wù)是,打造一款能夠在新的GenAI競(jìng)爭(zhēng)中脫穎而出的語(yǔ)音交互設(shè)備。

REUTERS/Mike Blake這其中的障礙,一是價(jià)格,二是AI安全問題。

一位知情人士估計(jì),在Alexa中使用GenAI的查詢成本為每次2美分。有內(nèi)部估計(jì)甚至指出,訂閱費(fèi)用需要定為20美元,這也是ChatGPT的訂閱價(jià)格。

也有亞馬遜員工表示懷疑,除了已經(jīng)為Prime會(huì)員支付139美元的用戶,是否還有人愿意每年多掏60~120美元,獲得比免費(fèi)版Alexa更智能一點(diǎn)的Remarkable Alexa。

但美國(guó)銀行分析師Justin Post的分析結(jié)果相當(dāng)樂觀。

根據(jù)他在6月的估計(jì),大約有1億活躍的Alexa用戶,其中10%可能會(huì)選擇Alexa的付費(fèi)版本。按每月5美元的費(fèi)用計(jì)算,這將額外帶來6億美元的年銷售額。

AI安全方面,有開發(fā)人員表示,Alexa大多出現(xiàn)在客廳或廚房中,這提高了應(yīng)用GenAI模型的風(fēng)險(xiǎn)。如果Alexa不理解命令或提供不可靠的信息,犯錯(cuò)誤的代價(jià)就會(huì)更高。

Cerebras語(yǔ)音版成GPT-4o平替

想跟上語(yǔ)音模型更新步伐的,除了亞馬遜這種巨頭,還有Cerebras這個(gè)新秀。

據(jù)悉,Cerebras Inference使用了Cerebras CS-3系統(tǒng)和WSE-3 AI處理器,內(nèi)存帶寬和內(nèi)核數(shù)分別是英偉達(dá)H100的7,000倍和52倍。

依托具備如此超高速AI推理能力的Cerebras Inference之上的Cerebras語(yǔ)音對(duì)話模型讓人非常期待!

但原始的視頻demo鏈接已失效。多虧評(píng)論區(qū)熱心網(wǎng)友,提供了另外一個(gè)類似于Cerebras語(yǔ)音對(duì)話模式的示例。

該對(duì)話模擬示例同樣基于LiveKit,但以ChatGPT為基礎(chǔ)模型。

具體來說,它借助Websocket使用LLM模擬了電話對(duì)話,并進(jìn)行了系列優(yōu)化,最終實(shí)現(xiàn)了無(wú)縫和快速對(duì)話。

不少網(wǎng)友在感嘆其功能強(qiáng)大,開發(fā)便捷的同時(shí),惋惜它比ChatGPT-4o上線晚,丟失了很大一部分熱度。

LiveKit代理是通過語(yǔ)音,視頻和數(shù)據(jù)頻道與最終用戶相互作用的多模式AI智能體Agent的端到端框架。該框架可以憑借Python構(gòu)建智能體。

Agent框架被設(shè)計(jì)成可構(gòu)建實(shí)時(shí)、可編程、運(yùn)行在服務(wù)器上的框架。它可被用來創(chuàng)建可看到的、聽到、理解的對(duì)話和多模態(tài)語(yǔ)音智能體。

該框架包括用于常見工作流程的插件,例如語(yǔ)音活動(dòng)檢測(cè)和語(yǔ)音到文本轉(zhuǎn)換。

Agent與云或自托管LiveKit服務(wù)器無(wú)縫集成,在本地計(jì)算機(jī)上開發(fā)的Agent代碼可以擴(kuò)展以支持成千上萬(wàn)的并發(fā)會(huì)話,然后將其部署到服務(wù)器中。

Cerebras語(yǔ)音版一經(jīng)發(fā)布,就引發(fā)了油管上很多博主的關(guān)注和測(cè)評(píng)。

Antti Luode通過多次打斷對(duì)話的方式,測(cè)試了Cerebras 實(shí)時(shí)語(yǔ)音模式的能力,證實(shí)其能快速有效理解對(duì)話并提供可靠信息。

Cerebras語(yǔ)音版Q&A對(duì)話集錦

Q:你是如何被開發(fā)的?

A:我是自然語(yǔ)言處理和機(jī)器學(xué)習(xí)算法的組合產(chǎn)物。我可以實(shí)現(xiàn)交互,在用戶打斷我時(shí),也允許無(wú)縫轉(zhuǎn)換和自然的對(duì)話流程。

Q:你有什么想對(duì)YouTube觀眾說的嗎?

A:我只是開啟了對(duì)話型AI技術(shù)套件的新紀(jì)元。諸如我一樣的語(yǔ)音助手未來,需要擁有更復(fù)雜、更人性化的功能。比如能理解細(xì)微上下文間的差距,甚至情緒的變化。

Q:我的最后一個(gè)問題,如何打開啟動(dòng)艙門?

A:短語(yǔ)「打開啟動(dòng)艙門」, 是電影《2001年太空漫游》中的一句著名臺(tái)詞,由Dave Bowman在嘗試與飛船計(jì)算機(jī)交互時(shí)說出...

令人驚喜的是,這場(chǎng)跨時(shí)空的虛假對(duì)話,預(yù)示著人工智能時(shí)代,超智慧電腦HAL 9000的現(xiàn)實(shí)體正一步步向我們走來!


贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港