劃重點(diǎn)
01智譜AI推出自主智能體AutoGLM,可模擬用戶點(diǎn)擊屏幕的手機(jī)操作助手和瀏覽器助手。
02AutoGLM已適配8款知名應(yīng)用軟件,覆蓋日常生活常用的線上聊天、網(wǎng)購(gòu)、社交等功能。
03除此之外,智譜AI還推出了端到端情感語(yǔ)音模型GLM-4-Voice,具備一定自我糾錯(cuò)能力。
04目前,GLM-4-Voice已上線清言app,用戶可與清言自然聊天。
05智譜AI與高通、三星手機(jī)等合作,推動(dòng)大模型落地AI手機(jī)市常
以上內(nèi)容由騰訊混元大模型生成,僅供參考
文 | 田哲
編輯 | 蘇建勛
在對(duì)標(biāo)OpenAI之路上,智譜AI又近了一步。
今年年初,OpenAI被爆出將自研AI Agent軟件,它可替代人類,自動(dòng)導(dǎo)航至任何網(wǎng)站并執(zhí)行指定任務(wù)。
10月25日,智譜AI推出相似產(chǎn)品自主智能體AutoGLM,智譜將其稱為是一個(gè)可模擬用戶點(diǎn)擊屏幕的手機(jī)操作助手,以及點(diǎn)擊網(wǎng)頁(yè)的瀏覽器助手。
智譜的展示視頻顯示,AutoGLM可實(shí)現(xiàn)網(wǎng)頁(yè)進(jìn)行線上點(diǎn)餐、整理小紅書筆記并生成攻略、總結(jié)論文等功能。
同時(shí),智譜AI還推出了端到端情感語(yǔ)音模型GLM-4-Voice。這款情感語(yǔ)音模型不僅能夠模擬真實(shí)的情感表達(dá),甚至連細(xì)微的停頓、喘氣都表現(xiàn)得惟妙惟肖。
這一技術(shù)的突破,與科幻愛(ài)情電影《Her》的部分情節(jié)相似。電影中,男主角西奧多與AI助手薩曼莎偶然相識(shí),薩曼莎正是通過(guò)富有情感的語(yǔ)音互動(dòng)讓人感到貼近、溫暖。
如今,智譜AI的情感語(yǔ)音模型似乎正把《Her》中的科幻場(chǎng)景帶入我們的日常生活,人工智能不再只是冷冰冰的工具,而開(kāi)始具備“情感”與“個(gè)性”。
《Her》已經(jīng)初具雛形,具有自我意識(shí)和情感的AI或許不久會(huì)出現(xiàn)。
自主智能體上線:能點(diǎn)外賣、夸彩虹屁
與OpenAI的AI Agent相似,智譜清言AutoGLM模型,也無(wú)需用戶手動(dòng)操作示范,不受制于簡(jiǎn)單的任務(wù)場(chǎng)景或API調(diào)用,即可替代人類在電子設(shè)備執(zhí)行操作。
目前,智譜AutoGLM可適配微信、淘寶、美團(tuán)、小紅書等8款知名應(yīng)用軟件,覆蓋日常生活常用的線上聊天、網(wǎng)購(gòu)、社交、地圖、酒店火車訂票等功能。
具體而言,當(dāng)你向AutoGLM發(fā)出指令后,雙方之間的對(duì)話將以語(yǔ)音形式展現(xiàn),并實(shí)時(shí)顯示字幕。
例如,你可以要求AutoGLM在大眾點(diǎn)評(píng)給出指定的店家好評(píng),并自動(dòng)編輯評(píng)論。在執(zhí)行“發(fā)送評(píng)論”這一超出指令的操作時(shí),AutoGLM會(huì)主動(dòng)提示是否進(jìn)行。
你也能讓AutoGLM查找淘寶某一時(shí)段的歷史訂單,復(fù)購(gòu)指定商品。
就連向指定微信好友的朋友圈點(diǎn)贊、評(píng)論,這一步驟較長(zhǎng)的任務(wù)也能完成。
除了網(wǎng)購(gòu)、編輯評(píng)論等功能之外,AutoGLM還能批量總結(jié)微信公眾號(hào)多篇文章,并生成文章摘要。
智譜公眾號(hào)介紹,AutoGLM基于自進(jìn)化在線課程強(qiáng)化學(xué)習(xí)框架WEBRL,克服了訓(xùn)練任務(wù)稀缺、反饋信號(hào)稀少和策略分布漂移等網(wǎng)頁(yè)智能體研究和應(yīng)用難題,加之自適應(yīng)學(xué)習(xí)策略,能夠在迭代過(guò)程中不斷改進(jìn)、持續(xù)穩(wěn)定地提高自身性能。這意味著,AutoGLM具備了一定自我糾錯(cuò)能力。
來(lái)源:智譜公眾號(hào)
據(jù)悉,為了保護(hù)用戶隱私,AutoGLM不會(huì)主動(dòng)獲取用戶的個(gè)人隱私信息,如果需要執(zhí)行授權(quán)范圍之外的任務(wù),AutoGLM會(huì)主動(dòng)提示以獲取用戶同意。
即使用戶向AutoGLM授權(quán),也不意味著AutoGLM永久擁有相關(guān)權(quán)限。每次后臺(tái)啟動(dòng)AutoGLM,都會(huì)重新向用戶申請(qǐng)無(wú)障礙權(quán)限。
目前,AutoGLM已上線電腦端開(kāi)放使用,安裝清言插件即可使用,手機(jī)端AutoGLM正開(kāi)放安卓手機(jī)內(nèi)測(cè)。
情感語(yǔ)音模型,有情感、會(huì)停頓
兩個(gè)月前,智譜清言首次秀了一把語(yǔ)音通話技術(shù),雖然當(dāng)時(shí)語(yǔ)音通話功能能聽(tīng)懂對(duì)話、回復(fù)還算準(zhǔn)確,但語(yǔ)氣像是機(jī)器人“背稿子”,沒(méi)啥感情。要是讓它來(lái)點(diǎn)情感表達(dá),它還會(huì)一本正經(jīng)地告訴你:“作為一個(gè)人工智能,無(wú)法表達(dá)感情”。
不過(guò),現(xiàn)在升級(jí)后的情感語(yǔ)音模型,感覺(jué)就不一樣了。語(yǔ)音聽(tīng)起來(lái)更有“人味兒”,還能加點(diǎn)感情,像真人一樣跟你聊。
它已經(jīng)學(xué)會(huì)了用撒嬌、調(diào)侃、憤怒、歇斯底里等語(yǔ)氣表達(dá)。比如,擬人語(yǔ)音能模仿孩子,用撒嬌語(yǔ)氣向姐姐要糖葫蘆。
模仿小孩撒嬌
如果普通話聽(tīng)膩了,沒(méi)問(wèn)題,它還能切換為北京、東北、廣東、臺(tái)灣、重慶五地腔調(diào),比如介紹美食時(shí)那句經(jīng)典的“巴適得板”,直接讓人食欲大開(kāi)。
模仿四川方言
玩角色扮演游戲也不成問(wèn)題,可以把它設(shè)定為《哈利波特》中的反派伏地魔與你戰(zhàn)斗,并能要求它以指定的語(yǔ)氣進(jìn)行扮演。比如它能以電視劇中常見(jiàn)的反派語(yǔ)氣說(shuō)話。
模仿伏地魔
如果挑戰(zhàn)繞口令加速,它可能就會(huì)“翻車”了,發(fā)音有點(diǎn)“飄”。
加速說(shuō)話
不過(guò)在某些時(shí)候,GLM-4-Voice說(shuō)話時(shí)偶爾會(huì)出現(xiàn)短暫的電流聲。
電流聲
另外,發(fā)音偶爾也可能不標(biāo)準(zhǔn),比如將為什么的“為”,發(fā)音為“微”。
發(fā)音偶爾不標(biāo)準(zhǔn)
據(jù)了解,GLM-4-Voice結(jié)合了自然語(yǔ)言生成(NLG)和語(yǔ)音合成技術(shù),相比傳統(tǒng)的TTS技術(shù)(Text-to-Speech),擬人語(yǔ)音能夠理解上下文語(yǔ)境,實(shí)現(xiàn)富有情感的自然對(duì)話。
此外,GLM-4-Voice以音頻 token 的形式直接建模語(yǔ)音,在一個(gè)模型里面同時(shí)完成語(yǔ)音的理解和生成,信息損失和誤差積累相比傳統(tǒng)級(jí)聯(lián)方案更少,理論上有著更高的建模上限。
GLM-4-Voice 模型架構(gòu)圖;來(lái)源:智譜AI
這不是清言擬人語(yǔ)音通話的全部功能,其對(duì)標(biāo)GPT 40,將在響應(yīng)和打斷速度、情緒感知情 感共鳴、語(yǔ)音可控表達(dá)、多語(yǔ)言多方言等方面進(jìn)一步突破。目前,其已實(shí)現(xiàn)不同情緒,各地方言說(shuō)話時(shí),還能調(diào)節(jié)語(yǔ)速、音量,實(shí)現(xiàn)與真人般的對(duì)話。
目前,GLM-4-Voice已上線清言app,用戶可與清言自然聊天。值得注意的是,GLM-4-Voice已對(duì)外開(kāi)源,這是智譜AI首個(gè)開(kāi)源的端到端多模態(tài)模型。
下一步,它還將支持視頻通話功能,屆時(shí)不僅能認(rèn)出物體,還能用語(yǔ)氣帶來(lái)“眼神交流”的互動(dòng)感。
據(jù)智譜公眾號(hào),智譜發(fā)布從文本、圖像、視頻到情感語(yǔ)音模型等多模態(tài),并讓AI學(xué)會(huì)使用各種工具,原因在于其打造了新的基座模型GLM-4-Plus。在語(yǔ)言文本能力方面,GLM-4-Plus和GPT-4o、405B參數(shù)量的Llama3.1 相當(dāng)。
加碼AI手機(jī),智譜找到商業(yè)化大入口
“現(xiàn)在的小模型還處于找市場(chǎng)的階段,需要將市場(chǎng)與技術(shù)磨合,提升效率的同時(shí)找到新的應(yīng)用場(chǎng)景。”
兩個(gè)月前,智譜AI CEO張鵬與《智能涌現(xiàn)》的訪談中,提到了這一觀點(diǎn)。與手機(jī)廠商合作AI智能體,或許就是張鵬所說(shuō)的新場(chǎng)景。
找到場(chǎng)景,是模型廠商的當(dāng)務(wù)之急,這意味著模型廠商不僅能獲得穩(wěn)定的收入來(lái)源,完成自我造血,同時(shí)也能在場(chǎng)景中持續(xù)手機(jī)數(shù)據(jù),進(jìn)行產(chǎn)品迭代。
而AI智能體是大模型應(yīng)用的主要形式之一,其具備自主感知、決策并采取行動(dòng),被認(rèn)為將是電腦、智能手機(jī)下一代產(chǎn)品形態(tài)的AI手機(jī)、AI PC,就搭載了AI智能體。據(jù)咨詢機(jī)構(gòu)IDC預(yù)計(jì),2027年,中國(guó)市場(chǎng)AI手機(jī)和AI PC的市占率將分別超過(guò)50%、80%。
智譜正在加緊推動(dòng)大模型落地AI手機(jī)。本月22日,智譜與高通達(dá)成合作,為驍龍 8 至尊版適配優(yōu)化 GLM-4V 端側(cè)視覺(jué)大模型,提供多模態(tài)交互方式;23日,智譜與三星手機(jī)圍繞GLM-4V 端側(cè)視覺(jué)大模型合作,雙方將打造AI產(chǎn)品。
而AutoGLM,智譜也透露正在與榮耀等手機(jī)廠商開(kāi)展深度合作。事實(shí)上,今年9月智譜與榮耀已成立AI大模型技術(shù)聯(lián)合實(shí)驗(yàn)室。
榮耀也有意進(jìn)一步提升AI智能體的表現(xiàn)。在23日的榮耀MagicOS 9.0發(fā)布會(huì)媒體采訪中,榮耀終端有限公司CEO趙明表示,榮耀正在通過(guò)AI重構(gòu)操作系統(tǒng),打造核心底層能力,以實(shí)現(xiàn)更加智慧化的服務(wù)。
AI手機(jī)風(fēng)頭正盛,多家手機(jī)廠商如蘋果、榮耀、vivo、OPPO等爭(zhēng)相推出具備AI功能的手機(jī),AI功能如AI消除、AI通話摘要等。
然而,搭載AI智能體的手機(jī)目前數(shù)量較少,其中原因,既包括行業(yè)技術(shù)發(fā)展仍不成熟,另一反面相關(guān)標(biāo)準(zhǔn)長(zhǎng)期缺失。
不過(guò),這一情況正在逐步改善。
市場(chǎng)層面,Open.ai、智譜等模型廠商已傳出與手機(jī)公司合作消息,將推動(dòng)模型廠商、應(yīng)用軟件提供者與手機(jī)廠商之間的合作。
政策層面,中國(guó)信息通信研究院與國(guó)內(nèi)多家手機(jī)廠商聯(lián)合發(fā)布《終端智能化分級(jí)研究報(bào)告》,其中對(duì)終端智能化進(jìn)行了分級(jí)定義,一定程度,這將推進(jìn)國(guó)內(nèi)AI手機(jī)市場(chǎng)的發(fā)展。
終端智能化分級(jí)定義
多款大模型已與智能手機(jī)生態(tài)公司合作,或許AI手機(jī),將成為智譜商業(yè)驅(qū)動(dòng)的主引擎。