IT之家 8 月 14 日消息,谷歌在今天召開的 Pixel 9 系列手機(jī)發(fā)布會(huì)上,發(fā)布了 Gemini Live 服務(wù),將于今天開始率先面向使用英語(yǔ)的 Gemini Advanced 訂閱用戶開放。
推動(dòng)自然、流暢的對(duì)話交流
谷歌表示 Gemini Live 提供了一種移動(dòng)對(duì)話體驗(yàn),讓用戶和 Gemini 展開自由流暢的對(duì)話。
Gemini Live 可以說(shuō)是對(duì)標(biāo) OpenAIChatGPT 最新上線的 Advanced Voice 模式(限量 Alpha 測(cè)試),采用了增強(qiáng)型語(yǔ)音引擎,可以展開更連貫、更有情感表達(dá)力、更逼真的多輪對(duì)話。
谷歌表示用戶可以在聊天機(jī)器人說(shuō)話時(shí)打斷它,提出后續(xù)問(wèn)題,聊天機(jī)器人會(huì)實(shí)時(shí)適應(yīng)用戶的說(shuō)話模式。
IT之家翻譯谷歌博文部分內(nèi)容如下:
通過(guò) Gemini Live [使用 Gemini 應(yīng)用程序],用戶可以與 Gemini 對(duì)話,并從 [10 種新的] 自然聲音中選擇它可以回應(yīng)的聲音。
用戶甚至可以按照自己的節(jié)奏說(shuō)話,或在回答中途打斷并提出澄清性問(wèn)題,就像在人類對(duì)話中一樣。
谷歌演示Gemini Live的一個(gè)場(chǎng)景,模擬用戶和招聘經(jīng)理(或人工智能,視情況而定)交談,為用戶提供演講技巧推薦、提供優(yōu)化建議。
谷歌發(fā)言人表示:
Live 使用的是我們的 Gemini Advanced 模型,我們對(duì)其進(jìn)行了調(diào)整,使其更具對(duì)話性。當(dāng)用戶與 Live 進(jìn)行長(zhǎng)時(shí)間對(duì)話時(shí),就會(huì)使用該模型的大型上下文窗口。
不支持多模態(tài)輸入
Gemini Live 還不具備谷歌在 I / O 大會(huì)上展示的功能之一:多模態(tài)輸入。
谷歌今年 5 月發(fā)布了一段預(yù)先錄制的視頻,展示了 Gemini Live 通過(guò)手機(jī)攝像頭捕捉的照片和錄像看到用戶周圍的環(huán)境并做出反應(yīng),例如說(shuō)出一輛壞掉的自行車上的零件名稱,或者解釋電腦屏幕上的部分代碼是做什么用的。
谷歌表示,多模態(tài)輸入將在“今年晚些時(shí)候”推出,但拒絕透露具體細(xì)節(jié)。