當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能動(dòng)態(tài) > OpenAI發(fā)布實(shí)時(shí)API，AI實(shí)時(shí)語(yǔ)音時(shí)代如何搶占風(fēng)口？

OpenAI發(fā)布實(shí)時(shí)API，AI實(shí)時(shí)語(yǔ)音時(shí)代如何搶占風(fēng)口？
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-14 09:41:16 瀏覽：2818次

導(dǎo)讀：劃重點(diǎn) 01OpenAI發(fā)布了實(shí)時(shí)API，旨在構(gòu)建基于GPT-4o的語(yǔ)音到語(yǔ)音的AI應(yīng)用和智能體。 02GPT-4o降低了語(yǔ)音延遲，平均響應(yīng)時(shí)間達(dá)到320毫秒，使AI與人的對(duì)話更接近真實(shí)對(duì)話。 03為此，OpenAI公布了三家語(yǔ)音API合作者：LiveKit、Twilio和Agora。 04其中，Agora聚...

劃重點(diǎn)

01OpenAI發(fā)布了實(shí)時(shí)API，旨在構(gòu)建基于GPT-4o的語(yǔ)音到語(yǔ)音的AI應(yīng)用和智能體。

02GPT-4o降低了語(yǔ)音延遲，平均響應(yīng)時(shí)間達(dá)到320毫秒，使AI與人的對(duì)話更接近真實(shí)對(duì)話。

03為此，OpenAI公布了三家語(yǔ)音API合作者：LiveKit、Twilio和Agora。

04其中，Agora聚焦美國(guó)和國(guó)際市場(chǎng)，聲網(wǎng)則在中國(guó)市場(chǎng)中提供實(shí)時(shí)音視頻能力。

05第十屆RTE大會(huì)將探討AI與實(shí)時(shí)互動(dòng)的碰撞，展示最銳利最先鋒的技術(shù)和產(chǎn)品浪潮。

以上內(nèi)容由騰訊混元大模型生成，僅供參考

10 月 2 日，OpenAI 發(fā)布了實(shí)時(shí) API 公開測(cè)試版，用于構(gòu)建基于 GPT-4o 語(yǔ)音到語(yǔ)音的 AI 應(yīng)用和智能體。這是 GPT-4o 發(fā)布之后，OpenAI 在實(shí)時(shí)語(yǔ)音交互能力上的最新進(jìn)展。

GPT-4o 所展現(xiàn)出的實(shí)時(shí)語(yǔ)音交互能力讓外界印象深刻。而這很大程度上歸功于 GPT-4o 大幅降低的語(yǔ)音延遲，平均 320 毫秒的反應(yīng)時(shí)間，讓 AI 與人的對(duì)話第一次接近了人類真實(shí)對(duì)話間的反應(yīng)速率。同時(shí)其語(yǔ)氣和情感模擬，也更加深 AI 與人類溝通之間的沉浸感。

而國(guó)慶假期間，OpenAI 發(fā)布的實(shí)時(shí) API 公開測(cè)試版，則瞄準(zhǔn)了 GPT-4o 語(yǔ)音到語(yǔ)音的 AI 應(yīng)用和智能體，這像是給所以 AI 應(yīng)用開發(fā)者的一個(gè)信號(hào)，大模型發(fā)展近兩年后，基于聲音的實(shí)時(shí)對(duì)話式 AI 場(chǎng)景或許會(huì)開始變的矚目起來(lái)。

OpenAI 這次也公布了三家語(yǔ)音 API 合作者的身份：LiveKit、Twilio，以及 Agora。值得一提的是，前幾年曾經(jīng)爆火的 ClubHouse，背后的技術(shù)提供方就是 Agora，其兄弟公司聲網(wǎng)則在國(guó)內(nèi)更為人所知。Agora 聚焦美國(guó)和國(guó)際市場(chǎng)，聲網(wǎng)則已經(jīng)儼然是中國(guó)市場(chǎng)中 RTC（實(shí)時(shí)音視頻，Real-time Communications）能力最頭部且主要的提供者。

OpenAI發(fā)布實(shí)時(shí)API，AI實(shí)時(shí)語(yǔ)音時(shí)代如何搶占風(fēng)口？

而當(dāng)下實(shí)時(shí)對(duì)話式 AI 這場(chǎng)還未完全起勢(shì)的浪潮背后，發(fā)展多年的 RTC 技術(shù)作為一項(xiàng)基礎(chǔ)能力，已經(jīng)逐漸靠近實(shí)時(shí)多模態(tài)大模型發(fā)展浪潮的核心。

01 RTC 是實(shí)時(shí)多模態(tài)大模型的必由之路

無(wú)可置疑的，大模型能力的提升直接促進(jìn)了端到端實(shí)時(shí)多模態(tài)大模型的崛起。

此前，實(shí)時(shí)對(duì)話中的語(yǔ)音處理是基于傳統(tǒng)的三步驟語(yǔ)音識(shí)別、語(yǔ)音轉(zhuǎn)文字、文字轉(zhuǎn)語(yǔ)音（STT-LLM-TTS）方法來(lái)進(jìn)行的。現(xiàn)在得益于大模型自身能力的進(jìn)化，端到端實(shí)時(shí)多模態(tài)模型能夠直接處理語(yǔ)音，這與傳統(tǒng)的三步驟處理方法相比，響應(yīng)速度要提升很多，這也是為什么實(shí)時(shí)對(duì)話式 AI 的前景開始備受期待。

語(yǔ)音處理這個(gè)技術(shù)難題被攻下后，大模型領(lǐng)域的頭部玩家們已經(jīng)開始用腳投票了。

今年 6 月，Character AI 推出新的語(yǔ)音功能，用戶可以與 AI 角色進(jìn)行語(yǔ)音對(duì)話。這家人工智能聊天機(jī)器人初創(chuàng)公司表示，新的通話功能在推出初期就吸引了來(lái)自 300 多萬(wàn)用戶的 2000 多萬(wàn)次通話。

Character AI 推出新語(yǔ)音功能幾天后，微軟 AI 負(fù)責(zé)人 Mustafa Suleyman 透露微軟將在今年年底為用戶拿出實(shí)時(shí)的語(yǔ)音界面，允許完全動(dòng)態(tài)的交互。

而在國(guó)內(nèi)的大模型領(lǐng)域，智譜 AI 8 月末在智譜清言中上線了國(guó)內(nèi)首個(gè)面向 C 端的視頻通話功能，該功能讓用戶能夠通過(guò)應(yīng)用程序進(jìn)行語(yǔ)音和視頻互動(dòng)，整個(gè)體驗(yàn)類似于與真人對(duì)話。用戶不僅可以使用手機(jī)的前置或后置攝像頭進(jìn)行視頻通話，還能進(jìn)行語(yǔ)音交互。這項(xiàng)功能特別適合在日常生活中的各種場(chǎng)景應(yīng)用，比如協(xié)助學(xué)習(xí)、辨識(shí)物品等。

而在智譜清言新功能上線同日，科大訊飛星火極速超擬人交互技術(shù)也正式上線訊飛星火 APP，星火極速超擬人交互在響應(yīng)和打斷速度、情緒感知情感共鳴、語(yǔ)音可控表達(dá)、人設(shè)扮演四個(gè)方面實(shí)現(xiàn)重大突破，讓整體交互體驗(yàn)更自然、更具情感。

電影《Her》中的場(chǎng)景，似乎真的要成真了。但 GPT-4o 進(jìn)一步打開實(shí)時(shí)對(duì)話式 AI 的想象力所給人帶來(lái)的啟示，或許是我們?nèi)匀坏凸懒恕笇?shí)時(shí)」在交互體驗(yàn)上的重要性。

實(shí)時(shí)對(duì)話式 AI 中，「實(shí)時(shí)」與「AI」一樣重要，甚至作為一場(chǎng)與 AI 的對(duì)話體驗(yàn)中最決定性的變量，「實(shí)時(shí)」實(shí)際上的重要性要更勝后者。但要把「實(shí)時(shí)」拉到極限，端到端實(shí)時(shí)多模態(tài)模型的崛起只是近來(lái)取得技術(shù)突破的一條明線它從思考速度上縮短了語(yǔ)音的交互時(shí)間。而另一條更綿長(zhǎng)的發(fā)展暗線則是 RTC（實(shí)時(shí)音視頻，Real-Time Communications）技術(shù)的持續(xù)進(jìn)步。

更詳細(xì)的拆解一下多模態(tài)大模型中實(shí)時(shí)語(yǔ)音交互的核心路徑，大概就能辨析 RTC 技術(shù)在其中的重要意義：

首先，語(yǔ)音輸入經(jīng)過(guò) RTC 傳輸?shù)椒⻊?wù)器，服務(wù)器端的多模態(tài)大模型接收到語(yǔ)音后開始預(yù)處理，這里的預(yù)處理主要包含了音頻的 3A，例如語(yǔ)音的降噪、增益控制、回聲消除等操作，使得后續(xù)的語(yǔ)音識(shí)別更加準(zhǔn)確，讓大模型更能聽懂用戶說(shuō)的話；

隨后，預(yù)處理的語(yǔ)音數(shù)據(jù)送入模型進(jìn)行語(yǔ)音識(shí)別和理解，系統(tǒng)再通過(guò)模型生成回應(yīng)，這其中還需要通過(guò)語(yǔ)音合成技術(shù)轉(zhuǎn)換為語(yǔ)音信號(hào)；

最后，語(yǔ)音數(shù)據(jù)通過(guò) RTC 傳輸?shù)接脩舳�，完成一次完整的語(yǔ)音交互。

OpenAI發(fā)布實(shí)時(shí)API，AI實(shí)時(shí)語(yǔ)音時(shí)代如何搶占風(fēng)口？

聲網(wǎng)在實(shí)踐中發(fā)現(xiàn)，傳統(tǒng)的 AI 語(yǔ)音對(duì)話（STT-LLM-TTS）在應(yīng)用 RTC 后，響應(yīng)延時(shí)可從 4-5 秒降低到 1-2 秒，而在具備端到端實(shí)時(shí)多模態(tài)處理能力后，通過(guò) RTC 技術(shù)，大模型實(shí)時(shí)語(yǔ)音對(duì)話的延時(shí)可降到幾百毫秒內(nèi)。從體驗(yàn)上看，RTC 技術(shù)的應(yīng)用讓對(duì)話式大模型的交互更智能，更具真實(shí)感。

在 GPT-4o 的發(fā)布會(huì)上，有一個(gè)細(xì)節(jié)引人注意：用于演示的手機(jī)連接了一根網(wǎng)線。工程師 Mark 解釋說(shuō)，這樣做是為了確保網(wǎng)絡(luò)的穩(wěn)定性。這也揭示了一個(gè)事實(shí)，即 GPT-4o 的演示是在固定設(shè)備、固定網(wǎng)絡(luò)和固定物理環(huán)境中進(jìn)行的，以保證低延遲。

然而在實(shí)際應(yīng)用中，用戶的設(shè)備通常不能始終連接網(wǎng)線，最終無(wú)論多強(qiáng)的模型能力，都需要依靠 RTC 技術(shù)來(lái)真正落到實(shí)時(shí)對(duì)話的場(chǎng)景中。而這其中多模態(tài)大模型在與 RTC 技術(shù)結(jié)合時(shí)如何保障低延時(shí)、流暢的語(yǔ)音交互體驗(yàn)，變得尤為關(guān)鍵。

一句話來(lái)說(shuō)，RTC 是將多模態(tài)大模型與實(shí)時(shí)互動(dòng)場(chǎng)景連接起來(lái)最關(guān)鍵的技術(shù)橋梁。

而隨著 RTC 從最初的一種前沿技術(shù)在近年逐漸變成一項(xiàng)基礎(chǔ)設(shè)施級(jí)別的能力并迅速在各個(gè)場(chǎng)景中延伸，加入了場(chǎng)景視角的 RTE（實(shí)時(shí)互動(dòng)，Real time engagement）概念開始取代 RTC，成為當(dāng)下談?wù)搶?shí)時(shí)互動(dòng)能力新的技術(shù)名詞。

以聲網(wǎng)創(chuàng)始人兼 CEO 趙斌對(duì) RTE 的概念表述：

「RTC（實(shí)時(shí)音視頻）從 Communication 的視角，更多是在強(qiáng)調(diào)對(duì)語(yǔ)義信息進(jìn)行高質(zhì)量和高效率的傳遞。而 RTE（實(shí)時(shí)互動(dòng)）更聚焦用戶所需要的共享時(shí)空，即俗話所說(shuō)的場(chǎng)景�！箯� RTC 到 RTE，就是從基礎(chǔ)能力向場(chǎng)景化能力的進(jìn)化。

在這個(gè)端到端實(shí)時(shí)多模態(tài)模型產(chǎn)品化勢(shì)頭初現(xiàn)的時(shí)期，聲網(wǎng)和 RTE 開發(fā)者社區(qū)聯(lián)合發(fā)起了第十屆 RTE 大會(huì)。實(shí)時(shí)互動(dòng)與 AI 的結(jié)合在當(dāng)下所能承載的所有想象力，都會(huì)在這場(chǎng)大會(huì)中現(xiàn)身。

02 AI 濃度拉滿，第十屆 RTE 大會(huì)亮點(diǎn)前瞻

首先，不用懷疑的是，這場(chǎng) RTE 大會(huì)上會(huì)有非常多足夠有分量的觀點(diǎn)交鋒。

國(guó)內(nèi)大模型領(lǐng)域在 ToB 方向上走的最深的智譜 AI，以及國(guó)內(nèi)大模型領(lǐng)域在 C 端產(chǎn)品化上最有心得的 MiniMax 將會(huì)出現(xiàn)在 RTE 大會(huì)上。作為這兩年隨大模型迅速成長(zhǎng)的創(chuàng)業(yè)公司，智譜 AI 和 MiniMax 在 RTE 技術(shù)在大模型的 ToB 和 ToC 兩條路線上發(fā)展頗有心得。

而隨著大模型開源生態(tài)的迅速發(fā)展，大量個(gè)人開發(fā)者從去年開始加入了這一股大模型浪潮，實(shí)時(shí)對(duì)話式 AI 開始成為一個(gè)備受開發(fā)者關(guān)注的產(chǎn)品賽道，通義千問(wèn)也會(huì)帶著國(guó)內(nèi)最大開發(fā)者生態(tài)的經(jīng)驗(yàn)在 RTE 大會(huì)中加入討論。

除此之外，此次 RTE 大會(huì)也不乏業(yè)內(nèi)備受矚目的創(chuàng)業(yè)者身影。全球最受矚目的 AI 科學(xué)家之一，一年前從阿里巴巴離職躬身入局大模型的賈揚(yáng)清也會(huì)出現(xiàn)在此次 RTE 大會(huì)的主論壇上，來(lái)分享他在 AI 基礎(chǔ)設(shè)施領(lǐng)域創(chuàng)業(yè) 18 個(gè)月后的經(jīng)驗(yàn)心得，以及他對(duì) RTE 與 AI 結(jié)合的未來(lái)趨勢(shì)的判斷。

OpenAI發(fā)布實(shí)時(shí)API，AI實(shí)時(shí)語(yǔ)音時(shí)代如何搶占風(fēng)口？

本次 RTE 大會(huì)也將通過(guò)七場(chǎng)行業(yè)分論壇的形式，展現(xiàn)一幅最具想象力的 AIGC+RTE 行業(yè)場(chǎng)景應(yīng)用圖景，包括 AI+IoT、教育、泛娛樂(lè)、出海、數(shù)字化轉(zhuǎn)型等七大行業(yè)。50+行業(yè)大咖將會(huì)現(xiàn)身行業(yè)分論壇現(xiàn)場(chǎng)，帶來(lái)一線的場(chǎng)景實(shí)戰(zhàn)案例以及極具深度的行業(yè)洞察。

場(chǎng)景是技術(shù)迭代所結(jié)的果實(shí)，未來(lái)對(duì)于新場(chǎng)景的想象力也醞釀在當(dāng)下技術(shù)的前沿趨勢(shì)中。本次 RTE 大會(huì)也在行業(yè)場(chǎng)景應(yīng)用的討論之外，設(shè)置了五場(chǎng)技術(shù)專場(chǎng)，分別聚焦在音頻技術(shù)和 Voice AI、視頻技術(shù)和 AI 生成、RTC+大模型、空間計(jì)算和新硬件、云架構(gòu)和 AI 時(shí)代的 Infra 這五個(gè)技術(shù)方向，30+的技術(shù)大咖和專家學(xué)者將會(huì)帶來(lái)自己對(duì)所在領(lǐng)域最深入的技術(shù)見地。

當(dāng)然，對(duì)于參與到 RTE 大會(huì)中的開發(fā)者們來(lái)說(shuō)，這里提供的不僅僅是觀點(diǎn)和見地。每年 RTE 大會(huì)都會(huì)為參會(huì)開發(fā)者設(shè)置專屬活動(dòng)，在今年的 Workshop 中提供了用 TEN 開源框架來(lái)現(xiàn)場(chǎng)動(dòng)手搭建擁有音視頻理解能力的 AI Agent 的機(jī)會(huì)，這將為開發(fā)者帶來(lái)更多 AI 實(shí)時(shí)互動(dòng)場(chǎng)景創(chuàng)新靈感。

2024 年，實(shí)時(shí)對(duì)話式 AI 火熱，而 RTE 大會(huì)也迎來(lái)了十周年。

時(shí)間倒回到十年前，2015 年移動(dòng)互聯(lián)網(wǎng)那時(shí)在國(guó)內(nèi)還未完全成熟，RTE 大會(huì)在十年里見證了直播、在線教育、遠(yuǎn)程辦公這些新的技術(shù)場(chǎng)景景一次次以新物種的面目亮相并最終融入了大眾生活。在這個(gè)過(guò)程中, 實(shí)時(shí)互動(dòng)技術(shù)逐漸成為人們?cè)谏缃缓头簥蕵?lè)產(chǎn)品中的基礎(chǔ)設(shè)施。而隨著實(shí)時(shí)互動(dòng)行業(yè)的發(fā)展，走過(guò)十年的 RTE 大會(huì)已經(jīng)變得越來(lái)越重要，它已經(jīng)是當(dāng)下這個(gè)領(lǐng)域在全球范圍內(nèi)規(guī)模最大、議題最全, 最具影響力的行業(yè)大會(huì)。

現(xiàn)在，AI 與實(shí)時(shí)互動(dòng)的碰撞正涌現(xiàn)出新的技術(shù)和產(chǎn)品浪潮。而無(wú)論從前沿技術(shù)的探討深度，還是多場(chǎng)景創(chuàng)新應(yīng)用的豐富性上，今年的第十屆 RTE 大會(huì)都像極了這樣一掣風(fēng)口浪尖」上的實(shí)時(shí)互動(dòng)領(lǐng)域盛會(huì)。

這場(chǎng)大會(huì)將會(huì)展現(xiàn)出這場(chǎng)變革至今為止最銳利最先鋒的一面。已經(jīng)身處這場(chǎng)變革中的開發(fā)者們，或者對(duì)實(shí)時(shí)互動(dòng)即將出現(xiàn)的顛覆性變化感到興奮的所有人來(lái)說(shuō)，請(qǐng)及時(shí)到常

*頭圖來(lái)源：視覺中國(guó)

上一篇：字節(jié)跳動(dòng)的第一個(gè)智能硬件，居然最適合學(xué)英語(yǔ)？

下一篇：容億投資出手，投了一家AI解決方案服務(wù)商

OpenAI發(fā)布實(shí)時(shí)API，AI實(shí)時(shí)語(yǔ)音時(shí)代如何搶占風(fēng)口？
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-14 09:41:16 瀏覽：2818次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

OpenAI發(fā)布實(shí)時(shí)API，AI實(shí)時(shí)語(yǔ)音時(shí)代如何搶占風(fēng)口？ 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-14 09:41:16 瀏覽：2818次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

OpenAI發(fā)布實(shí)時(shí)API，AI實(shí)時(shí)語(yǔ)音時(shí)代如何搶占風(fēng)口？
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-14 09:41:16 瀏覽：2818次