6月26日,記者獲悉,新一代實時語音編碼行業(yè)標準AVS3P10即將正式發(fā)布。
該標準由騰訊提議啟動、推進和維護,以騰訊首款神經(jīng)網(wǎng)絡(luò)語音編解碼器Penguins為原型,經(jīng)過AVS音頻組多家成員單位共同貢獻。
作為全球首個系統(tǒng)性引入人工智能并實現(xiàn)真正意義上的低碼率下高質(zhì)量語音編碼標準,AVS3P10的表現(xiàn)達到國際一流水準。僅需現(xiàn)有主流標準1/3的編碼碼率,就能實現(xiàn)同等清晰的音質(zhì)。
這意味著,今后在線上會議、語音通話等實時音頻場景,帶寬要求大幅降低。即使在電梯、地庫、隧道等網(wǎng)絡(luò)很差的環(huán)境,也能實現(xiàn)清晰流暢的語音通話。
在有限的帶寬條件下,想要將聲音高質(zhì)量傳遞到接收方,壓縮原始數(shù)據(jù)、去除冗余信息的語音編碼技術(shù)是其中關(guān)鍵。然而,基于EVS、OPUS等現(xiàn)有主流音頻編解碼標準,當碼率降低到10kbps以下時,語音質(zhì)量下降明顯,影響用戶體驗。
為應(yīng)對該挑戰(zhàn),騰訊會議天籟實驗室聯(lián)合騰訊AI Lab自研了騰訊首款神經(jīng)網(wǎng)絡(luò)語音編解碼器Penguins。此次AVS音頻組AVS3P10標準采納的騰訊側(cè)方案,就是以Penguins為原型。
具體來說,Penguins將AI與傳統(tǒng)技術(shù)緊密融合,從算法研究、工程化、產(chǎn)品化層面做了大量系統(tǒng)性創(chuàng)新,打破傳統(tǒng)香農(nóng)定律的性能極限,引入大數(shù)據(jù)并在可控算力增量下提供了新的性能上界,從而對下一代通信系統(tǒng),尤其是信源編碼器部分,提供了新的技術(shù)基礎(chǔ)和方法論。通過AI語音信號建模,提取最核心的特征參數(shù)編碼,再借助深度學習網(wǎng)絡(luò),預(yù)測并重建語音中的細微結(jié)構(gòu),最終生成逼真的音頻波形。
多方測試表明,騰訊提交的AVS3P10標準,代表了目前AI Codec的行業(yè)最高水平。該標準實現(xiàn)了6kbps下的高質(zhì)量語音通信,即使在“2G”網(wǎng)絡(luò)下也能實現(xiàn)清晰通話,且主觀質(zhì)量非常接近原始參考信號,媲美國際主流的OPUS標準在20kbps的質(zhì)量。同時,主觀質(zhì)量對標傳統(tǒng)編碼的中高碼率情況下,編碼效率提升200-300%。
2021年起,Penguins音頻編碼器就在騰訊會議的駕駛模式、弱網(wǎng)模式及QQ語音通話等場景中投入規(guī)模應(yīng)用,支持了億級用戶的流暢溝通。無論是在復(fù)雜的網(wǎng)絡(luò)環(huán)境中,還是在高速移動的交通工具上,都能提供清晰的音頻通信體驗。
2023年3月,騰訊團隊在AVS音頻組主動提議并參與標準制定,促進行業(yè)的技術(shù)進步,即AVS3P10實時語音編碼標準。隨后,騰訊提交基于Penguins的候選技術(shù);經(jīng)過AVS音頻組交叉驗證后采納。2024年6月,AVS3P10實時語音編碼標準正式完成標準化工作,進入公示階段。
值得一提的是,騰訊主導該標準制定的過程,也被AVS工作組評價為制定速度最快,標準交付質(zhì)量最高,測試得到充分好評。
“AVS3P10 實時語音編碼,作為新一代的語音編解碼技術(shù)標準,是對AVS系列標準的重要補充。該標準是當前業(yè)界的最高水平,體現(xiàn)了騰訊在語音處理、人工智能技術(shù)創(chuàng)新和用戶體驗方面的實力,將為用戶帶來更好的體驗!盇VS工作組指出。
在編解碼、音頻降噪、語音增強等領(lǐng)域,騰訊會議天籟實驗室正在探索實時音頻通信前沿技術(shù),打造全球領(lǐng)先的實時音頻通信端到端解決方案。同時,通過將更多研究成果應(yīng)用到騰訊會議等產(chǎn)品中,持續(xù)提升用戶體驗,打造“聽得清、聽得真”的極致體驗。