展會(huì)信息港展會(huì)大全

阿里通義開源音頻語(yǔ)言模型Qwen2-Audio 可直接進(jìn)行語(yǔ)音問答
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-08-14 08:46:02   瀏覽:3148次  

導(dǎo)讀:【環(huán)球網(wǎng)科技綜合報(bào)道】8月13日,阿里通義大模型對(duì)外宣布開源Qwen2系列音頻語(yǔ)言模型Qwen2-Audio。Qwen2-Audio可以不需文本輸入,直接進(jìn)行語(yǔ)音問答,理解并分析用戶輸入的音頻信號(hào),包括人聲、自然音、音樂等。通義團(tuán)隊(duì)還同步推出了一套全新的音頻理解模型測(cè)...

【環(huán)球網(wǎng)科技綜合報(bào)道】8月13日,阿里通義大模型對(duì)外宣布開源Qwen2系列音頻語(yǔ)言模型Qwen2-Audio。Qwen2-Audio可以不需文本輸入,直接進(jìn)行語(yǔ)音問答,理解并分析用戶輸入的音頻信號(hào),包括人聲、自然音、音樂等。通義團(tuán)隊(duì)還同步推出了一套全新的音頻理解模型測(cè)評(píng)基準(zhǔn),相關(guān)論文已入選本周正在舉辦的國(guó)際頂會(huì)ACL 2024。

阿里通義開源音頻語(yǔ)言模型Qwen2-Audio 可直接進(jìn)行語(yǔ)音問答

Qwen2-Audio可以理解分析音樂

Qwen2-Audio是一款大型音頻語(yǔ)言模型(Large Audio-Language Model ,LALM),具備語(yǔ)音聊天和音頻分析兩種使用模式,前者是指用戶可以用語(yǔ)音向模型發(fā)出指令,模型無需自動(dòng)語(yǔ)音識(shí)別(ASR)模塊就可理解用戶輸入;后者是指模型能夠根據(jù)用戶指令分析音頻信息,包括人類聲音、自然聲音、音樂或者多種信號(hào)混雜的音頻。Qwen2-Audio能夠自動(dòng)實(shí)現(xiàn)兩種模式的切換。Qwen2-Audio支持超過8種語(yǔ)言和方言,如中文、英語(yǔ)、法語(yǔ)、意大利語(yǔ)、西班牙語(yǔ)、德語(yǔ)、日語(yǔ),粵語(yǔ)。

據(jù)了解,Qwen2-Audio是通義團(tuán)隊(duì)在音頻理解模型上的新一步探索,相比前一代模型Qwen-Audio,新版模型有了更強(qiáng)的聲音理解能力和更好的指令跟隨能力。

同時(shí),通義團(tuán)隊(duì)同步開源了基礎(chǔ)模型 Qwen2-Audio-7B 及其指令跟隨版本Qwen2-Audio-7B-Instruct,用戶可以通過Hugging Face、魔搭社區(qū)ModelScope等下載模型,也可以在魔搭社區(qū)“創(chuàng)空間”直接體驗(yàn)?zāi)P湍芰Α?/p>

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港