IT之家 8 月 13 日消息,阿里通義千問開源Qwen2-Audio 系列的兩個(gè)模型 Qwen2-Audio-7B 和 Qwen2-Audio-7B-Instruct。
作為一個(gè)大規(guī)模音頻語言模型,Qwen2-Audio 能夠接受各種音頻信號(hào)輸入,并根據(jù)語音指令執(zhí)行音頻分析或直接響應(yīng)文本,有兩種不同的音頻交互模式:
語音聊天:用戶可以自由地與 Qwen2-Audio 進(jìn)行語音互動(dòng),而無需文本輸入
音頻分析:用戶可以在互動(dòng)過程中提供音頻和文本指令對(duì)音頻進(jìn)行分析
官方在一系列基準(zhǔn)數(shù)據(jù)集上進(jìn)行了測試,Qwen2-Audio 超越了先前的最佳模型。
▲Qwen2-Audio 整體表現(xiàn)