展會(huì)信息港展會(huì)大全

OpenAI語(yǔ)音轉(zhuǎn)錄工具被曝嚴(yán)重幻覺(jué):轉(zhuǎn)錄100小時(shí),一半兒在瞎扯
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-10-28 13:52:17   瀏覽:318次  

導(dǎo)讀:劃重點(diǎn) 01OpenAI的AI語(yǔ)音轉(zhuǎn)寫工具Whisper被曝存在嚴(yán)重幻覺(jué)問(wèn)題,約一半轉(zhuǎn)錄內(nèi)容不實(shí)。 02美聯(lián)社報(bào)道,明尼蘇達(dá)州的曼卡托診所和洛杉磯兒童醫(yī)院等超過(guò)30000名臨床醫(yī)生和40個(gè)衛(wèi)生系統(tǒng)已使用Nabla基于Whisper打造的工具。 03然而,OpenAI此前已警告不要在高風(fēng)險(xiǎn)...

劃重點(diǎn)

01OpenAI的AI語(yǔ)音轉(zhuǎn)寫工具Whisper被曝存在嚴(yán)重幻覺(jué)問(wèn)題,約一半轉(zhuǎn)錄內(nèi)容不實(shí)。

02美聯(lián)社報(bào)道,明尼蘇達(dá)州的曼卡托診所和洛杉磯兒童醫(yī)院等超過(guò)30000名臨床醫(yī)生和40個(gè)衛(wèi)生系統(tǒng)已使用Nabla基于Whisper打造的工具。

03然而,OpenAI此前已警告不要在“高風(fēng)險(xiǎn)領(lǐng)域”中使用Whisper,如決策情境。

04由于數(shù)據(jù)安全原因,Nabla工具無(wú)法將生成的AI文本與原始錄音進(jìn)行比較。

05OpenAI發(fā)言人表示,公司將持續(xù)研究減少幻覺(jué)現(xiàn)象,并在模型更新中加入相應(yīng)反饋機(jī)制。

以上內(nèi)容由騰訊混元大模型生成,僅供參考

西風(fēng) 發(fā)自 凹非寺

量子位 | 公眾號(hào) QbitAI

OpenAI的AI語(yǔ)音轉(zhuǎn)寫工具,那個(gè)號(hào)稱近乎“人類水平”的Whisper,被曝幻覺(jué)嚴(yán)重

100多小時(shí)轉(zhuǎn)錄,被工程師發(fā)現(xiàn)約一半都在瞎扯。

更嚴(yán)重的是,美聯(lián)社還爆料有醫(yī)療機(jī)構(gòu)利用Whisper來(lái)轉(zhuǎn)錄醫(yī)生與患者的會(huì)診,瞬間引發(fā)大量網(wǎng)友關(guān)注。

OpenAI語(yǔ)音轉(zhuǎn)錄工具被曝嚴(yán)重幻覺(jué):轉(zhuǎn)錄100小時(shí),一半兒在瞎扯

據(jù)悉,明尼蘇達(dá)州的曼卡托診所和洛杉磯兒童醫(yī)院在內(nèi)的超過(guò)30000名臨床醫(yī)生和40個(gè)衛(wèi)生系統(tǒng)已開始使用法國(guó)AI診療公司Nabla基于Whisper打造的工具。

而且他們已經(jīng)轉(zhuǎn)錄了大概700萬(wàn)次醫(yī)療就診。

網(wǎng)友紛紛表示這就有點(diǎn)嚇人了。

OpenAI語(yǔ)音轉(zhuǎn)錄工具被曝嚴(yán)重幻覺(jué):轉(zhuǎn)錄100小時(shí),一半兒在瞎扯

OpenAI語(yǔ)音轉(zhuǎn)錄工具被曝嚴(yán)重幻覺(jué):轉(zhuǎn)錄100小時(shí),一半兒在瞎扯

值得一提的是,OpenAI之前早就警告過(guò),該工具不應(yīng)在“高風(fēng)險(xiǎn)領(lǐng)域”中使用。

OpenAI語(yǔ)音轉(zhuǎn)錄工具被曝嚴(yán)重幻覺(jué):轉(zhuǎn)錄100小時(shí),一半兒在瞎扯

針對(duì)最新爆料,有OpenAI發(fā)言人回應(yīng),OpenAI會(huì)在模型更新中加入相應(yīng)的反饋機(jī)制。

OpenAI被督促趕緊解決此問(wèn)題Whisper是OpenAI老早前推出的開源自動(dòng)語(yǔ)音識(shí)別(ASR)系統(tǒng),于2022年9月發(fā)布。

img class="qnt-img-img qnr-img-lazy-load-img qnr-img-lazy-load-img-placeholder" style="border-radius:6px;display:inline-block;height:100%;max-width:100%;width:1080px;cursor:zoom-in" src="https://inews.gtimg.com/news_bt/OPEHtxMRkLRFBHdsWSUoCkHDALnVLCSQ8OCQe0HvJRHx0AA/641" data-src="https://inews.gtimg.com/news_bt/OPEHtxMRkLRFBHdsWSUoCkHDALnVLCSQ8OCQe0HvJRHx0AA/641" alt="圖片"/>

它采用簡(jiǎn)單的端到端方式,基于編碼器-解碼器Transformer架構(gòu)。輸入音頻將被分成30秒的塊,轉(zhuǎn)化為梅爾倒譜(音頻特征提取方式之一,log-Mel spectrogram),然后傳入編碼器。

經(jīng)過(guò)68萬(wàn)小時(shí)的多語(yǔ)言和多任務(wù)監(jiān)督網(wǎng)絡(luò)數(shù)據(jù)的訓(xùn)練,Whisper可以進(jìn)行多語(yǔ)言轉(zhuǎn)錄。

Whisper推出后得到廣泛應(yīng)用,如今GitHub已攬獲70.2k標(biāo)星:

OpenAI語(yǔ)音轉(zhuǎn)錄工具被曝嚴(yán)重幻覺(jué):轉(zhuǎn)錄100小時(shí),一半兒在瞎扯

據(jù)悉,它還被集成在ChatGPT的一些版本中,同時(shí)也是Oracle和微軟云計(jì)算平臺(tái)的一項(xiàng)內(nèi)置服務(wù),而這些平臺(tái)為全球數(shù)千家公司提供服務(wù)。

此外,僅在上個(gè)月,HuggingFace上的一個(gè)最新版本W(wǎng)hisper就被下載了超420萬(wàn)次。HuggingFace社區(qū)的機(jī)器學(xué)習(xí)工程師Sanchit Gandhi表示,Whisper是最受歡迎的開源語(yǔ)音識(shí)別模型。

而現(xiàn)在,據(jù)美聯(lián)社報(bào)道,很多研究人員和工程師反映,在工作中他們經(jīng)常遇到Whisper產(chǎn)生的幻覺(jué)。

例如,密歇根大學(xué)的一位研究員在嘗試改進(jìn)模型之前,發(fā)現(xiàn)其檢查的每10份音頻轉(zhuǎn)錄中有8份出現(xiàn)了幻覺(jué)。

一位機(jī)器學(xué)習(xí)工程師指出,在他分析的超過(guò)100小時(shí)Whisper轉(zhuǎn)錄中,大約一半出現(xiàn)了幻覺(jué)。

還有一位開發(fā)者表示,在他使用Whisper創(chuàng)建的26,000份轉(zhuǎn)錄中,幾乎每一份都發(fā)現(xiàn)了幻覺(jué)。

……

這種問(wèn)題甚至存在于錄制良好的短音頻樣本中。

在最近的一項(xiàng)研究中,計(jì)算機(jī)科學(xué)家們?cè)趯彶榈某^(guò)13000個(gè)清晰音頻片段中發(fā)現(xiàn)了187個(gè)幻覺(jué)。

工程師和研究人員表示,他們從未見過(guò)其它任何AI驅(qū)動(dòng)的轉(zhuǎn)錄工具像Whisper這樣頻繁地產(chǎn)生幻覺(jué)。

Whisper幻覺(jué)嚴(yán)重的原因目前尚未可知,但有軟件開發(fā)者表示,這些虛構(gòu)內(nèi)容往往發(fā)生在停頓、有背景聲音或音樂(lè)播放時(shí)。

OpenAI語(yǔ)音轉(zhuǎn)錄工具被曝嚴(yán)重幻覺(jué):轉(zhuǎn)錄100小時(shí),一半兒在瞎扯

之前,OpenAI就有提醒:

不要在決策情境中使用Whisper,準(zhǔn)確性上的缺陷可能導(dǎo)致結(jié)果出現(xiàn)明顯偏差。

然鵝,美聯(lián)社表示,這一警告并未阻止一些醫(yī)院或醫(yī)療中心使用Whisper等語(yǔ)音轉(zhuǎn)文字模型

包括明尼蘇達(dá)州的曼卡托診所和洛杉磯兒童醫(yī)院在內(nèi),已經(jīng)有超30000名臨床醫(yī)生和40個(gè)醫(yī)療系統(tǒng)已經(jīng)開始使用由Nabla公司基于Whisper開發(fā)的工具。

Nabla CTO Martin Raison稱,該工具針對(duì)醫(yī)療語(yǔ)言對(duì)模型進(jìn)行了微調(diào),用于轉(zhuǎn)錄和總結(jié)患者的交流。

目前,該工具已被用于轉(zhuǎn)錄約700萬(wàn)次醫(yī)療就診。

在得知Whisper可能會(huì)產(chǎn)生幻覺(jué)后,Nabla表示正在解決此問(wèn)題,不過(guò):

由于“數(shù)據(jù)安全原因”,Nabla的工具會(huì)刪除原始音頻,無(wú)法將Nabla生成的AI文本與原始錄音進(jìn)行比較。

此外,據(jù)了解,Whisper還被用來(lái)為聾人和聽力障礙者創(chuàng)建字幕。

OpenAI語(yǔ)音轉(zhuǎn)錄工具被曝嚴(yán)重幻覺(jué):轉(zhuǎn)錄100小時(shí),一半兒在瞎扯

Whisper幻覺(jué)嚴(yán)重問(wèn)題被發(fā)現(xiàn)后,有人敦促OpenAI趕緊解決此問(wèn)題。

今年2月離開OpenAI的研究員William Saunders也開麥了:

如果公司愿意優(yōu)先考慮,這似乎是可以解決的。如果你把它放出去,人們過(guò)于自信于它的功能,并將其集成到所有這些其他系統(tǒng)中,那就成了問(wèn)題。

有OpenAI發(fā)言人回應(yīng)稱,公司持續(xù)研究如何減少幻覺(jué)現(xiàn)象,并感謝研究人員的發(fā)現(xiàn),同時(shí)補(bǔ)充道OpenAI會(huì)在模型更新中融入相應(yīng)反饋機(jī)制。

參考鏈接:[1]https://apnews.com/article/ai-artificial-intelligence-health-business-90020cdf5fa16c79ca2e5b6c4c9bbb14[2]https://x.com/AP/status/1850150400424345858

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港