展會信息港展會大全

《Nature》子刊:不僅是語言,機(jī)器翻譯還能把腦波“翻譯”成文字
來源:互聯(lián)網(wǎng)   發(fā)布日期:2020-04-27 09:28:06   瀏覽:8387次  

導(dǎo)讀:選自Nature Neuroscience 機(jī)器之心編譯 參與:NeuR、張倩 如果將人腦的神經(jīng)信號也視為一種語言,那么將機(jī)器翻譯架構(gòu)應(yīng)用于解讀神經(jīng)信號的可行性似乎并不令人驚訝。在《Nature Neuroscience》的一篇論文中,來自加州大學(xué)舊金山分校的研究者實(shí)踐了這一想法。他...

選自Nature Neuroscience

機(jī)器之心編譯

參與:NeuR、張倩

如果將人腦的神經(jīng)信號也視為一種語言,那么將機(jī)器翻譯架構(gòu)應(yīng)用于解讀神經(jīng)信號的可行性似乎并不令人驚訝。在《Nature Neuroscience》的一篇論文中,來自加州大學(xué)舊金山分校的研究者實(shí)踐了這一想法。他們用一個編碼器-解碼器框架將大腦神經(jīng)信號轉(zhuǎn)換為文字,在 250 個詞的封閉句子集中將錯誤率降到了 3%。

《Nature》子刊:不僅是語言,機(jī)器翻譯還能把腦波“翻譯”成文字

論文鏈接:https://www.nature.com/articles/s41593-020-0608-8

在過去的十年里,腦機(jī)接口(BMI)已經(jīng)從動物實(shí)驗(yàn)轉(zhuǎn)變?yōu)槿祟悓?shí)驗(yàn),其中具有代表性的結(jié)果是使得四肢癱瘓者恢復(fù)一定的運(yùn)動能力,在空間維度中的兩個自由度上實(shí)現(xiàn)連續(xù)運(yùn)動。盡管這種類型的控制也可以與虛擬鍵盤結(jié)合使用來生成文本,但即使在理想的光標(biāo)控制下(目前尚無法實(shí)現(xiàn)),碼字率仍受限于單指打字。另一種選擇是直接解碼口語,但到目前為止,這種 BMI 僅限于解碼孤立的音素或單音節(jié),或者在中等數(shù)量詞匯(約 100 單詞)構(gòu)成的連續(xù)語音中,正確解碼不到 40% 的單詞。

為了獲得更高的準(zhǔn)確度,來自加州大學(xué)舊金山分校的研究者利用了「從神經(jīng)活動解碼語音」與「機(jī)器翻譯」兩個任務(wù)之間的概念相似性。這兩種任務(wù)的目標(biāo)都是在同一基礎(chǔ)分析單位的兩種不同表示之間建立映射。更確切地說,二者都是將一個任意長度的序列轉(zhuǎn)化為另一個任意長度的序列(任意是指輸入和輸出序列的長度不同,并且彼此之間沒有決定性的聯(lián)系)。

在這項(xiàng)研究中,研究者試圖一次解碼一個句子,就像當(dāng)下大多數(shù)機(jī)器翻譯算法一樣,因此這兩種任務(wù)實(shí)際上都映射到相同類型的輸出,即一個單詞序列對應(yīng)于一個句子。另一方面,這兩種任務(wù)的輸入是存在很大區(qū)別的:分別是神經(jīng)信號和文本。但是,當(dāng)前機(jī)器翻譯架構(gòu)可以通過人工神經(jīng)網(wǎng)絡(luò)直接從數(shù)據(jù)中學(xué)習(xí)特征,這表明機(jī)器翻譯的端到端學(xué)習(xí)算法幾乎可以直接運(yùn)用于語音解碼。

為了驗(yàn)證這一假設(shè),在語音生成過程中,研究者利用從腦電圖(ECoG)獲得的神經(jīng)信號以及相應(yīng)口語的轉(zhuǎn)錄,訓(xùn)練了一種「序列到序列」的架構(gòu)。此外,這項(xiàng)任務(wù)和機(jī)器翻譯之間最重要的區(qū)別在于,后者的數(shù)據(jù)集可以包含超過 100 萬個句子,但構(gòu)成該研究基礎(chǔ)的腦電圖研究中的單個參與者通常只提供幾千個句子。

為了在相對不足的訓(xùn)練數(shù)據(jù)中利用端到端學(xué)習(xí)的優(yōu)勢,研究者使用了僅包含 30-50 個不同句子的限制性「語言」,并且在某些情況下,采用了其他參與者的數(shù)據(jù)和其他語音任務(wù)的遷移學(xué)習(xí)。

這項(xiàng)研究的參與者從以下兩個數(shù)據(jù)集之一中大聲朗讀句子:一組圖片描述(30 句,約 125 個不同單詞),通常以一個會話的形式描述;或 MOCHATIMIT14(460 句,約 1800 個不同單詞),以 50 句分組的會話進(jìn)行(最后一組 60 句),研究者稱之為 MOCHA-1、MOCHA-2 等等。在時間允許的情況下重復(fù)分組會話。對于測試,研究者只考慮了至少重復(fù)三次的句子集(即提供一組用于測試,至少提供兩組用于訓(xùn)練),這在實(shí)踐中將 MOCHA-TIMIT 集限制為 MOCHA-1(50 句,約 250 個不同單詞)。

方法

這里首先簡要描述解碼流程,如下圖所示:

《Nature》子刊:不僅是語言,機(jī)器翻譯還能把腦波“翻譯”成文字

研究者要求參與者大聲朗讀句子,同時利用高密度 ECoG 網(wǎng)格(ECoG grid)記錄他們 peri-Sylvian 皮質(zhì)的神經(jīng)活動。

在每個電極上,ECoG 信號的高頻分量(70-150Hz,即「high-γ」)的包絡(luò)線(即該范圍內(nèi)分析信號的振幅)在大約 200Hz 處提齲然后將所得的序列(每個對應(yīng)于一個句子)作為輸入數(shù)據(jù)傳遞到「編碼器-解碼器」式的人工神經(jīng)網(wǎng)絡(luò)。

網(wǎng)絡(luò)分三個階段處理序列:

時間卷積:類似的特征很可能在 ECoG 數(shù)據(jù)序列的不同點(diǎn)上重現(xiàn),全連接的前饋網(wǎng)絡(luò)無法利用這樣的特點(diǎn)。

編碼器 RNN:下采樣序列被 RNN 按序處理。在每個時間步中,編碼器 RNN 的輸入由每個下采樣序列的當(dāng)前樣本以及它自己的先前狀態(tài)組成。然后最終隱藏狀態(tài)(Final hidden state,上圖中的黃色條)提供整個序列的單個高維編碼,與序列長度無關(guān)。為了引導(dǎo)編碼器在訓(xùn)練過程中找到有用的解,研究者還要求編碼器在每個時間步中預(yù)測語音音頻信號的表示,即梅爾頻率倒譜系數(shù)的序列 (MFCCs)。

解碼器 RNN:最后,高維狀態(tài)必須轉(zhuǎn)換回另一個序列,即單詞序列。因此,我們初始化第二個 RNN,然后訓(xùn)練為在每個時間步驟解碼出一個單詞或序列結(jié)束 token(在該點(diǎn)終止解碼)。在輸出序列的每個步驟中,除了自身先前的隱藏狀態(tài)外,解碼器還以參與者實(shí)際說出句子中的前一個單詞作為輸入(在模型訓(xùn)練階段),或者它自己在前一步預(yù)測的單詞作為輸入 (在測試階段)。與以前針對語音音素進(jìn)行語音解碼的方法相比,該方法將單詞作為目標(biāo)。

《Nature》子刊:不僅是語言,機(jī)器翻譯還能把腦波“翻譯”成文字

網(wǎng)絡(luò)架構(gòu)。

整個網(wǎng)絡(luò)同時進(jìn)行訓(xùn)練,使編碼器生成值接近目標(biāo) MFCC,并使解碼器為每個目標(biāo)詞分配高概率。請注意,MFCC 目標(biāo)提供了一個「輔助損失」,這是一種多任務(wù)學(xué)習(xí)的形式,其目的僅僅是引導(dǎo)網(wǎng)絡(luò)找到解決詞序解碼問題的足夠好的解。在測試期間,MFCC 預(yù)測被丟棄不管,解碼完全基于解碼器 RNN 的輸出。所有的訓(xùn)練都是通過反向傳播的隨機(jī)梯度下降進(jìn)行的,并將 dropout 應(yīng)用于所有的層。

實(shí)驗(yàn)結(jié)果

在整個實(shí)驗(yàn)過程中,研究者用平均單詞錯誤率 (WER,基于所有測試句子計(jì)算) 來量化性能,因此,完美解碼的 WER 為 0%。作為參考,在語音轉(zhuǎn)錄中,5% 的 WER 為專業(yè)水平,20-25% 為可接受的性能。這也是語音識別技術(shù)被廣泛采用的標(biāo)準(zhǔn),盡管它的參考詞匯量要大得多。

我們首先考慮一個示例參與者說 MOCHA-1 的 50 個句子(大約 250 個不同單詞)時的編碼器-解碼器框架的性能(見下圖)。下圖中參與者的平均 WER 約為 3%。以前最先進(jìn)方法的語音解碼 WER 是 60%,并使用較小的詞匯量(100 詞)進(jìn)行實(shí)驗(yàn)。

《Nature》子刊:不僅是語言,機(jī)器翻譯還能把腦波“翻譯”成文字

解碼句子的WERs。

編碼器-解碼器網(wǎng)絡(luò)的卓越性能源自什么?為了量化其各種因素的貢獻(xiàn),研究者系統(tǒng)地刪除或削弱了它們,并從頭開始訓(xùn)練網(wǎng)絡(luò)。上圖中的第二個方框顯示了對數(shù)據(jù)進(jìn)行空間下采樣以模擬較低密度 ECoG 網(wǎng)格的性能。具體來說,只留下了網(wǎng)格兩個維度上四分之一的通道(也就是說,實(shí)際上是 64 個通道,而不是 256 個通道)。WER 大約是原來的四倍,仍然在可用范圍內(nèi),這表明了除高密度網(wǎng)格外其它因素對于該算法的重要性。

第三個方框內(nèi)顯示當(dāng) MFCC 在訓(xùn)練過程中未被鎖定時的性能,其 WER 與使用低密度網(wǎng)格數(shù)據(jù)訓(xùn)練的模型的 WER 接近,但仍然明顯優(yōu)于先前的語音解碼方法。

接下來,研究者考慮一個輸入層是全連接而不是卷積的網(wǎng)絡(luò)(第四個框),WER 達(dá)到了原來的 8 倍。

然后考慮實(shí)現(xiàn)高性能需要多少數(shù)據(jù)。下圖顯示了四個參與者的 WER,作為神經(jīng)網(wǎng)絡(luò)訓(xùn)練重復(fù)次數(shù)的函數(shù)。沒有任何參與者的訓(xùn)練數(shù)據(jù)總量超過 40 分鐘,當(dāng)至少有 15 次重復(fù)訓(xùn)練時,WER 可能低于 25% 以下。

在下圖中,有兩名參與者,他們在 MOCHA 句子上的訓(xùn)練次數(shù)很少 (參與者 a/綠色實(shí)線,參與者 d/棕色實(shí)線),因此解碼性能較差。

《Nature》子刊:不僅是語言,機(jī)器翻譯還能把腦波“翻譯”成文字

4 月 28 日 20:00,機(jī)器之心聯(lián)合華為騰學(xué)院開設(shè)的線上公開課《輕松上手開源框架 MindSpore》第三課將正式開講,主題為《MindSpore 代碼流程分析》,主要介紹 MindSpore 端到端調(diào)用流程與算子開發(fā)流程,掃碼即可免費(fèi)報名。


贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港