展會信息港展會大全

Common Voice:用多語言數(shù)據(jù)打造包容性AI語音
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-11-26 08:07:07   瀏覽:44次  

導(dǎo)讀:來源:MIT Technology Review我們正處于語音 AI 爆發(fā)的邊緣,蘋果、OpenAI 等科技公司正推出新一代人工智能助手。然而,這些助手的默認語音通常是白人美國口音如果幸運,可能是英國口音并且一定是英語。這些語音只代表英語中極小的一部分方言和口音,而英語覆蓋的區(qū)域和文化非常廣泛。如果你是全球數(shù)十億不講英語的人之一,那就運氣不好了:這些工具在其他語言中的表現(xiàn)遠不如英 ......

Common Voice:用多語言數(shù)據(jù)打造包容性AI語音

來源:MIT Technology Review

我們正處于語音 AI 爆發(fā)的邊緣,蘋果、OpenAI 等科技公司正推出新一代人工智能助手。然而,這些助手的默認語音通常是白人美國口音如果幸運,可能是英國口音并且一定是英語。這些語音只代表英語中極小的一部分方言和口音,而英語覆蓋的區(qū)域和文化非常廣泛。如果你是全球數(shù)十億不講英語的人之一,那就運氣不好了:這些工具在其他語言中的表現(xiàn)遠不如英語。

這是因為用來訓(xùn)練這些模型的數(shù)據(jù)非常有限。在 AI 研究中,大多數(shù)訓(xùn)練數(shù)據(jù)都來自英語互聯(lián)網(wǎng),反映的是英美文化。然而,目前有一項龐大的基層努力試圖改變這一現(xiàn)狀,為 AI 語音帶來更多透明性和多樣性:Mozilla 發(fā)起的 Common Voice 項目。

過去七年中,Common Voice 創(chuàng)建的數(shù)據(jù)集已成為構(gòu)建語音 AI 最有用的資源之一。隨著當前 AI 的快速發(fā)展,該數(shù)據(jù)集的下載量大幅增長,從 2020 年的 38,500 次躍升至最近的 500 萬次。數(shù)據(jù)集的創(chuàng)建并不容易,主要依賴于大量志愿者的貢獻。志愿者人數(shù)也從 2020 年的不足 50 萬人增長到 2024 年的超過 90 萬人。然而,一些社區(qū)成員認為,通過免費開放數(shù)據(jù),Mozilla 實際上是在鼓勵志愿者為大型科技公司免費勞動。

自 2017 年以來,Common Voice 項目的志愿者共收集了 31,000 小時的語音數(shù)據(jù),涵蓋約 180 種語言,包括俄語、加泰羅尼亞語和馬拉地語。如果你使用過基于音頻 AI 的服務(wù),很可能至少部分訓(xùn)練數(shù)據(jù)來自 Common Voice。

Mozilla 的目標是高尚的。隨著 AI 越來越多地融入我們的生活以及溝通方式,讓我們所使用的工具聽起來像我們自己變得尤為重要。這項技術(shù)可能打破溝通障礙,向無法閱讀的人群傳遞信息。然而,過于關(guān)注英語的風(fēng)險在于鞏固一種新的殖民世界秩序,并可能導(dǎo)致一些語言的完全消失。

“如果最終我們不是創(chuàng)造出真正的多模態(tài)、多語言、高性能翻譯模型,而是迫使所有人都用英語或法語交流,那將是一個巨大的失敗,”Common Voice 項目主管 EM Lewis-Jong 說。

Common Voice 是開源的,任何人都可以查看數(shù)據(jù)集的內(nèi)容,并免費將其用于任何用途。這種透明度在 AI 數(shù)據(jù)治理中十分罕見。根據(jù)華盛頓大學(xué)、卡內(nèi)基梅隆大學(xué)和西北大學(xué)的一項研究,大多數(shù)大型音頻數(shù)據(jù)集并未公開,許多數(shù)據(jù)來自對 YouTube 等網(wǎng)站的抓取。

絕大多數(shù)語言數(shù)據(jù)是由志愿者收集的,例如來自土耳其的研究員 Bülent zden。自 2020 年以來,他不僅捐贈自己的語音,還通過提高公眾意識吸引更多人參與。他最近花了兩個月全職糾正土耳其語數(shù)據(jù)中的錯誤和拼寫問題。對于他來說,改善 AI 模型并不是唯一的動機。

“我這么做是為了保護文化,特別是低資源語言的文化,”zden 說。他最近開始收集土耳其一些小語種的樣本,例如切爾克斯語和扎扎語。

然而,我在深入研究數(shù)據(jù)集時注意到,語言和口音的覆蓋范圍非常不均衡。比如,芬蘭語僅有 231 人貢獻的 22 小時語音,而英語則有 94,665 名說話者提供的 3,554 小時語音。一些語言(如韓語和旁遮普語)的表現(xiàn)更差,盡管它們有數(shù)千萬使用者,卻只錄制了幾個小時的數(shù)據(jù)。

這種不平衡的原因在于數(shù)據(jù)收集工作是由語言社區(qū)自下而上發(fā)起的,Lewis-Jong 解釋道。

“我們試圖為社區(qū)提供創(chuàng)建自己 AI 訓(xùn)練數(shù)據(jù)集所需的工具。我們特別關(guān)注那些缺乏數(shù)據(jù)的語言社區(qū),或者那些可能不被大型科技公司重視的語言,”Lewis-Jong 說。他們希望借助志愿者和各種資助,到今年年底將 Common Voice 的數(shù)據(jù)集擴展到接近 200 種語言。

Common Voice 的寬松許可政策使得許多公司依賴它。例如,瑞典初創(chuàng)公司 Mabel AI 利用它為醫(yī)療提供者構(gòu)建翻譯工具。公司首選的語言之一是烏克蘭語,開發(fā)了一款幫助烏克蘭難民與瑞典社會服務(wù)互動的翻譯工具,Mabel AI 的創(chuàng)始人兼 CEO Karolina Sjberg 說。團隊隨后擴展到其他語言,例如阿拉伯語和俄語。

很多其他音頻數(shù)據(jù)的問題在于,它們大多是人們從書籍或文本中朗讀出來的。這與人們在實際交流中,尤其是在感到痛苦或壓力時的語音表現(xiàn)有很大不同,Sjberg 表示。由于 Common Voice 允許任何人提交句子供他人朗讀,Mozilla 的數(shù)據(jù)集中也包含了一些更口語化、更自然的句子。

然而,它并不完全具有代表性。Mabel AI 團隊很快發(fā)現(xiàn),大多數(shù)他們需要的語音數(shù)據(jù)是由年輕男性捐贈的,這在數(shù)據(jù)集中非常典型。

“我們打算與之合作的難民幾乎完全不是年輕男性,”Sjberg 說!斑@意味著我們需要的語音數(shù)據(jù)并不完全符合我們已有的語音數(shù)據(jù)!眻F隊開始從烏克蘭女性和老年人中收集語音數(shù)據(jù)。

與其他數(shù)據(jù)集不同,Common Voice 要求參與者分享性別和口音等詳細信息。確保不同性別的代表性對于減少 AI 模型中的偏見至關(guān)重要,Common Voice 性別行動計劃的創(chuàng)建者 Rebecca Ryakitimbo 表示。更多的多樣性不僅帶來更好的代表性,也能帶來更優(yōu)質(zhì)的模型。狹窄和同質(zhì)化的數(shù)據(jù)訓(xùn)練的系統(tǒng)往往會產(chǎn)生刻板印象和有害的結(jié)果。

“我們不希望出現(xiàn)這樣的情況:一個以女性命名的聊天機器人,對女性的回應(yīng)與對男性的回應(yīng)不同,”她說。

Ryakitimbo 在坦桑尼亞、肯尼亞和剛果民主共和國收集了斯瓦希里語的語音數(shù)據(jù)。她表示,她希望從社會經(jīng)濟多樣化的斯瓦希里語人群中收集語音,包括年輕和年長的女性,特別是那些可能不識字或沒有設(shè)備的農(nóng)村居民。

這種數(shù)據(jù)收集工作具有挑戰(zhàn)性。對于許多人來說,收集 AI 語音數(shù)據(jù)的重要性顯得很抽象,尤其是當他們不熟悉這些技術(shù)時。Ryakitimbo 和志愿者通常在一些讓女性感到安全的環(huán)境中開始,例如關(guān)于月經(jīng)衛(wèi)生的宣講活動,并解釋這項技術(shù)如何幫助傳播有關(guān)月經(jīng)的信息。對于不識字的性,團隊會朗讀句子讓她們重復(fù)錄音。

Common Voice 項目的信念是,語言是身份的重要組成部分!拔覀冋J為,這不僅關(guān)乎語言,也關(guān)乎傳承文化和遺產(chǎn),以及珍視人們的特定文化背景,”Lewis-Jong 說!坝泻芏嗔(xí)語和文化口號是無法翻譯的,”他們補充道。

Common Voice 是唯一一個英語不是主導(dǎo)的數(shù)據(jù)集,卡內(nèi)基梅隆大學(xué)研究員Willie Agnew 表示。他曾研究過多個音頻數(shù)據(jù)集!拔覍λ麄兊某晒∠笊羁,他們確實創(chuàng)建了一個非常多樣化的數(shù)據(jù)集,”Agnew 說。“相較于我們研究的其他項目,他們已經(jīng)遙遙領(lǐng)先!

我花了一些時間在 Common Voice 平臺上驗證其他芬蘭語使用者的錄音。當他們的聲音在我的書房中回響時,我感到意外的感動。我們都為了同一個目標聚集在一起:讓 AI 數(shù)據(jù)更加包容,并確保我們的文化和語言在下一代 AI 工具中得到充分的體現(xiàn)。

然而,我對捐贈自己的聲音后將發(fā)生什么仍有許多疑問。一旦進入數(shù)據(jù)集,我將無法控制這些數(shù)據(jù)未來的用途?萍夹袠I(yè)并不以給予貢獻者應(yīng)有的認可而聞名,而且這些數(shù)據(jù)對任何人都是開放使用的。

“盡管我們希望這些數(shù)據(jù)能惠及當?shù)厣鐓^(qū),但也有可能大型科技公司利用這些數(shù)據(jù)開發(fā)出商業(yè)產(chǎn)品,”Ryakitimbo 說。雖然 Mozilla不公開 Common Voice 數(shù)據(jù)的下載者,但 Lewis-Jong 告訴我,Meta 和 Nvidia 曾表示他們使用過這些數(shù)據(jù)。

開放訪問這些來之不易的少數(shù)語言數(shù)據(jù)并不是所有群體都希望看到的,卡內(nèi)基梅隆大學(xué)的研究員 Harry H. Jiang 表示。他參與了一項數(shù)據(jù)審核研究。他提到,例如一些原住民群體就表達了擔(dān)憂。

過去 18 個月中,Mozilla 一直在考慮“資源剝奪”問題,Lewis-Jong 表示。今年晚些時候,該項目將與社區(qū)合作試行包括 Nwulite Obodo 開放數(shù)據(jù)許可在內(nèi)的替代性許可模式。這種模式由比勒陀利亞大學(xué)的研究人員開發(fā),用于更公平地分享非洲數(shù)據(jù)集。例如,數(shù)據(jù)下載者可能需要提交使用計劃的詳細信息,并可能僅限于特定產(chǎn)品或有限時間內(nèi)的許可使用。用戶可能還需要為支持減貧的社區(qū)項目做出貢獻,Lewis-Jong 補充道。

Lewis-Jong 表示,這項試點是一次學(xué)習(xí)探索,目的是了解社區(qū)是否需要帶有替代許可的數(shù)據(jù),以及這些許可是否可持續(xù)。他們希望這一嘗試能帶來類似“開源 2.0”的模式。

最終,我決定捐贈我的聲音。我收到了一系列要朗讀的短語,坐在電腦前按下了錄音按鈕。我希望有一天,我的努力能幫助某家公司或研究者開發(fā)出更具個性化的語音 AI,而不是千篇一律的聲音。

原文鏈接:

https://www.technologyreview.com/2024/11/15/1106935/how-this-grassroots-effort-could-make-ai-voices-more-diverse/

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機會 | 展會港