【環(huán)球網(wǎng)科技綜合報道】9月5日消息,據(jù)《福布斯》報道,牛津大學的伊利亞舒梅洛夫博士及其團隊在《自然》雜志上發(fā)表了一項研究,指出當生成式 AI 軟件僅依賴 AI 生成的內(nèi)容時,其輸出答案的質(zhì)量會迅速下降。
研究顯示,在經(jīng)過兩次查詢后,AI 的回答開始出現(xiàn)偏差,到了第五次查詢,質(zhì)量明顯降低,而到了第九次連續(xù)查詢,回答已經(jīng)退化為無意義的內(nèi)容。這種現(xiàn)象被研究團隊稱為“模型崩潰”,即 AI 在不斷使用自身生成的數(shù)據(jù)進行訓練后,輸出的內(nèi)容逐漸脫離現(xiàn)實,最終變得毫無價值。
舒梅洛夫博士指出,模型崩潰的發(fā)生速度之快和難以察覺的程度令人驚訝。它首先影響的是那些代表性不足的數(shù)據(jù),然后是輸出的多樣性,最終導致整體數(shù)據(jù)表現(xiàn)的惡化。這種崩潰可能會帶來嚴重的后果。
為了驗證“模型崩潰”的存在,研究人員采用了一種方法:他們使用了一個預訓練的 AI 驅(qū)動的維基百科,并讓 AI 模型基于自己生成的內(nèi)容進行更新。隨著受污染數(shù)據(jù)的累積,原本的訓練集被侵蝕,輸出的信息質(zhì)量也隨之下降。例如,在研究中的一個案例里,維基百科的條目在經(jīng)過多次查詢循環(huán)后,內(nèi)容從14世紀英國教堂尖頂?shù)慕榻B滑稽地轉(zhuǎn)變?yōu)殛P于各種顏色短尾兔子的論文。
此外,亞馬遜網(wǎng)絡服務團隊在6月發(fā)布的研究顯示,大約57%的網(wǎng)絡文本都經(jīng)過了 AI 算法的翻譯。如果互聯(lián)網(wǎng)上的人類生成數(shù)據(jù)被 AI 過濾內(nèi)容迅速覆蓋,且舒梅洛夫博士的研究發(fā)現(xiàn)屬實,那么 AI 可能正處于一種“自我毀滅”的狀態(tài),同時也在“毀滅”互聯(lián)網(wǎng)。
研究得出的結(jié)論是,為了確保 AI 的長期可持續(xù)發(fā)展,必須確保其能夠訪問現(xiàn)有的非 AI 生成內(nèi)容,并持續(xù)引入新的人工生成內(nèi)容,以避免模型崩潰的發(fā)生。