展會(huì)信息港展會(huì)大全

Google AI研究人員正在設(shè)想一種全新的搜索引擎
來源:互聯(lián)網(wǎng)   發(fā)布日期:2021-05-25 08:04:11   瀏覽:12980次  

導(dǎo)讀:Google AI 想象一下一本書的集合,也許是數(shù)百萬甚至數(shù)十億本,它們偶然地被出版商扔進(jìn)了一個(gè)領(lǐng)域。每天堆都呈指數(shù)增長。 這些書充滿了知識和答案。但是尋找者將如何找到它們?缺乏組織,書籍是無用的。 這是所有未經(jīng)過濾的榮耀的原始互聯(lián)網(wǎng)。這就是為什么我...

Google AI

想象一下一本書的集合,也許是數(shù)百萬甚至數(shù)十億本,它們偶然地被出版商扔進(jìn)了一個(gè)領(lǐng)域。每天堆都呈指數(shù)增長。

這些書充滿了知識和答案。但是尋找者將如何找到它們?缺乏組織,書籍是無用的。

這是所有未經(jīng)過濾的榮耀的原始互聯(lián)網(wǎng)。這就是為什么我們大多數(shù)在線尋求“啟蒙運(yùn)動(dòng)”的原因都始于Google(是的,還有其他搜索引擎)。Google的算法觸角可掃描并索引那堆不合時(shí)宜的書籍。當(dāng)某人在搜索欄中輸入查詢時(shí),搜索算法會(huì)翻閱其索引版本的Internet,顯示頁面并將其顯示在熱門列表的排名列表中。

這種方法非常有用。實(shí)際上,它是如此有用,以至于在過去的20年中它從未發(fā)生根本變化。但是現(xiàn)在,谷歌的AI研究人員(最初將搜索引擎設(shè)定為標(biāo)準(zhǔn)的公司)正在草擬下一步的藍(lán)圖。

在關(guān)于arXiv預(yù)印服務(wù)器的論文中,該團(tuán)隊(duì)建議使我們可以觸手可及的技術(shù),使互聯(lián)網(wǎng)的可搜索性更高。他們說大型語言模型(如OpenAI的GPT-3等機(jī)器學(xué)習(xí)算法)可以完全取代當(dāng)今的索引,檢索和排名系統(tǒng)。

AI是未來的搜索引擎嗎?

作者寫道,在尋求信息時(shí),大多數(shù)人都希望咨詢專家,并獲得細(xì)微而值得信賴的回應(yīng)。相反,他們用Google搜索。這可能行得通,或者嚴(yán)重錯(cuò)誤。就像您早上兩點(diǎn)被驚慌的,與健康相關(guān)的兔子洞吸了一樣。

盡管搜索引擎表面上(希望是高質(zhì)量的)源至少包含一個(gè)答案,但是搜索者要負(fù)擔(dān)掃描,過濾和讀取結(jié)果以盡可能地將答案拼湊起來的負(fù)擔(dān)。

這些年來,搜索結(jié)果有了長足發(fā)展。但是,這種方法還遠(yuǎn)遠(yuǎn)不夠完美。

有一些問答工具,例如Alexa,Siri和Google Assistant。但是這些工具非常脆弱,可以解決的問題數(shù)量有限(盡管正在增長)。盡管它們有自己的缺點(diǎn)(更多內(nèi)容請參見下文),但像GPT-3這樣的大型語言模型則更加靈活,可以對任何查詢或提示構(gòu)造自然語言的新穎答復(fù)。

Google小組建議,下一代搜索引擎可能會(huì)綜合所有方面的優(yōu)勢,從而將當(dāng)今的頂級信息檢索系統(tǒng)整合到大型AI中。

值得注意的是,機(jī)器學(xué)習(xí)已經(jīng)在經(jīng)典的索引檢索然后排名搜索引擎中起作用。但是,作者提出,機(jī)器學(xué)習(xí)可以完全替代它,而不僅僅是增加系統(tǒng)。

“如果我們完全放棄了索引的概念,而將其替換為一個(gè)大型的,經(jīng)過預(yù)先訓(xùn)練的模型,該模型可以有效地對語料庫中包含的所有信息進(jìn)行編碼,將會(huì)發(fā)生什么?” 唐納德梅茨勒(Donald Metzler)和合著者在論文中撰文。“如果檢索和排名之間的區(qū)別消失了,而是只有一個(gè)響應(yīng)生成階段怎么辦?”

他們設(shè)想的一個(gè)理想結(jié)果是有點(diǎn)像《星際迷航》中星際飛船Enterprise的計(jì)算機(jī)。信息搜索者提出問題,系統(tǒng)以對話方式(即,如您所期望的那樣以專家的自然語言答復(fù))回答問題,并且在回答中包括權(quán)威引用。

在本文中,作者勾勒出了他們所謂的理想示例,說明了這種方法在實(shí)踐中可能是什么樣子。使用者問:“紅酒對健康有什么好處?” 系統(tǒng)從多個(gè)權(quán)威來源(在本例中為WebMD和Mayo診所)以清晰的散文形式返回了細(xì)微差別的答案,突出顯示了飲用紅酒的潛在好處和風(fēng)險(xiǎn)。

但是,它不必到此結(jié)束。作者注意到,大型語言模型的另一個(gè)好處是他們只需稍作調(diào)整即可學(xué)習(xí)許多任務(wù)的能力(這被稱為單次或多次學(xué)習(xí))。因此,他們也許能夠執(zhí)行當(dāng)前搜索引擎完成的所有相同任務(wù),甚至還可以執(zhí)行許多其他任務(wù)。

仍然只是一個(gè)愿景

如今,這一愿景已遙不可及。大型語言模型被作者稱為“差異表達(dá)”。

像GPT-3這樣的算法所產(chǎn)生的散文有時(shí)與人類撰寫的文章幾乎沒有區(qū)別,但它們?nèi)匀蝗菀桩a(chǎn)生荒謬的回答。更糟糕的是,他們無意間反映了訓(xùn)練數(shù)據(jù)中嵌入的偏見,對上下文沒有任何理解,也無法引用來源(甚至分離高質(zhì)量和低質(zhì)量的來源)來證明他們的回應(yīng)是正確的。

作者寫道:“他們被認(rèn)為知道很多,但他們的知識很膚淺。” 本文還列出了彌合差距所需的突破。確實(shí),他們概述的許多挑戰(zhàn)都適用于整個(gè)領(lǐng)域。

一個(gè)重要的進(jìn)步將是超越僅對術(shù)語(例如單個(gè)詞)之間的關(guān)系進(jìn)行建模的算法,而對對文章中的詞與整個(gè)文章之間的關(guān)系進(jìn)行建模的算法。此外,他們還將對互聯(lián)網(wǎng)上許多不同文章之間的關(guān)系進(jìn)行建模。

研究人員還需要定義什么構(gòu)成質(zhì)量響應(yīng)。這本身并不是一件容易的事。但是,對于初學(xué)者來說,作者們建議高質(zhì)量的回答應(yīng)該是權(quán)威的,透明的,公正的,可訪問的,并應(yīng)包含不同的觀點(diǎn)。

即使是當(dāng)今最尖端的算法也無法接近這個(gè)標(biāo)準(zhǔn)。在解決這些問題之前,以這種規(guī)模部署自然語言模型是不明智的。但是,如果解決了這一問題,并且已經(jīng)在解決其中的一些挑戰(zhàn),那么搜索引擎將不是唯一受益的應(yīng)用程序。

這是一個(gè)誘人的愿景。在試圖確定什么是可信賴的和什么不是值得的時(shí),梳理網(wǎng)頁以尋找答案。

毫無疑問,我們中的許多人并沒有盡我們所能或應(yīng)該做的。

但是,值得一提的是,以這種方式訪問互聯(lián)網(wǎng)將如何改變?nèi)藗兊呢暙I(xiàn)方式。

如果我們主要是通過閱讀算法合成的散文回應(yīng)來消費(fèi)信息的,而不是自己打開和閱讀各個(gè)頁面,那么創(chuàng)作者會(huì)出版多少作品嗎?谷歌和其他搜索引擎制造商將如何補(bǔ)償本質(zhì)上在制造信息的人呢?

仍然會(huì)有很多人閱讀新聞,在這種情況下,搜索算法將需要提供故事列表。但是我不知道較小的創(chuàng)作者添加的內(nèi)容是否會(huì)發(fā)生微妙的變化,這樣做會(huì)使網(wǎng)絡(luò)上的信息豐富程度降低,從而削弱了依賴該信息的算法。

沒有辦法知道。通常,投機(jī)根植于當(dāng)今的問題,事后看來卻是無辜的。同時(shí),毫無疑問,這項(xiàng)工作將繼續(xù)進(jìn)行。也許我們將解決這些挑戰(zhàn)(以及隨之而來的挑戰(zhàn))。

更多關(guān)于芯片制造的知識,請搜索“眾壹云”


贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港