當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能動(dòng)態(tài) > 人工智能的80年進(jìn)化編年史：從想象到現(xiàn)實(shí)

人工智能的80年進(jìn)化編年史：從想象到現(xiàn)實(shí)
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2023-03-02 10:00:01 瀏覽：7076次

導(dǎo)讀：AGI是Artificial General Intelligence的縮寫(xiě)，即通用人工智能。 AGI的目標(biāo)是實(shí)現(xiàn)人類(lèi)般的通用智能，這意味著AI可以像人類(lèi)一樣理解任意通用任務(wù), 并以人類(lèi)的智力水平執(zhí)行完成。基本上, 除了自我意識(shí)的生成，AGI就是人類(lèi)對(duì)人工智能的終極夢(mèng)想了。無(wú)論是近一...

AGI是Artificial General Intelligence的縮寫(xiě)，即通用人工智能。

AGI的目標(biāo)是實(shí)現(xiàn)人類(lèi)般的通用智能，這意味著AI可以像人類(lèi)一樣理解任意通用任務(wù), 并以人類(lèi)的智力水平執(zhí)行完成。

基本上, 除了"自我意識(shí)"的生成，AGI就是人類(lèi)對(duì)人工智能的終極夢(mèng)想了。

無(wú)論是近一年來(lái)火爆的AI繪畫(huà)，還是當(dāng)紅炸子雞ChatGPT，AI研究應(yīng)用的終極目標(biāo), 都是向著AGI通用人工智能的大一統(tǒng)目標(biāo)在邁進(jìn)。

讀者是否有同感,這幾年各種AI大模型的發(fā)展和突破, 著實(shí)有讓人眼花繚亂之感?

本文主要把現(xiàn)代到當(dāng)下一些AI的重要節(jié)點(diǎn)做了時(shí)間線梳理和簡(jiǎn)單分析，或有助于大家來(lái)理清楚這些年AI發(fā)展的關(guān)鍵脈絡(luò)。

1942年

時(shí)間回到80年前, 科幻泰斗阿西莫夫提出了著名的"機(jī)器人三定律”：

機(jī)器人不得傷害人類(lèi)，或坐視人類(lèi)受到傷害；

除非違背第一定律，否則機(jī)器人必須服從人類(lèi)命令；

除非違背第一或第二定律，否則機(jī)器人必須保護(hù)自己。

這三個(gè)定律是人工智能和機(jī)器人技術(shù)的哲學(xué)基礎(chǔ)，是對(duì)如何設(shè)計(jì)人工智能系統(tǒng)的基本原則的闡述，至今都有著重要的參考意義。

1950年

計(jì)算機(jī)科學(xué)之父艾倫圖靈（Alan Turing）發(fā)表了具有里程碑意義的論文《Computing Machinery and Intelligence（計(jì)算機(jī)器與智能）》。論文預(yù)言了創(chuàng)造出具有真正智能的機(jī)器的可能性，第一次提出圖靈測(cè)試（The Turing test）的概念：

如果一臺(tái)機(jī)器能夠與人類(lèi)展開(kāi)對(duì)話（通過(guò)電傳設(shè)備）而不能被辨別出其機(jī)器身份，那么稱(chēng)這臺(tái)機(jī)器具有智能。

1956年

AI概念誕生。

美國(guó)的達(dá)特茅斯學(xué)院舉行了一次具有傳奇色彩的學(xué)術(shù)會(huì)議（Dartmouth Conference），探討用機(jī)器模擬人類(lèi)智能的問(wèn)題。計(jì)算機(jī)專(zhuān)家約翰麥卡錫提出了AI"人工智能”一詞。這被廣泛認(rèn)為是人工智能正式誕生的日子。參與會(huì)議的學(xué)者們是最早的AI研究先驅(qū)。

從1956年到現(xiàn)代，這幾十年來(lái)AI研究的起伏，有興趣的讀者可以參考本號(hào)另一篇文章從爆火的chatGPT講起: 自然語(yǔ)言生成式AI的前世今生, 你想了解的一切>

當(dāng)今大眾關(guān)于AI的記憶，或許是從1997年開(kāi)始的：

1997年

5月11日, IBM公司的電腦"深藍(lán)”戰(zhàn)勝了國(guó)際象棋世界冠軍卡斯帕羅夫，成為首個(gè)擊敗國(guó)際象棋世界冠軍的AI系統(tǒng)。

1998年

現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)CNN誕生。

1980年，日本學(xué)者福島邦彥（Kunihiko Fukushima）模仿生物的視覺(jué)皮層（visual cortex），設(shè)計(jì)了人工神經(jīng)網(wǎng)絡(luò)"neocognitron”，這是現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)的雛形。

經(jīng)過(guò)多年前赴后繼的研究，1998年楊立昆（Yann LeCun，現(xiàn)任Meta首席人工智能科學(xué)家）基于前人基礎(chǔ)，構(gòu)建了更加完備的卷積神經(jīng)網(wǎng)絡(luò)LeNet-5，在手寫(xiě)數(shù)字的識(shí)別問(wèn)題中取得了成功。LeNet-5被認(rèn)為是現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)。

卷積神經(jīng)網(wǎng)絡(luò)CNN是當(dāng)今"深度學(xué)習(xí)"AI模型的計(jì)算基礎(chǔ)架構(gòu)。一直到2017年Transformer架構(gòu)橫空出世后，CNN才被取代。

2003年

Yoshua Bengio在2003年發(fā)表了《A Neural Probabilistic Language Model》，這是第一篇基于人工神經(jīng)網(wǎng)絡(luò)打造自然語(yǔ)言模型的論文，提出了具有奠基意義的NNLM"神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型"。它在得到語(yǔ)言模型的同時(shí)也產(chǎn)生了副產(chǎn)品"詞向量"。

2006年

杰弗里辛頓（Geoffrey Hinton）在science期刊上發(fā)表了重要的論文《Reducing the dimensionality of data with neural networks》，提出深度信念網(wǎng)絡(luò)（Deep Belief Networks，DBNs），"深度學(xué)習(xí)"正式誕生。

2009年

李飛飛主導(dǎo)的Image Net正式發(fā)布，有超過(guò)1000萬(wàn)數(shù)據(jù)，兩萬(wàn)多個(gè)類(lèi)別。為全世界的AI學(xué)者提供了開(kāi)放的標(biāo)注圖像大數(shù)據(jù)集。

2010年開(kāi)始，Image Net大規(guī)模視覺(jué)識(shí)別挑戰(zhàn)賽（ILSVCR）開(kāi)始舉辦，全世界圖像領(lǐng)域深度學(xué)習(xí)的專(zhuān)家們同臺(tái)競(jìng)技和交流，從此拉開(kāi)了計(jì)算機(jī)視覺(jué)的新篇章。

2012年

Google的吳恩達(dá)和Jef Dean使用1.6萬(wàn)個(gè)CPU（那時(shí)的GPU生態(tài)還在嬰幼兒階段）訓(xùn)練了一個(gè)當(dāng)時(shí)世界上最大的人工神經(jīng)網(wǎng)絡(luò)，用來(lái)教AI繪制貓臉圖片。訓(xùn)練數(shù)據(jù)是來(lái)自youtube的1000萬(wàn)個(gè)貓臉圖片，1.6萬(wàn)個(gè)CPU整整訓(xùn)練了3天。

對(duì)于計(jì)算機(jī)AI領(lǐng)域，這是一次具有突破性意義的嘗試。AI第一次"生成"了一個(gè)圖像內(nèi)容：一張模糊的貓臉

人工智能的80年進(jìn)化編年史：從想象到現(xiàn)實(shí)

2013年

Google的托馬斯米科洛夫（Tomas Mikolov）帶領(lǐng)研究團(tuán)隊(duì)發(fā)表了論文《Efficient Estimation of Word Representations inVector Space》，提出了Word2Vec。

Word2Vec可以根據(jù)給定的語(yǔ)料庫(kù)，通過(guò)優(yōu)化后的訓(xùn)練模型可以快速有效地將一個(gè)詞語(yǔ)表達(dá)成高維空間里的詞向量形式，為自然語(yǔ)言處理領(lǐng)域的應(yīng)用研究提供了新的工具。

2014年1月

谷歌斥資400億美元收購(gòu)了位于倫敦的明星人工智能企業(yè)DeepMind。

2014年12月

GAN（對(duì)抗式生成網(wǎng)絡(luò)）誕生。

2014 年，Lan Goodfellow從博弈論中的"二人零和博弈"得到啟發(fā) ，創(chuàng)造性的提出了生成對(duì)抗網(wǎng)絡(luò)（GAN，Generative Adversarial Networks），他在2014年的NIPS會(huì)議上首次發(fā)表了相關(guān)論文，用兩個(gè)神經(jīng)網(wǎng)絡(luò)即生成器（Generator）和判別器（Discriminator）進(jìn)行對(duì)抗。在兩個(gè)神經(jīng)網(wǎng)絡(luò)的對(duì)抗和自我迭代中，GAN會(huì)逐漸演化出強(qiáng)大的能力。

作者在最早的文章里形象的把GAN比喻為偽造者和警察：偽造者總想造出以假亂真的鈔票，而警察則努力用更先進(jìn)的技術(shù)去鑒別真?zhèn)�。在博弈過(guò)程中，雙方都不斷提升了自己的技術(shù)水平。

GAN號(hào)稱(chēng)21世紀(jì)最強(qiáng)大的算法模型之一，"Gan之父"Ian Goodfellow也一躍成為AI領(lǐng)域的頂級(jí)專(zhuān)家。

2015年12月

OpenAI公司于美國(guó)舊金山成立。

OpenAI誕生的原因是很有趣的：DeepMind被Google收購(gòu)的消息震動(dòng)了硅谷，如果發(fā)展下去，DeepMind很有可能成為最早實(shí)現(xiàn)AGI通用人工智能的公司。為了打破GoogleAI技術(shù)的壟斷，在一次私人聚會(huì)后，大佬們一拍即合成立了OpenAI。

其中包括，鋼鐵俠Elon Musk，當(dāng)時(shí)已是著名創(chuàng)業(yè)孵化器 Y Combinator 的負(fù)責(zé)人現(xiàn)在成為OpenAI CEO的Sam Altman，以及著名天使投資人 Peter Thiel等硅谷大佬。

OpenAI作為一個(gè)非營(yíng)利性組織運(yùn)營(yíng)，并立志要做DeepMind和Google無(wú)法做到的事情：開(kāi)放和共享AI技術(shù)。

從今天的眼光看，盡管OpenAI后來(lái)的商業(yè)模式有所變化，但絕對(duì)實(shí)現(xiàn)了它誕生的最大愿景之一：狙擊Google和DeepMind。

ChatGPT的推出加上微軟Bing的推波助瀾搞得Google實(shí)在是狼狽不堪。

2015年

11月， Google開(kāi)源了重要的深度學(xué)習(xí)框架Tensor Flow；

同年，還是Google，開(kāi)源了用來(lái)分類(lèi)和整理圖像的 AI 程序 Inceptionism，并命名為 DeepDream。盡管還很初級(jí)，但DeepDream被認(rèn)為是第一個(gè)現(xiàn)代的AI繪畫(huà)應(yīng)用。

2016年

3月，Google的AlphaGo戰(zhàn)勝?lài)迨澜绻谲娎钍朗?

4月，Google深度學(xué)習(xí)框架TensorFlow發(fā)布分布式版本;

9月，Google上線基于深度學(xué)習(xí)的機(jī)器翻譯;

2015到2016年，Google的AI能力可謂是風(fēng)頭一時(shí)無(wú)兩。

2017年1月

Facebook人工智能研究院（FAIR）開(kāi)源了PyTorch。PyTorch和tensorFlow從此成為了當(dāng)今兩大主流深度學(xué)習(xí)框架。

2017年7月

Facebook聯(lián)合羅格斯大學(xué)和查爾斯頓學(xué)院藝術(shù)史系三方合作得到新AI繪畫(huà)模型，號(hào)稱(chēng)創(chuàng)造性對(duì)抗網(wǎng)絡(luò)（CAN，Creative Adversarial Networks），

CAN在測(cè)試中，有53%的觀眾認(rèn)為AI作品出自人類(lèi)之手，這是類(lèi)似的圖靈測(cè)試歷史上首次突破半數(shù)，這是AI繪畫(huà)模型小小而扎實(shí)的一步。

Facebook在AI領(lǐng)域其實(shí)耕耘了很久，做過(guò)很多貢獻(xiàn)，可惜后面搞Metaverse連公司名字都改成Meta了，差點(diǎn)錯(cuò)過(guò)了當(dāng)下這波AI的浪潮。

不過(guò)最近小札醒悟過(guò)來(lái)，終于官宣要All in AI。Meta還是很有實(shí)力的，奮起直追應(yīng)為時(shí)未晚。

2017年12月

顛覆性的Tranformer架構(gòu)出世了!

Googl機(jī)器翻譯團(tuán)隊(duì)在年底的頂級(jí)會(huì)議NIPS上發(fā)表了里程碑式的論文《Attention is all you need》，提出只使用自注意力（Self Attention）機(jī)制來(lái)訓(xùn)練自然語(yǔ)言模型，并給這種架構(gòu)起了個(gè)霸氣的名字：Transformer。

所謂"自我注意力"機(jī)制，簡(jiǎn)單說(shuō)就是只關(guān)心輸入信息之間的關(guān)系，而不再關(guān)注輸入和對(duì)應(yīng)輸出的關(guān)系。和之前大模型訓(xùn)練需要匹配的輸入輸出標(biāo)注數(shù)據(jù)相比，這是一個(gè)革命性的變化。

Transformer徹底拋棄了傳統(tǒng)的CNN和RNN等神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。在這篇論文發(fā)布之前，主流AI模型都基于CNN卷積神經(jīng)網(wǎng)絡(luò)和RNN循環(huán)神經(jīng)網(wǎng)絡(luò)（recurrent neural network）; 而之后，便是Transformer一統(tǒng)天下。

Transformer架構(gòu)的詳細(xì)描述不在本文范圍，讀者只需要知道它具有兩點(diǎn)無(wú)敵的優(yōu)勢(shì)：

自我注意力機(jī)制，讓模型訓(xùn)練只需使用未經(jīng)標(biāo)注的原始數(shù)據(jù)，而無(wú)需再進(jìn)行昂貴的的人工標(biāo)注（標(biāo)注輸入和對(duì)應(yīng)輸出）。

并行效率是之前的AI模型結(jié)構(gòu)被一直詬病的地方。拋棄了傳統(tǒng)CNN/RNN架構(gòu)后，基于Transformer架構(gòu)的大模型訓(xùn)練可以實(shí)現(xiàn)高度并行化，這大大提高了模型訓(xùn)練的效率;

從此，大模型大數(shù)據(jù)大算力，大力出奇跡，成為了AI領(lǐng)域的標(biāo)配。

感慨一下，Google首先發(fā)明了劃時(shí)代的Transformer架構(gòu)，但在5年后的今天，卻被OpenAI打得喘不過(guò)氣。這是命運(yùn)的偶然嗎？

2018年6月

OpenAI發(fā)布了第一版的GPT（Generative Pre-training Transformers）系列模型 GPT-1。

同時(shí)，OpenAI發(fā)表了論文《Improving Language Understanding by Generative Pre-training》

從論文里可以了解到，GPT-1具有1.17個(gè)參數(shù)，采用了12層的Transformer 解碼器結(jié)構(gòu)，使用5GB的無(wú)標(biāo)注文本數(shù)據(jù)，在8個(gè)GPU上訓(xùn)練了一個(gè)月，然后再進(jìn)行人工監(jiān)督的微調(diào)。

不過(guò)，GPT-1并不是當(dāng)年的明星，因?yàn)橥�，Google的BERT大模型也發(fā)布了（當(dāng)時(shí)的Google就是強(qiáng)啊）。

2018年10月

谷歌發(fā)布3億參數(shù)的BERT（Bidirectional Encoder Representation from Transformers），意思即"來(lái)自Transformers的雙向編碼表示”模型。

GPT和BERT的誕生意味著預(yù)訓(xùn)練大模型（Pre-trained Models）成為了自然語(yǔ)言處理領(lǐng)域的主流。

和GPT相比，BERT最大的區(qū)別就是使用文本的上下文來(lái)訓(xùn)練模型，而專(zhuān)注于"文本生成"的GPT-1，使用的是上文。

基于"雙向編碼"的能力讓BERT的性能在當(dāng)時(shí)明顯優(yōu)異于第一代的GPT-1。

幸好，Open AI 并沒(méi)有那么容易放棄，一直堅(jiān)持只用上文訓(xùn)練的"單向編碼"純生成模式。直到GPT-3，神功初成。

2018年底

在共同創(chuàng)立公司三年后，鋼鐵俠馬斯克辭去了Open AI董事會(huì)職務(wù)，原因是"為了消除潛在的未來(lái)沖突"。

實(shí)際情況是，2017年6月，馬斯克挖走了OpenAI的核心人員Andrej Karpathy，擔(dān)任Tesla的AI部門(mén)主管并直接向自己匯報(bào)，負(fù)責(zé)構(gòu)建特斯拉的自動(dòng)駕駛系統(tǒng)。

所以，確實(shí)是存在人才競(jìng)爭(zhēng)"潛在沖突"的。

有趣的是，根據(jù)前不久的最新消息，ChatGPT大火之后，Andrej Karpathy同學(xué)又離開(kāi)了Tesla回到了OpenAI。這是所謂"鳥(niǎo)擇良木而棲"：）

而馬斯克放出了聲音，要打造OpenAI的競(jìng)爭(zhēng)者。不知首富同學(xué)是否遺憾當(dāng)年不得不放走了OpenAI。

2019年2月

OpenAI發(fā)布了GPT-2。

GPT-2有48層Transformer結(jié)構(gòu)，使用40GB文本數(shù)據(jù)訓(xùn)練，參數(shù)量突破到了15億。

在同時(shí)發(fā)布的論文《Language Models are Unsupervised Multitask Learners》中，OpenAI描述了GPT2在經(jīng)過(guò)大量無(wú)標(biāo)注數(shù)據(jù)生成式訓(xùn)練后，展示出來(lái)的零樣本（zero-shot）多任務(wù)能力。

所謂零樣本學(xué)習(xí)就是用很大的通用語(yǔ)料去訓(xùn)練模型，然后不再需要做特定任務(wù)的訓(xùn)練，大模型就可以直接完成一些具體任務(wù)。

一個(gè)典型例子是翻譯。GPT-2具備了良好的語(yǔ)言翻譯能力; 而有趣的是，專(zhuān)門(mén)做翻譯的模型通常使用標(biāo)注好的語(yǔ)料（即兩個(gè)不同語(yǔ)言的匹配數(shù)據(jù)）來(lái)訓(xùn)練。但GPT-2并沒(méi)有使用這類(lèi)數(shù)據(jù)，翻譯效果還超過(guò)了很多專(zhuān)職翻譯的小模型。

GPT-2揭示了一個(gè)有趣的現(xiàn)象，僅作為生成式任務(wù)來(lái)訓(xùn)練打造的大模型，開(kāi)始具備了多種通用任務(wù)能力，比如GPT-2所具備的閱讀理解和翻譯等等。

2019年3-7月

3月份，OpenAI正式宣布重組，成為一家"利潤(rùn)上限（caped-profit）"的公司，規(guī)定了投資收益的上限。這是一個(gè)很特別的架構(gòu)。

而近期披露的OpenAI最新投資架構(gòu)也再次揭示了這個(gè)公司股權(quán)結(jié)構(gòu)的與眾不同。簡(jiǎn)單的說(shuō)，OpenAI把自己租借給了微軟，賺到1500億美金后，將重新變?yōu)榉菭I(yíng)利性組織 -- 至少說(shuō)是這么說(shuō)的。

5月，Sam Altman辭去了 YC總裁的工作，開(kāi)始擔(dān)任新 OpenAI 的CEO。

7月，重組后的OpenAI拿到了微軟包括Azure云計(jì)算資源在內(nèi)的10億美金投資，微軟將作為"首選合作伙伴”，今后可獲得OpenAI 技術(shù)成果的獨(dú)家授權(quán)。

自此，OpenAI后續(xù)技術(shù)成果不再承諾開(kāi)源。

2020年5月

OpenAI發(fā)布了GPT-3。

GPT-3的初始版本在內(nèi)部代號(hào)為"davinci"，使用45TB文本數(shù)據(jù)訓(xùn)練，有1750億參數(shù)。根據(jù)公開(kāi)信息，模型的訓(xùn)練費(fèi)用是1200萬(wàn)美金。因?yàn)樘F，只訓(xùn)練了一次。

隨后，OpenAI發(fā)表了近70頁(yè)的論文《Language Models are Few-Shot Learner》。這篇論文闡述了大模型的各種新能力，而最重要的就是標(biāo)題所指出的小樣本（few-shot）學(xué)習(xí)能力。

"few-shot"是一個(gè)專(zhuān)業(yè)術(shù)語(yǔ)，理解起來(lái)也簡(jiǎn)單，就是通過(guò)少量的幾個(gè)例子就能學(xué)習(xí)一個(gè)新的任務(wù)。人們發(fā)現(xiàn)，GPT-3開(kāi)始具有類(lèi)似人類(lèi)的能力，只要在提示里展示特定任務(wù)的幾個(gè)示例，GPT-3就能完成新示例的輸出。而無(wú)需進(jìn)行針對(duì)性的額外微調(diào)訓(xùn)練。這也被稱(chēng)之為"上下文學(xué)習(xí)"（in context learning）

2020年6月

對(duì)AI繪畫(huà)有重要意義的論文《Denoising Diffusion Probabilistic Models》發(fā)表，引入了DDPM模型。作為領(lǐng)域的奠基之作，這篇論文第一次把2015年誕生的Diffusion"擴(kuò)散模型"用在了圖像生成上。

用擴(kuò)散模型生成圖像的過(guò)程，簡(jiǎn)單理解，就是我們熟知的圖片"降噪"：把一幅全部是噪點(diǎn)的隨機(jī)圖像通過(guò)AI算法反復(fù)"降噪"到最清晰，一個(gè)圖像便生成了。

DDPM的出現(xiàn)把Diffusion擴(kuò)散模型帶到了一個(gè)新的高度。在不久之后，DDPM以及后續(xù)的Diffusion擴(kuò)散模型就全面取代了GAN（生成式對(duì)抗網(wǎng)絡(luò)），成為了AI繪畫(huà)大模型當(dāng)仁不讓的主流技術(shù)。

2020年12月

由于不再認(rèn)同轉(zhuǎn)型后的公司文化和戰(zhàn)略，OpenAI的部分核心團(tuán)隊(duì)出走。

12月31日，OpenAI發(fā)布新聞稿，宣布其研究副總裁Dario Amodei在OpenAI工作了近五年后離開(kāi)了OpenAI。

OpenAI正是5年前成立的，這位研究副總看來(lái)是妥妥的創(chuàng)始核心。

Dario Amodei帶著一些OpenAI的早期核心員工隨后創(chuàng)辦了Anthropic，推出了ChatGPT的直接競(jìng)品Claude。

被ChatGPT逼急了的Google最近剛給Anthropic緊急投資了3億美金，以獲得其10%的股份，并綁定了其云計(jì)算提供商的身份。

這里說(shuō)個(gè)小知識(shí)，加州沒(méi)有競(jìng)業(yè)協(xié)議，真的是創(chuàng)業(yè)者的天堂!

2021年1月

1月11日，Google發(fā)表論文《Switch Transformers：Scaling to Trillion Parameter Models with Simple and Efficient Sparsity》，提出了最新語(yǔ)言模型Switch Transformer。

這個(gè) Switch Transformer 模型以高達(dá) 1.6 萬(wàn)億的參數(shù)量打破了 GPT-3 作為最大 AI 模型的統(tǒng)治地位，成為史上首個(gè)萬(wàn)億級(jí)語(yǔ)言模型。

然而，時(shí)間會(huì)證明一切。2年后的今天，這個(gè)萬(wàn)億參數(shù)的Switch大模型在當(dāng)下似乎沒(méi)產(chǎn)生任何水花，而千億參數(shù)級(jí)別的GPT-3.5系列依然風(fēng)生水起。這是不是說(shuō)明一個(gè)問(wèn)題：突破千億閾值后，參數(shù)多少并不代表一切。

2021年2月

Open AI開(kāi)源了新的深度學(xué)習(xí)模型 CLIP（Contrastive Language-Image Pre-Training）。

CLIP是一個(gè)多模態(tài)模型，用來(lái)判斷文字和圖像兩個(gè)不同"模態(tài)"信息的關(guān)聯(lián)匹配程度。

在CLIP之前，也有人嘗試過(guò)這個(gè)方向，但OpenAI最大的創(chuàng)意是直接使用全互聯(lián)網(wǎng)上已經(jīng)標(biāo)記過(guò)的圖像數(shù)據(jù)，巧妙的避免了海量數(shù)據(jù)標(biāo)注的昂貴費(fèi)用。最后以接近40億的互聯(lián)網(wǎng)"文本-圖像"訓(xùn)練數(shù)據(jù)打造了CLIP。

這次重要的開(kāi)源直接推動(dòng)了各大AI繪畫(huà)模型的迅猛發(fā)展。CLIP的多模態(tài)能力正是各AI繪畫(huà)大模型從文字到畫(huà)面想象力的核心基矗

同時(shí)，OpenAI還發(fā)布了自己基于CLIP的 AI繪畫(huà)DALL-E 模型。這或許是大眾聽(tīng)說(shuō)的第一個(gè)"文本生成圖像"的AI繪畫(huà)模型了。

從CLIP到DALL-E，顯然OpenAI走在了AI繪畫(huà)大模型潮流的最前端。

只是，OpenAI在AI繪畫(huà)模型的商業(yè)決策上出現(xiàn)了失誤：因?yàn)闆](méi)有開(kāi)放使用DALL-E以及后續(xù)DALL-E2，而又開(kāi)源了關(guān)鍵的CLIP模型，導(dǎo)致目前AI繪畫(huà)模型的光芒完全被其開(kāi)源繼承者Stable Diffusion，還有付費(fèi)的Midjourney服務(wù)掩蓋了。

正是在AI繪畫(huà)模型上有苦說(shuō)不出的經(jīng)歷，直接影響了后來(lái)OpenAI管理層的決策：決定在第一時(shí)間面向公眾搶先推出 ChatGPT聊天機(jī)器人。

2021年4月

華為的盤(pán)古NLP大模型發(fā)布，號(hào)稱(chēng)是中國(guó)第一個(gè)千億參數(shù)語(yǔ)言大模型。

2021年6月

6 月 30 日，OpenAI 和 GitHub 聯(lián)合發(fā)布了 AI 代碼補(bǔ)全工具 GitHub Copilot，這個(gè)工具可以在 VS Code 編輯器中自動(dòng)完成代碼片段，也是 OpenAI 拿了微軟 10 億美元之后的第一個(gè)重大成果。

而Copilot 的AI技術(shù)核心正是OpenAI的新模型CodeX。這個(gè)模型在隨后的8月份也對(duì)外發(fā)布了。

根據(jù)相關(guān)論文《Evaluating Large Language Models Trained on Code》，OpenAI基于GPT-3，使用大量公開(kāi)代碼數(shù)據(jù)訓(xùn)練出了Codex模型。

Codex擁有120億參數(shù)，使用了159G代碼數(shù)據(jù)進(jìn)行訓(xùn)練，模型可以將自然語(yǔ)言描述轉(zhuǎn)換為代碼。而效果嗎，看看碼農(nóng)們對(duì)Copilot的贊不絕口就知道了。

AI生成代碼的時(shí)代終于到來(lái)了。

據(jù)稱(chēng)，Codex的訓(xùn)練數(shù)據(jù)來(lái)自于公共數(shù)據(jù)源的數(shù)十億行源代碼，而其中最重要的來(lái)源，無(wú)疑正是微軟所買(mǎi)下的GitHub 這個(gè)世界上最大的開(kāi)源代碼平臺(tái)。

使用GitHub代碼訓(xùn)練模型這個(gè)事情還引起了一些程序員關(guān)于代碼版權(quán)的熱烈討論。

不過(guò)，正如畫(huà)師們對(duì)砸了自己飯碗的AI繪畫(huà)大模型怨聲載道而然并卵。。。能力突破的AI對(duì)人類(lèi)初級(jí)技能的全面覆蓋，恐怕是一個(gè)不得不接受的事實(shí)。

從商業(yè)角度上看，CodeX的誕生和Copilot的成功證明了OpenAI和微軟的商業(yè)合作確實(shí)是一個(gè)雙贏。

2021年10月

第一個(gè)開(kāi)源的AI繪畫(huà)大模型Disco-Diffusion誕生!

發(fā)布在Github上的Disco-Diffusion是整個(gè)2022年AI繪畫(huà)旋風(fēng)的起點(diǎn)。從Disco-Diffusion開(kāi)始，AI繪畫(huà)大模型突飛猛進(jìn)的發(fā)展讓所有人目不暇接，揭開(kāi)了AI的新時(shí)代。

2021年12月

百度第三代文心語(yǔ)言大模型，2600億參數(shù)的ERNIE3.0 Titan發(fā)布。

百度文心和華為盤(pán)古都是GPT-3量級(jí)的模型，關(guān)于國(guó)產(chǎn)大模型的具體判斷，讀者有興趣可以參考本號(hào)國(guó)產(chǎn)ChatGPT們的真相>一文

2022 年 3 月

OpenAI發(fā)布InstructGPT，同時(shí)發(fā)表論文《Training language models to follow instructions with human feedback》。

根據(jù)論文，InstructGPT基于GPT-3模型做了進(jìn)一步微調(diào)，并且在模型訓(xùn)練中加入了人類(lèi)的反饋評(píng)價(jià)數(shù)據(jù)。

這里出現(xiàn)的RLHF "從人類(lèi)反饋中強(qiáng)化學(xué)習(xí)"，正是后面ChatGPT所依賴(lài)的一個(gè)關(guān)鍵技術(shù)。

2022年4月

OpenAI發(fā)布了AI繪畫(huà)大模型DALL-E 2。

同一時(shí)間，面向公眾的付費(fèi)AI繪畫(huà)服務(wù)Midjourney也發(fā)布了。

和開(kāi)局王炸，第一年就賺取了大把真金白銀的MidJourney相比，使用受限的DALL-E 2并沒(méi)有在大眾人群里產(chǎn)生多少影響力。

如之前所說(shuō)，OpenAI在繪畫(huà)大模型的開(kāi)放上過(guò)于保守了，也許還有優(yōu)先和微軟技術(shù)合作的考量在內(nèi)...

總之，非常遺憾，繪畫(huà)模型的風(fēng)頭完全被付費(fèi)的Midjourney和隨后的Stable diffusion搶走。

2022年5月

OpenAI發(fā)布代號(hào)為text-davinci-002的新版大模型，GPT系列正式邁入3.5時(shí)代。

有趣的是，按照OpenAI官方文檔說(shuō)法：

is a base model，so good for pure code-completion tasks

is an InstructGPT model based on

就是說(shuō)，代號(hào)為code的002號(hào)模型是3.5系列的基礎(chǔ)模型，而代號(hào)為text的002號(hào)模型是基于code 002模型用指令微調(diào)技術(shù)得到的（insturctGPT）

如果，OpenAI沒(méi)有在模型名字上混淆視聽(tīng)，一個(gè)有趣而合理的推斷是：GPT-3.5系列的基礎(chǔ)核心模型首先是依賴(lài)于代碼（Code）大數(shù)據(jù)訓(xùn)練，而不是普通文本（Text）訓(xùn)練的

如果這個(gè)推斷差不太多，那么眾多ChatGPT的追隨者們，如希望自家能力真正比肩基于GPT-3.5的ChatGPT，那必須要補(bǔ)的一課，就是代碼數(shù)據(jù)的訓(xùn)練了。

2022年6月

6月15日，谷歌研究院聯(lián)合DeepMind和斯坦福大學(xué)等在arxiv上發(fā)表了一篇論文：《Emergent Abilities of Large Language Models（大語(yǔ)言模型的突現(xiàn)能力）》。

這篇綜述性的文章對(duì)過(guò)往文獻(xiàn)結(jié)論做了整理，研究了5 個(gè)語(yǔ)言模型系列（谷歌 LaMDA，PaLM 和 OpenAI 的 GPT-3，以及 DeepMind 的 Gopher，Chinchilla ）的 8 種突現(xiàn)能力。如下所示：

人工智能的80年進(jìn)化編年史：從想象到現(xiàn)實(shí)

其核心要點(diǎn)是：

大模型擁有復(fù)雜推理和思維鏈能力。所謂思維鏈，是指在輸入里寫(xiě)出示例的具體推斷步驟，大模型就可以實(shí)時(shí)學(xué)習(xí)這個(gè)推理（并不需要重新訓(xùn)練）并給出相仿示例的正確答案; 并且，大模型可以拆解復(fù)雜推理步驟一步步得到最終結(jié)果。

思維鏈能力是突然"涌現(xiàn)"的，如上圖，當(dāng)參數(shù)規(guī)模超過(guò)千億時(shí)，思維鏈能力就指數(shù)級(jí)爆發(fā)了。

根據(jù)目前觀察，參數(shù)達(dá)到千億以上的大模型才可能擁有強(qiáng)大的思維鏈能力，而這只是必要條件：有些千億參數(shù)大模型沒(méi)能展現(xiàn)出思維鏈能力。

事實(shí)上，根據(jù)OpenAI的內(nèi)部研究，初始版本的GPT-3 思維鏈能力也很弱，而以為基礎(chǔ)的GPT-3.5版本系列則體現(xiàn)了很強(qiáng)的思維鏈能力。因此，一個(gè)有趣的假設(shè)是，GPT-3.5系列思維鏈能力的"涌現(xiàn)"，除了達(dá)到千億參數(shù)的基礎(chǔ)條件外，使用代碼進(jìn)行訓(xùn)練也是一個(gè)必不可少的前提。

這個(gè)假設(shè)對(duì)于碼農(nóng)來(lái)說(shuō)很容易接受：程序代碼語(yǔ)言本身就特別強(qiáng)調(diào)邏輯嚴(yán)密性，而且上下文清晰沒(méi)有混淆之處（這里特指那些"好"的代碼...）。

所以，如果說(shuō)學(xué)習(xí)"好的代碼"能提高人類(lèi)或者AI的邏輯思維和推理能力，程序員們一定不會(huì)反對(duì)這種看法。

2022年7月

DeepMind破解了幾乎所有已知的蛋白質(zhì)結(jié)構(gòu)，其AlphaFold算法數(shù)據(jù)庫(kù)里包含了2億種已知蛋白質(zhì)結(jié)構(gòu)，這將是人類(lèi)生命科學(xué)的重量級(jí)彈藥庫(kù)。

被Google收購(gòu)之后，DeepMind的活力已經(jīng)大不如前，至少在聚光燈下是如此。這一次，在另一條重要的賽道上，這家老牌團(tuán)隊(duì)還是努力刷出了存在感。

2022年8月

stability.ai開(kāi)源了Stable Diffusion繪畫(huà)大模型的源代碼!

開(kāi)放模型數(shù)據(jù)使用的AI模型不少，但開(kāi)放全部源碼的頂級(jí)AI大模型可以說(shuō)寥寥無(wú)幾，Stable Diffusion就是其中最耀眼的開(kāi)源明星。

Stable Diffusion是當(dāng)今技術(shù)最頂尖的AI繪畫(huà)大模型; 基于Stable Diffusion開(kāi)放的源碼，大游戲公司的自建AI美術(shù)資源生產(chǎn)流程，創(chuàng)業(yè)小團(tuán)隊(duì)的AI繪畫(huà)相關(guān)產(chǎn)品，已經(jīng)如同雨后春筍般涌現(xiàn)出來(lái)。

2022年9月

紅杉資本發(fā)布了傳播甚廣的文章《生成式AI：一個(gè)創(chuàng)造性的新世界》，文中預(yù)測(cè)，生成式AI有可能創(chuàng)造數(shù)百萬(wàn)億美元的經(jīng)濟(jì)價(jià)值。

不得不說(shuō)，紅杉的嗅覺(jué)絕對(duì)是這個(gè)星球第一的：

僅僅兩個(gè)月后，注定載入科技史冊(cè)的ChatGPT就發(fā)布了。

2022年10月

Meta推出Make-A-Video，Google推出Imagen video，兩巨頭幾乎在同一時(shí)間推出了文字生成視頻的模型。

盡管當(dāng)前"文字生成視頻"的大模型還純屬玩具階段，和已經(jīng)進(jìn)入工業(yè)生產(chǎn)狀態(tài)的AI繪畫(huà)模型無(wú)法相提并論。但這仍然是個(gè)好的開(kāi)始：人類(lèi)動(dòng)動(dòng)嘴皮子，已經(jīng)可以生成高質(zhì)量的音樂(lè)和圖畫(huà)了; 沒(méi)有理由不相信，不久的將來(lái)，AI可以直接從文字描述生成高質(zhì)量的長(zhǎng)視頻。

大膽再往前走一步：加上ChatGPT這類(lèi)AI的文字生成能力，人類(lèi)很快連編故事都不需要，就可以得到一部電影視頻了。

只是，這一天的到來(lái)，人類(lèi)自己是否已經(jīng)準(zhǔn)備好了呢？

2022年11月

ChatGPT發(fā)布。隨后的事情，大家都知道了。

有意思的是，ChatGPT并不在OpenAI原本的產(chǎn)品路線圖上，完全是無(wú)心插柳的結(jié)果。

我們知道，為了進(jìn)一步改進(jìn)GPT-3系列模型，OpenAI走上了"從人類(lèi)反饋中強(qiáng)化學(xué)習(xí)"（RLHF）的路子。為了讓AI能持續(xù)和人類(lèi)溝通來(lái)不斷反饋完善模型，搞出一個(gè)聊天機(jī)器人就是最好的用戶測(cè)試接口。

基于這么一個(gè)簡(jiǎn)單的理工男思路，從2022年初開(kāi)始，團(tuán)隊(duì)開(kāi)始打造ChatGPT。

然后，打造出了一個(gè)驚世駭俗的AI產(chǎn)品。

已有眾多文章360度無(wú)死角點(diǎn)評(píng)了ChatGPT，這里僅簡(jiǎn)單列舉一些有趣的點(diǎn)。

ChatGPT的特點(diǎn)：

ChatGPT具有很強(qiáng)的邏輯推理能力，能拆解復(fù)雜的內(nèi)容，分成多個(gè)步驟進(jìn)行推理，得到最終答案。這也就是"思維鏈"級(jí)別的推理能力。

ChatGPT可以主動(dòng)承認(rèn)錯(cuò)誤，聽(tīng)取用戶意見(jiàn)，并優(yōu)化答案。

ChatGPT可以質(zhì)疑不正確的問(wèn)題，可以承認(rèn)自身對(duì)專(zhuān)業(yè)技術(shù)的不了解。

ChatGPT的局限性：

一本正經(jīng)胡說(shuō)八道：ChatGPT有很強(qiáng)的"創(chuàng)造可信答案"的傾向，會(huì)給出有誤導(dǎo)性的回答。而且錯(cuò)誤隱蔽在正確的信息之中，難以發(fā)現(xiàn)。這和生成式AI的本性有關(guān)：AI傾向于生成一個(gè)看起來(lái)正確的內(nèi)容。

然而，和AI繪畫(huà)輸出有點(diǎn)小問(wèn)題無(wú)傷大雅的性質(zhì)完全不同，這也許是文字生成式AI在應(yīng)用上的致命問(wèn)題：

如無(wú)法確保輸出的100%正確性，那么其實(shí)際應(yīng)用價(jià)值將大打折扣。

輸出對(duì)問(wèn)題措辭敏感：同一個(gè)問(wèn)題，調(diào)整提問(wèn)的方式，可能會(huì)得到不同的回答。這意味著輸出結(jié)果還不夠穩(wěn)定。

缺少垂直領(lǐng)域知識(shí)：這倒是創(chuàng)業(yè)者們的好機(jī)會(huì)�；贑hatGPT系統(tǒng)打造專(zhuān)屬的垂直領(lǐng)域大模型吧。

算力昂貴：千億參數(shù)級(jí)別的模型，即使是跑模型應(yīng)用（不是模型訓(xùn)練），也需要大量算力。當(dāng)然了，這是大廠商們?cè)朴?jì)算的好機(jī)會(huì)。

2023年2月

OpenAI的CEOSam Altman這幾天剛發(fā)了新文章，宣布OpenAI的使命是確保AGI造福全人類(lèi)：

"長(zhǎng)期來(lái)看，過(guò)渡到一個(gè)擁有超級(jí)智能的世界可能是人類(lèi)歷史上最重要，最有希望，最可怕的項(xiàng)目"

人工智能的80年進(jìn)化編年史：從想象到現(xiàn)實(shí)

列舉一下Sam Altman在文中闡明的OpenAI三原則：

希望 AGI 能夠賦予人類(lèi)在宇宙中最大程度地繁榮發(fā)展的能力

希望 AGI 的好處、訪問(wèn)權(quán)和治理得到廣泛和公平的分享。

希望成功應(yīng)對(duì)巨大風(fēng)險(xiǎn)。在面對(duì)這些風(fēng)險(xiǎn)時(shí)，理論上似乎正確的事情在實(shí)踐中往往比預(yù)期的更奇怪。

作為前文的呼應(yīng)，也列出時(shí)間線第一條的"阿西莫夫機(jī)器人三定律"，相互參考。

機(jī)器人不得傷害人類(lèi)，或坐視人類(lèi)受到傷害；

除非違背第一定律，否則機(jī)器人必須服從人類(lèi)命令；

除非違背第一或第二定律，否則機(jī)器人必須保護(hù)自己。

從80年前阿西莫夫的天才想象，到今天，AI能力已真切影響著每一個(gè)普通人的生活（甚至砸掉人的飯碗）。

AGI的愿景仍在不遠(yuǎn)的前方，但一個(gè)AI的時(shí)代已經(jīng)到來(lái)。

相關(guān)熱詞： 人工智能 80年進(jìn)化編年史想象現(xiàn)實(shí)

上一篇：數(shù)據(jù)要素市場(chǎng)需求爆發(fā) 人工智能領(lǐng)域正加速發(fā)展

下一篇：直擊英特爾MWC 2023，云原生vRAN成亮點(diǎn)

人工智能的80年進(jìn)化編年史：從想象到現(xiàn)實(shí)
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2023-03-02 10:00:01 瀏覽：7076次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門(mén)排行

推薦內(nèi)容

在線客服

熱門(mén)欄目HotCates

關(guān)于我們

版權(quán)聲明

人工智能的80年進(jìn)化編年史：從想象到現(xiàn)實(shí) 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2023-03-02 10:00:01 瀏覽：7076次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門(mén)排行

推薦內(nèi)容

在線客服

熱門(mén)欄目HotCates

關(guān)于我們

版權(quán)聲明

人工智能的80年進(jìn)化編年史：從想象到現(xiàn)實(shí)
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2023-03-02 10:00:01 瀏覽：7076次