AGI是Artificial General Intelligence的縮寫(xiě),即通用人工智能。
AGI的目標(biāo)是實(shí)現(xiàn)人類(lèi)般的通用智能,這意味著AI可以像人類(lèi)一樣理解任意通用任務(wù), 并以人類(lèi)的智力水平執(zhí)行完成。
基本上, 除了"自我意識(shí)"的生成,AGI就是人類(lèi)對(duì)人工智能的終極夢(mèng)想了。
無(wú)論是近一年來(lái)火爆的AI繪畫(huà),還是當(dāng)紅炸子雞ChatGPT,AI研究應(yīng)用的終極目標(biāo), 都是向著AGI通用人工智能的大一統(tǒng)目標(biāo)在邁進(jìn)。
讀者是否有同感,這幾年各種AI大模型的發(fā)展和突破, 著實(shí)有讓人眼花繚亂之感?
本文主要把現(xiàn)代到當(dāng)下一些AI的重要節(jié)點(diǎn)做了時(shí)間線梳理和簡(jiǎn)單分析,或有助于大家來(lái)理清楚這些年AI發(fā)展的關(guān)鍵脈絡(luò)。
1942年
時(shí)間回到80年前, 科幻泰斗阿西莫夫提出了著名的"機(jī)器人三定律”:
機(jī)器人不得傷害人類(lèi),或坐視人類(lèi)受到傷害;
除非違背第一定律,否則機(jī)器人必須服從人類(lèi)命令;
除非違背第一或第二定律,否則機(jī)器人必須保護(hù)自己。
這三個(gè)定律是人工智能和機(jī)器人技術(shù)的哲學(xué)基礎(chǔ),是對(duì)如何設(shè)計(jì)人工智能系統(tǒng)的基本原則的闡述,至今都有著重要的參考意義。
1950年
計(jì)算機(jī)科學(xué)之父艾倫圖靈(Alan Turing)發(fā)表了具有里程碑意義的論文《Computing Machinery and Intelligence(計(jì)算機(jī)器與智能)》。論文預(yù)言了創(chuàng)造出具有真正智能的機(jī)器的可能性,第一次提出圖靈測(cè)試(The Turing test)的概念:
如果一臺(tái)機(jī)器能夠與人類(lèi)展開(kāi)對(duì)話(通過(guò)電傳設(shè)備)而不能被辨別出其機(jī)器身份,那么稱(chēng)這臺(tái)機(jī)器具有智能。
1956年
AI概念誕生。
美國(guó)的達(dá)特茅斯學(xué)院舉行了一次具有傳奇色彩的學(xué)術(shù)會(huì)議(Dartmouth Conference), 探討用機(jī)器模擬人類(lèi)智能的問(wèn)題。計(jì)算機(jī)專(zhuān)家約翰麥卡錫提出了AI"人工智能”一詞。這被廣泛認(rèn)為是人工智能正式誕生的日子。參與會(huì)議的學(xué)者們是最早的AI研究先驅(qū)。
從1956年到現(xiàn)代,這幾十年來(lái)AI研究的起伏,有興趣的讀者可以參考本號(hào)另一篇文章從爆火的chatGPT講起: 自然語(yǔ)言生成式AI的前世今生, 你想了解的一切>
當(dāng)今大眾關(guān)于AI的記憶,或許是從1997年開(kāi)始的:
1997年
5月11日, IBM公司的電腦"深藍(lán)”戰(zhàn)勝了國(guó)際象棋世界冠軍卡斯帕羅夫,成為首個(gè)擊敗國(guó)際象棋世界冠軍的AI系統(tǒng)。
1998年
現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)CNN誕生。
1980年,日本學(xué)者福島邦彥(Kunihiko Fukushima)模仿生物的視覺(jué)皮層(visual cortex),設(shè)計(jì)了人工神經(jīng)網(wǎng)絡(luò)"neocognitron”,這是現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)的雛形。
經(jīng)過(guò)多年前赴后繼的研究,1998年楊立昆(Yann LeCun,現(xiàn)任Meta首席人工智能科學(xué)家)基于前人基礎(chǔ),構(gòu)建了更加完備的卷積神經(jīng)網(wǎng)絡(luò)LeNet-5,在手寫(xiě)數(shù)字的識(shí)別問(wèn)題中取得了成功。LeNet-5被認(rèn)為是現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)。
卷積神經(jīng)網(wǎng)絡(luò)CNN是當(dāng)今"深度學(xué)習(xí)"AI模型的計(jì)算基礎(chǔ)架構(gòu)。一直到2017年Transformer架構(gòu)橫空出世后,CNN才被取代。
2003年
Yoshua Bengio在2003年發(fā)表了《A Neural Probabilistic Language Model》,這是第一篇基于人工神經(jīng)網(wǎng)絡(luò)打造自然語(yǔ)言模型的論文,提出了具有奠基意義的NNLM"神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型"。它在得到語(yǔ)言模型的同時(shí)也產(chǎn)生了副產(chǎn)品"詞向量"。
2006年
杰弗里辛頓(Geoffrey Hinton)在science期刊上發(fā)表了重要的論文《Reducing the dimensionality of data with neural networks》,提出深度信念網(wǎng)絡(luò)(Deep Belief Networks,DBNs),"深度學(xué)習(xí)"正式誕生。
2009年
李飛飛主導(dǎo)的Image Net正式發(fā)布,有超過(guò)1000萬(wàn)數(shù)據(jù),兩萬(wàn)多個(gè)類(lèi)別。為全世界的AI學(xué)者提供了開(kāi)放的標(biāo)注圖像大數(shù)據(jù)集。
2010年開(kāi)始,Image Net大規(guī)模視覺(jué)識(shí)別挑戰(zhàn)賽(ILSVCR)開(kāi)始舉辦,全世界圖像領(lǐng)域深度學(xué)習(xí)的專(zhuān)家們同臺(tái)競(jìng)技和交流,從此拉開(kāi)了計(jì)算機(jī)視覺(jué)的新篇章。
2012年
Google的吳恩達(dá)和Jef Dean使用1.6萬(wàn)個(gè)CPU(那時(shí)的GPU生態(tài)還在嬰幼兒階段)訓(xùn)練了一個(gè)當(dāng)時(shí)世界上最大的人工神經(jīng)網(wǎng)絡(luò),用來(lái)教AI繪制貓臉圖片。訓(xùn)練數(shù)據(jù)是來(lái)自youtube的1000萬(wàn)個(gè)貓臉圖片,1.6萬(wàn)個(gè)CPU整整訓(xùn)練了3天。
對(duì)于計(jì)算機(jī)AI領(lǐng)域,這是一次具有突破性意義的嘗試。AI第一次"生成"了一個(gè)圖像內(nèi)容:一張模糊的貓臉
2013年
Google的托馬斯米科洛夫(Tomas Mikolov)帶領(lǐng)研究團(tuán)隊(duì)發(fā)表了論文《Efficient Estimation of Word Representations inVector Space》,提出了Word2Vec。
Word2Vec可以根據(jù)給定的語(yǔ)料庫(kù),通過(guò)優(yōu)化后的訓(xùn)練模型可以快速有效地將一個(gè)詞語(yǔ)表達(dá)成高維空間里的詞向量形式,為自然語(yǔ)言處理領(lǐng)域的應(yīng)用研究提供了新的工具。
2014年1月
谷歌斥資400億美元收購(gòu)了位于倫敦的明星人工智能企業(yè)DeepMind。
2014年12月
GAN(對(duì)抗式生成網(wǎng)絡(luò))誕生。
2014 年,Lan Goodfellow從博弈論中的"二人零和博弈"得到啟發(fā) ,創(chuàng)造性的提出了生成對(duì)抗網(wǎng)絡(luò)(GAN,Generative Adversarial Networks),他在2014年的NIPS會(huì)議上首次發(fā)表了相關(guān)論文,用兩個(gè)神經(jīng)網(wǎng)絡(luò)即生成器(Generator)和判別器(Discriminator)進(jìn)行對(duì)抗。在兩個(gè)神經(jīng)網(wǎng)絡(luò)的對(duì)抗和自我迭代中,GAN會(huì)逐漸演化出強(qiáng)大的能力。
作者在最早的文章里形象的把GAN比喻為偽造者和警察:偽造者總想造出以假亂真的鈔票,而警察則努力用更先進(jìn)的技術(shù)去鑒別真?zhèn)。在博弈過(guò)程中,雙方都不斷提升了自己的技術(shù)水平。
GAN號(hào)稱(chēng)21世紀(jì)最強(qiáng)大的算法模型之一,"Gan之父"Ian Goodfellow也一躍成為AI領(lǐng)域的頂級(jí)專(zhuān)家。
2015年12月
OpenAI公司于美國(guó)舊金山成立。
OpenAI誕生的原因是很有趣的:DeepMind被Google收購(gòu)的消息震動(dòng)了硅谷,如果發(fā)展下去,DeepMind很有可能成為最早實(shí)現(xiàn)AGI通用人工智能的公司。為了打破GoogleAI技術(shù)的壟斷,在一次私人聚會(huì)后,大佬們一拍即合成立了OpenAI。
其中包括,鋼鐵俠Elon Musk,當(dāng)時(shí)已是著名創(chuàng)業(yè)孵化器 Y Combinator 的負(fù)責(zé)人現(xiàn)在成為OpenAI CEO的Sam Altman,以及著名天使投資人 Peter Thiel等硅谷大佬。
OpenAI作為一個(gè)非營(yíng)利性組織運(yùn)營(yíng),并立志要做DeepMind和Google無(wú)法做到的事情:開(kāi)放和共享AI技術(shù)。
從今天的眼光看,盡管OpenAI后來(lái)的商業(yè)模式有所變化,但絕對(duì)實(shí)現(xiàn)了它誕生的最大愿景之一:狙擊Google和DeepMind。
ChatGPT的推出加上微軟Bing的推波助瀾搞得Google實(shí)在是狼狽不堪。
2015年
11月, Google開(kāi)源了重要的深度學(xué)習(xí)框架Tensor Flow;
同年,還是Google,開(kāi)源了用來(lái)分類(lèi)和整理圖像的 AI 程序 Inceptionism,并命名為 DeepDream。盡管還很初級(jí),但DeepDream被認(rèn)為是第一個(gè)現(xiàn)代的AI繪畫(huà)應(yīng)用。
2016年
3月,Google的AlphaGo戰(zhàn)勝?lài)迨澜绻谲娎钍朗?
4月,Google深度學(xué)習(xí)框架TensorFlow發(fā)布分布式版本;
9月,Google上線基于深度學(xué)習(xí)的機(jī)器翻譯;
2015到2016年,Google的AI能力可謂是風(fēng)頭一時(shí)無(wú)兩。
2017年1月
Facebook人工智能研究院(FAIR)開(kāi)源了PyTorch。PyTorch和tensorFlow從此成為了當(dāng)今兩大主流深度學(xué)習(xí)框架。
2017年7月
Facebook聯(lián)合羅格斯大學(xué)和查爾斯頓學(xué)院藝術(shù)史系三方合作得到新AI繪畫(huà)模型,號(hào)稱(chēng)創(chuàng)造性對(duì)抗網(wǎng)絡(luò)(CAN,Creative Adversarial Networks),
CAN在測(cè)試中,有53%的觀眾認(rèn)為AI作品出自人類(lèi)之手,這是類(lèi)似的圖靈測(cè)試歷史上首次突破半數(shù),這是AI繪畫(huà)模型小小而扎實(shí)的一步。
Facebook在AI領(lǐng)域其實(shí)耕耘了很久,做過(guò)很多貢獻(xiàn),可惜后面搞Metaverse連公司名字都改成Meta了, 差點(diǎn)錯(cuò)過(guò)了當(dāng)下這波AI的浪潮。
不過(guò)最近小札醒悟過(guò)來(lái),終于官宣要All in AI。Meta還是很有實(shí)力的,奮起直追應(yīng)為時(shí)未晚。
2017年12月
顛覆性的Tranformer架構(gòu)出世了!
Googl機(jī)器翻譯團(tuán)隊(duì)在年底的頂級(jí)會(huì)議NIPS上發(fā)表了里程碑式的論文《Attention is all you need》,提出只使用自注意力(Self Attention)機(jī)制來(lái)訓(xùn)練自然語(yǔ)言模型,并給這種架構(gòu)起了個(gè)霸氣的名字:Transformer。
所謂"自我注意力"機(jī)制,簡(jiǎn)單說(shuō)就是只關(guān)心輸入信息之間的關(guān)系,而不再關(guān)注輸入和對(duì)應(yīng)輸出的關(guān)系。和之前大模型訓(xùn)練需要匹配的輸入輸出標(biāo)注數(shù)據(jù)相比,這是一個(gè)革命性的變化。
Transformer徹底拋棄了傳統(tǒng)的CNN和RNN等神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。在這篇論文發(fā)布之前,主流AI模型都基于CNN卷積神經(jīng)網(wǎng)絡(luò)和RNN循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network); 而之后,便是Transformer一統(tǒng)天下。
Transformer架構(gòu)的詳細(xì)描述不在本文范圍,讀者只需要知道它具有兩點(diǎn)無(wú)敵的優(yōu)勢(shì):
自我注意力機(jī)制,讓模型訓(xùn)練只需使用未經(jīng)標(biāo)注的原始數(shù)據(jù),而無(wú)需再進(jìn)行昂貴的的人工標(biāo)注(標(biāo)注輸入和對(duì)應(yīng)輸出)。
并行效率是之前的AI模型結(jié)構(gòu)被一直詬病的地方。拋棄了傳統(tǒng)CNN/RNN架構(gòu)后,基于Transformer架構(gòu)的大模型訓(xùn)練可以實(shí)現(xiàn)高度并行化,這大大提高了模型訓(xùn)練的效率;
從此,大模型大數(shù)據(jù)大算力,大力出奇跡,成為了AI領(lǐng)域的標(biāo)配。
感慨一下,Google首先發(fā)明了劃時(shí)代的Transformer架構(gòu),但在5年后的今天,卻被OpenAI打得喘不過(guò)氣。這是命運(yùn)的偶然嗎?
2018年6月
OpenAI發(fā)布了第一版的GPT(Generative Pre-training Transformers)系列模型 GPT-1。
同時(shí),OpenAI發(fā)表了論文《Improving Language Understanding by Generative Pre-training》
從論文里可以了解到,GPT-1具有1.17個(gè)參數(shù),采用了12層的Transformer 解碼器結(jié)構(gòu),使用5GB的無(wú)標(biāo)注文本數(shù)據(jù),在8個(gè)GPU上訓(xùn)練了一個(gè)月,然后再進(jìn)行人工監(jiān)督的微調(diào)。
不過(guò),GPT-1并不是當(dāng)年的明星,因?yàn)橥,Google的BERT大模型也發(fā)布了(當(dāng)時(shí)的Google就是強(qiáng)啊)。
2018年10月
谷歌發(fā)布3億參數(shù)的BERT(Bidirectional Encoder Representation from Transformers),意思即"來(lái)自Transformers的雙向編碼表示”模型。
GPT和BERT的誕生意味著預(yù)訓(xùn)練大模型(Pre-trained Models)成為了自然語(yǔ)言處理領(lǐng)域的主流。
和GPT相比,BERT最大的區(qū)別就是使用文本的上下文來(lái)訓(xùn)練模型,而專(zhuān)注于"文本生成"的GPT-1,使用的是上文。
基于"雙向編碼"的能力讓BERT的性能在當(dāng)時(shí)明顯優(yōu)異于第一代的GPT-1。
幸好,Open AI 并沒(méi)有那么容易放棄,一直堅(jiān)持只用上文訓(xùn)練的"單向編碼"純生成模式。直到GPT-3,神功初成。
2018年底
在共同創(chuàng)立公司三年后,鋼鐵俠馬斯克辭去了Open AI董事會(huì)職務(wù),原因是"為了消除潛在的未來(lái)沖突"。
實(shí)際情況是,2017年6月,馬斯克挖走了OpenAI的核心人員Andrej Karpathy,擔(dān)任Tesla的AI部門(mén)主管并直接向自己匯報(bào),負(fù)責(zé)構(gòu)建特斯拉的自動(dòng)駕駛系統(tǒng)。
所以,確實(shí)是存在人才競(jìng)爭(zhēng)"潛在沖突"的。
有趣的是,根據(jù)前不久的最新消息,ChatGPT大火之后,Andrej Karpathy同學(xué)又離開(kāi)了Tesla回到了OpenAI。這是所謂"鳥(niǎo)擇良木而棲":)
而馬斯克放出了聲音,要打造OpenAI的競(jìng)爭(zhēng)者。不知首富同學(xué)是否遺憾當(dāng)年不得不放走了OpenAI。
2019年2月
OpenAI發(fā)布了GPT-2。
GPT-2有48層Transformer結(jié)構(gòu),使用40GB文本數(shù)據(jù)訓(xùn)練,參數(shù)量突破到了15億。
在同時(shí)發(fā)布的論文 《Language Models are Unsupervised Multitask Learners》 中,OpenAI描述了GPT2在經(jīng)過(guò)大量無(wú)標(biāo)注數(shù)據(jù)生成式訓(xùn)練后,展示出來(lái)的零樣本(zero-shot)多任務(wù)能力。
所謂零樣本學(xué)習(xí)就是用很大的通用語(yǔ)料去訓(xùn)練模型,然后不再需要做特定任務(wù)的訓(xùn)練,大模型就可以直接完成一些具體任務(wù)。
一個(gè)典型例子是翻譯。GPT-2具備了良好的語(yǔ)言翻譯能力; 而有趣的是,專(zhuān)門(mén)做翻譯的模型通常使用標(biāo)注好的語(yǔ)料(即兩個(gè)不同語(yǔ)言的匹配數(shù)據(jù))來(lái)訓(xùn)練。但GPT-2并沒(méi)有使用這類(lèi)數(shù)據(jù),翻譯效果還超過(guò)了很多專(zhuān)職翻譯的小模型。
GPT-2揭示了一個(gè)有趣的現(xiàn)象,僅作為生成式任務(wù)來(lái)訓(xùn)練打造的大模型,開(kāi)始具備了多種通用任務(wù)能力,比如GPT-2所具備的閱讀理解和翻譯等等。
2019年3-7月
3月份,OpenAI正式宣布重組,成為一家"利潤(rùn)上限(caped-profit)"的公司,規(guī)定了投資收益的上限。這是一個(gè)很特別的架構(gòu)。
而近期披露的OpenAI最新投資架構(gòu)也再次揭示了這個(gè)公司股權(quán)結(jié)構(gòu)的與眾不同。簡(jiǎn)單的說(shuō),OpenAI把自己租借給了微軟,賺到1500億美金后,將重新變?yōu)榉菭I(yíng)利性組織 -- 至少說(shuō)是這么說(shuō)的。
5月,Sam Altman辭去了 YC總裁的工作,開(kāi)始擔(dān)任新 OpenAI 的CEO。
7月,重組后的OpenAI拿到了微軟包括Azure云計(jì)算資源在內(nèi)的10億美金投資, 微軟將作為"首選合作伙伴”,今后可獲得OpenAI 技術(shù)成果的獨(dú)家授權(quán)。
自此,OpenAI后續(xù)技術(shù)成果不再承諾開(kāi)源。
2020年5月
OpenAI發(fā)布了GPT-3。
GPT-3的初始版本在內(nèi)部代號(hào)為"davinci",使用45TB文本數(shù)據(jù)訓(xùn)練,有1750億參數(shù)。根據(jù)公開(kāi)信息,模型的訓(xùn)練費(fèi)用是1200萬(wàn)美金。因?yàn)樘F,只訓(xùn)練了一次。
隨后,OpenAI發(fā)表了近70頁(yè)的論文《Language Models are Few-Shot Learner》。這篇論文闡述了大模型的各種新能力,而最重要的就是標(biāo)題所指出的小樣本(few-shot)學(xué)習(xí)能力。
"few-shot"是一個(gè)專(zhuān)業(yè)術(shù)語(yǔ),理解起來(lái)也簡(jiǎn)單,就是通過(guò)少量的幾個(gè)例子就能學(xué)習(xí)一個(gè)新的任務(wù)。人們發(fā)現(xiàn),GPT-3開(kāi)始具有類(lèi)似人類(lèi)的能力,只要在提示里展示特定任務(wù)的幾個(gè)示例,GPT-3就能完成新示例的輸出。而無(wú)需進(jìn)行針對(duì)性的額外微調(diào)訓(xùn)練。這也被稱(chēng)之為"上下文學(xué)習(xí)"(in context learning)
2020年6月
對(duì)AI繪畫(huà)有重要意義的論文 《Denoising Diffusion Probabilistic Models》發(fā)表, 引入了DDPM模型。 作為領(lǐng)域的奠基之作,這篇論文第一次把2015年誕生的Diffusion"擴(kuò)散模型"用在了圖像生成上。
用擴(kuò)散模型生成圖像的過(guò)程,簡(jiǎn)單理解,就是我們熟知的圖片"降噪":把一幅全部是噪點(diǎn)的隨機(jī)圖像通過(guò)AI算法反復(fù)"降噪"到最清晰,一個(gè)圖像便生成了。
DDPM的出現(xiàn)把Diffusion擴(kuò)散模型帶到了一個(gè)新的高度。在不久之后,DDPM以及后續(xù)的Diffusion擴(kuò)散模型就全面取代了GAN(生成式對(duì)抗網(wǎng)絡(luò)),成為了AI繪畫(huà)大模型當(dāng)仁不讓的主流技術(shù)。
2020年12月
由于不再認(rèn)同轉(zhuǎn)型后的公司文化和戰(zhàn)略,OpenAI的部分核心團(tuán)隊(duì)出走。
12月31日,OpenAI發(fā)布新聞稿,宣布其研究副總裁Dario Amodei在OpenAI工作了近五年后離開(kāi)了OpenAI。
OpenAI正是5年前成立的,這位研究副總看來(lái)是妥妥的創(chuàng)始核心。
Dario Amodei帶著一些OpenAI的早期核心員工隨后創(chuàng)辦了Anthropic,推出了ChatGPT的直接競(jìng)品Claude。
被ChatGPT逼急了的Google最近剛給Anthropic緊急投資了3億美金,以獲得其10%的股份,并綁定了其云計(jì)算提供商的身份。
這里說(shuō)個(gè)小知識(shí),加州沒(méi)有競(jìng)業(yè)協(xié)議,真的是創(chuàng)業(yè)者的天堂!
2021年1月
1月11日,Google發(fā)表論文《Switch Transformers:Scaling to Trillion Parameter Models with Simple and Efficient Sparsity》,提出了最新語(yǔ)言模型Switch Transformer。
這個(gè) Switch Transformer 模型以高達(dá) 1.6 萬(wàn)億的參數(shù)量打破了 GPT-3 作為最大 AI 模型的統(tǒng)治地位,成為史上首個(gè)萬(wàn)億級(jí)語(yǔ)言模型。
然而,時(shí)間會(huì)證明一切。2年后的今天,這個(gè)萬(wàn)億參數(shù)的Switch大模型在當(dāng)下似乎沒(méi)產(chǎn)生任何水花,而千億參數(shù)級(jí)別的GPT-3.5系列依然風(fēng)生水起。這是不是說(shuō)明一個(gè)問(wèn)題:突破千億閾值后,參數(shù)多少并不代表一切。
2021年2月
Open AI開(kāi)源了新的深度學(xué)習(xí)模型 CLIP(Contrastive Language-Image Pre-Training)。
CLIP是一個(gè)多模態(tài)模型,用來(lái)判斷文字和圖像兩個(gè)不同"模態(tài)"信息的關(guān)聯(lián)匹配程度。
在CLIP之前,也有人嘗試過(guò)這個(gè)方向,但OpenAI最大的創(chuàng)意是直接使用全互聯(lián)網(wǎng)上已經(jīng)標(biāo)記過(guò)的圖像數(shù)據(jù),巧妙的避免了海量數(shù)據(jù)標(biāo)注的昂貴費(fèi)用。最后以接近40億的互聯(lián)網(wǎng)"文本-圖像"訓(xùn)練數(shù)據(jù)打造了CLIP。
這次重要的開(kāi)源直接推動(dòng)了各大AI繪畫(huà)模型的迅猛發(fā)展。CLIP的多模態(tài)能力正是各AI繪畫(huà)大模型從文字到畫(huà)面想象力的核心基矗
同時(shí),OpenAI還發(fā)布了自己基于CLIP的 AI繪畫(huà)DALL-E 模型。這或許是大眾聽(tīng)說(shuō)的第一個(gè)"文本生成圖像"的AI繪畫(huà)模型了。
從CLIP到DALL-E,顯然OpenAI走在了AI繪畫(huà)大模型潮流的最前端。
只是,OpenAI在AI繪畫(huà)模型的商業(yè)決策上出現(xiàn)了失誤:因?yàn)闆](méi)有開(kāi)放使用DALL-E以及后續(xù)DALL-E2,而又開(kāi)源了關(guān)鍵的CLIP模型,導(dǎo)致目前AI繪畫(huà)模型的光芒完全被其開(kāi)源繼承者Stable Diffusion,還有付費(fèi)的Midjourney服務(wù)掩蓋了。
正是在AI繪畫(huà)模型上有苦說(shuō)不出的經(jīng)歷,直接影響了后來(lái)OpenAI管理層的決策:決定在第一時(shí)間面向公眾搶先推出 ChatGPT聊天機(jī)器人。
2021年4月
華為的盤(pán)古NLP大模型發(fā)布,號(hào)稱(chēng)是中國(guó)第一個(gè)千億參數(shù)語(yǔ)言大模型。
2021年6月
6 月 30 日,OpenAI 和 GitHub 聯(lián)合發(fā)布了 AI 代碼補(bǔ)全工具 GitHub Copilot,這個(gè)工具可以在 VS Code 編輯器中自動(dòng)完成代碼片段,也是 OpenAI 拿了微軟 10 億美元之后的第一個(gè)重大成果。
而Copilot 的AI技術(shù)核心正是OpenAI的新模型CodeX。這個(gè)模型在隨后的8月份也對(duì)外發(fā)布了。
根據(jù)相關(guān)論文 《Evaluating Large Language Models Trained on Code》,OpenAI基于GPT-3,使用大量公開(kāi)代碼數(shù)據(jù)訓(xùn)練出了Codex模型。
Codex擁有120億參數(shù),使用了159G代碼數(shù)據(jù)進(jìn)行訓(xùn)練,模型可以將自然語(yǔ)言描述轉(zhuǎn)換為代碼。而效果嗎,看看碼農(nóng)們對(duì)Copilot的贊不絕口就知道了。
AI生成代碼的時(shí)代終于到來(lái)了。
據(jù)稱(chēng),Codex的訓(xùn)練數(shù)據(jù)來(lái)自于公共數(shù)據(jù)源的數(shù)十億行源代碼,而其中最重要的來(lái)源,無(wú)疑正是微軟所買(mǎi)下的GitHub 這個(gè)世界上最大的開(kāi)源代碼平臺(tái)。
使用GitHub代碼訓(xùn)練模型這個(gè)事情還引起了一些程序員關(guān)于代碼版權(quán)的熱烈討論。
不過(guò),正如畫(huà)師們對(duì)砸了自己飯碗的AI繪畫(huà)大模型怨聲載道而然并卵。。。能力突破的AI對(duì)人類(lèi)初級(jí)技能的全面覆蓋,恐怕是一個(gè)不得不接受的事實(shí)。
從商業(yè)角度上看,CodeX的誕生和Copilot的成功證明了OpenAI和微軟的商業(yè)合作確實(shí)是一個(gè)雙贏。
2021年10月
第一個(gè)開(kāi)源的AI繪畫(huà)大模型Disco-Diffusion誕生!
發(fā)布在Github上的Disco-Diffusion是整個(gè)2022年AI繪畫(huà)旋風(fēng)的起點(diǎn)。從Disco-Diffusion開(kāi)始,AI繪畫(huà)大模型突飛猛進(jìn)的發(fā)展讓所有人目不暇接,揭開(kāi)了AI的新時(shí)代。
2021年12月
百度第三代文心語(yǔ)言大模型,2600億參數(shù)的ERNIE3.0 Titan發(fā)布。
百度文心和華為盤(pán)古都是GPT-3量級(jí)的模型,關(guān)于國(guó)產(chǎn)大模型的具體判斷,讀者有興趣可以參考本號(hào)國(guó)產(chǎn)ChatGPT們的真相>一文
2022 年 3 月
OpenAI發(fā)布InstructGPT, 同時(shí)發(fā)表論文《Training language models to follow instructions with human feedback》。
根據(jù)論文,InstructGPT基于GPT-3模型做了進(jìn)一步微調(diào),并且在模型訓(xùn)練中加入了人類(lèi)的反饋評(píng)價(jià)數(shù)據(jù)。
這里出現(xiàn)的RLHF "從人類(lèi)反饋中強(qiáng)化學(xué)習(xí)",正是后面ChatGPT所依賴(lài)的一個(gè)關(guān)鍵技術(shù)。
2022年4月
OpenAI發(fā)布了AI繪畫(huà)大模型DALL-E 2。
同一時(shí)間,面向公眾的付費(fèi)AI繪畫(huà)服務(wù)Midjourney也發(fā)布了。
和開(kāi)局王炸,第一年就賺取了大把真金白銀的MidJourney相比,使用受限的DALL-E 2并沒(méi)有在大眾人群里產(chǎn)生多少影響力。
如之前所說(shuō),OpenAI在繪畫(huà)大模型的開(kāi)放上過(guò)于保守了,也許還有優(yōu)先和微軟技術(shù)合作的考量在內(nèi)...
總之,非常遺憾,繪畫(huà)模型的風(fēng)頭完全被付費(fèi)的Midjourney和隨后的Stable diffusion搶走。
2022年5月
OpenAI發(fā)布代號(hào)為text-davinci-002的新版大模型,GPT系列正式邁入3.5時(shí)代。
有趣的是,按照OpenAI官方文檔說(shuō)法:
is a base model,so good for pure code-completion tasks
is an InstructGPT model based on
就是說(shuō),代號(hào)為code的002號(hào)模型是3.5系列的基礎(chǔ)模型,而代號(hào)為text的002號(hào)模型是基于code 002模型用指令微調(diào)技術(shù)得到的 (insturctGPT)
如果,OpenAI沒(méi)有在模型名字上混淆視聽(tīng),一個(gè)有趣而合理的推斷是:GPT-3.5系列的基礎(chǔ)核心模型首先是依賴(lài)于代碼(Code)大數(shù)據(jù)訓(xùn)練,而不是普通文本(Text)訓(xùn)練的
如果這個(gè)推斷差不太多,那么眾多ChatGPT的追隨者們,如希望自家能力真正比肩基于GPT-3.5的ChatGPT, 那必須要補(bǔ)的一課,就是代碼數(shù)據(jù)的訓(xùn)練了。
2022年6月
6月15日,谷歌研究院聯(lián)合DeepMind和斯坦福大學(xué)等在arxiv上發(fā)表了一篇論文:《Emergent Abilities of Large Language Models(大語(yǔ)言模型的突現(xiàn)能力)》。
這篇綜述性的文章對(duì)過(guò)往文獻(xiàn)結(jié)論做了整理,研究了5 個(gè)語(yǔ)言模型系列(谷歌 LaMDA,PaLM 和 OpenAI 的 GPT-3,以及 DeepMind 的 Gopher,Chinchilla )的 8 種突現(xiàn)能力。如下所示:
其核心要點(diǎn)是:
大模型擁有復(fù)雜推理和思維鏈能力。所謂思維鏈,是指在輸入里寫(xiě)出示例的具體推斷步驟,大模型就可以實(shí)時(shí)學(xué)習(xí)這個(gè)推理(并不需要重新訓(xùn)練)并給出相仿示例的正確答案; 并且,大模型可以拆解復(fù)雜推理步驟一步步得到最終結(jié)果。
思維鏈能力是突然"涌現(xiàn)"的,如上圖,當(dāng)參數(shù)規(guī)模超過(guò)千億時(shí),思維鏈能力就指數(shù)級(jí)爆發(fā)了。
根據(jù)目前觀察,參數(shù)達(dá)到千億以上的大模型才可能擁有強(qiáng)大的思維鏈能力,而這只是必要條件:有些千億參數(shù)大模型沒(méi)能展現(xiàn)出思維鏈能力。
事實(shí)上,根據(jù)OpenAI的內(nèi)部研究,初始版本的GPT-3 思維鏈能力也很弱,而以為基礎(chǔ)的GPT-3.5版本系列則體現(xiàn)了很強(qiáng)的思維鏈能力。因此,一個(gè)有趣的假設(shè)是,GPT-3.5系列思維鏈能力的"涌現(xiàn)",除了達(dá)到千億參數(shù)的基礎(chǔ)條件外,使用代碼進(jìn)行訓(xùn)練也是一個(gè)必不可少的前提。
這個(gè)假設(shè)對(duì)于碼農(nóng)來(lái)說(shuō)很容易接受:程序代碼語(yǔ)言本身就特別強(qiáng)調(diào)邏輯嚴(yán)密性,而且上下文清晰沒(méi)有混淆之處(這里特指那些"好"的代碼...)。
所以,如果說(shuō)學(xué)習(xí)"好的代碼"能提高人類(lèi)或者AI的邏輯思維和推理能力,程序員們一定不會(huì)反對(duì)這種看法。
2022年7月
DeepMind破解了幾乎所有已知的蛋白質(zhì)結(jié)構(gòu),其AlphaFold算法數(shù)據(jù)庫(kù)里包含了2億種已知蛋白質(zhì)結(jié)構(gòu),這將是人類(lèi)生命科學(xué)的重量級(jí)彈藥庫(kù)。
被Google收購(gòu)之后,DeepMind的活力已經(jīng)大不如前,至少在聚光燈下是如此。這一次,在另一條重要的賽道上,這家老牌團(tuán)隊(duì)還是努力刷出了存在感。
2022年8月
stability.ai開(kāi)源了Stable Diffusion繪畫(huà)大模型的源代碼!
開(kāi)放模型數(shù)據(jù)使用的AI模型不少,但開(kāi)放全部源碼的頂級(jí)AI大模型可以說(shuō)寥寥無(wú)幾,Stable Diffusion就是其中最耀眼的開(kāi)源明星。
Stable Diffusion是當(dāng)今技術(shù)最頂尖的AI繪畫(huà)大模型; 基于Stable Diffusion開(kāi)放的源碼,大游戲公司的自建AI美術(shù)資源生產(chǎn)流程,創(chuàng)業(yè)小團(tuán)隊(duì)的AI繪畫(huà)相關(guān)產(chǎn)品,已經(jīng)如同雨后春筍般涌現(xiàn)出來(lái)。
2022年9月
紅杉資本發(fā)布了傳播甚廣的文章《生成式AI:一個(gè)創(chuàng)造性的新世界》,文中預(yù)測(cè),生成式AI有可能創(chuàng)造數(shù)百萬(wàn)億美元的經(jīng)濟(jì)價(jià)值。
不得不說(shuō),紅杉的嗅覺(jué)絕對(duì)是這個(gè)星球第一的:
僅僅兩個(gè)月后,注定載入科技史冊(cè)的ChatGPT就發(fā)布了。
2022年10月
Meta推出Make-A-Video,Google推出Imagen video,兩巨頭幾乎在同一時(shí)間推出了文字生成視頻的模型。
盡管當(dāng)前"文字生成視頻"的大模型還純屬玩具階段,和已經(jīng)進(jìn)入工業(yè)生產(chǎn)狀態(tài)的AI繪畫(huà)模型無(wú)法相提并論。但這仍然是個(gè)好的開(kāi)始:人類(lèi)動(dòng)動(dòng)嘴皮子,已經(jīng)可以生成高質(zhì)量的音樂(lè)和圖畫(huà)了; 沒(méi)有理由不相信,不久的將來(lái),AI可以直接從文字描述生成高質(zhì)量的長(zhǎng)視頻。
大膽再往前走一步:加上ChatGPT這類(lèi)AI的文字生成能力,人類(lèi)很快連編故事都不需要,就可以得到一部電影視頻了。
只是,這一天的到來(lái),人類(lèi)自己是否已經(jīng)準(zhǔn)備好了呢?
2022年11月
ChatGPT發(fā)布。隨后的事情,大家都知道了。
有意思的是,ChatGPT并不在OpenAI原本的產(chǎn)品路線圖上,完全是無(wú)心插柳的結(jié)果。
我們知道,為了進(jìn)一步改進(jìn)GPT-3系列模型,OpenAI走上了"從人類(lèi)反饋中強(qiáng)化學(xué)習(xí)"(RLHF)的路子。為了讓AI能持續(xù)和人類(lèi)溝通來(lái)不斷反饋完善模型,搞出一個(gè)聊天機(jī)器人就是最好的用戶測(cè)試接口。
基于這么一個(gè)簡(jiǎn)單的理工男思路,從2022年初開(kāi)始,團(tuán)隊(duì)開(kāi)始打造ChatGPT。
然后,打造出了一個(gè)驚世駭俗的AI產(chǎn)品。
已有眾多文章360度無(wú)死角點(diǎn)評(píng)了ChatGPT,這里僅簡(jiǎn)單列舉一些有趣的點(diǎn)。
ChatGPT的特點(diǎn):
ChatGPT具有很強(qiáng)的邏輯推理能力,能拆解復(fù)雜的內(nèi)容,分成多個(gè)步驟進(jìn)行推理,得到最終答案。這也就是"思維鏈"級(jí)別的推理能力。
ChatGPT可以主動(dòng)承認(rèn)錯(cuò)誤,聽(tīng)取用戶意見(jiàn),并優(yōu)化答案。
ChatGPT可以質(zhì)疑不正確的問(wèn)題,可以承認(rèn)自身對(duì)專(zhuān)業(yè)技術(shù)的不了解。
ChatGPT的局限性:
一本正經(jīng)胡說(shuō)八道:ChatGPT有很強(qiáng)的"創(chuàng)造可信答案"的傾向,會(huì)給出有誤導(dǎo)性的回答。而且錯(cuò)誤隱蔽在正確的信息之中,難以發(fā)現(xiàn)。這和生成式AI的本性有關(guān):AI傾向于生成一個(gè)看起來(lái)正確的內(nèi)容。
然而,和AI繪畫(huà)輸出有點(diǎn)小問(wèn)題無(wú)傷大雅的性質(zhì)完全不同,這也許是文字生成式AI在應(yīng)用上的致命問(wèn)題:
如無(wú)法確保輸出的100%正確性,那么其實(shí)際應(yīng)用價(jià)值將大打折扣。
輸出對(duì)問(wèn)題措辭敏感:同一個(gè)問(wèn)題,調(diào)整提問(wèn)的方式,可能會(huì)得到不同的回答。這意味著輸出結(jié)果還不夠穩(wěn)定。
缺少垂直領(lǐng)域知識(shí):這倒是創(chuàng)業(yè)者們的好機(jī)會(huì);贑hatGPT系統(tǒng)打造專(zhuān)屬的垂直領(lǐng)域大模型吧。
算力昂貴:千億參數(shù)級(jí)別的模型,即使是跑模型應(yīng)用(不是模型訓(xùn)練),也需要大量算力。當(dāng)然了,這是大廠商們?cè)朴?jì)算的好機(jī)會(huì)。
2023年2月
OpenAI的CEOSam Altman這幾天剛發(fā)了新文章,宣布OpenAI的使命是確保AGI造福全人類(lèi):
"長(zhǎng)期來(lái)看,過(guò)渡到一個(gè)擁有超級(jí)智能的世界可能是人類(lèi)歷史上最重要,最有希望,最可怕的項(xiàng)目"
列舉一下Sam Altman在文中闡明的OpenAI三原則:
希望 AGI 能夠賦予人類(lèi)在宇宙中最大程度地繁榮發(fā)展的能力
希望 AGI 的好處、訪問(wèn)權(quán)和治理得到廣泛和公平的分享。
希望成功應(yīng)對(duì)巨大風(fēng)險(xiǎn)。在面對(duì)這些風(fēng)險(xiǎn)時(shí),理論上似乎正確的事情在實(shí)踐中往往比預(yù)期的更奇怪。
作為前文的呼應(yīng),也列出時(shí)間線第一條的"阿西莫夫機(jī)器人三定律",相互參考。
機(jī)器人不得傷害人類(lèi),或坐視人類(lèi)受到傷害;
除非違背第一定律,否則機(jī)器人必須服從人類(lèi)命令;
除非違背第一或第二定律,否則機(jī)器人必須保護(hù)自己。
從80年前阿西莫夫的天才想象,到今天,AI能力已真切影響著每一個(gè)普通人的生活 (甚至砸掉人的飯碗)。
AGI的愿景仍在不遠(yuǎn)的前方,但一個(gè)AI的時(shí)代已經(jīng)到來(lái)。