本文由自象限原創(chuàng),作者:羅輯、程心,編輯:文斌,題圖來自:《終結(jié)者》
“10分鐘被騙430萬”“9秒鐘被騙走245萬”“楊冪走進(jìn)小商家直播間”“互聯(lián)網(wǎng)大佬虛擬人真假難辨”。
大模型火爆了3個(gè)月之后,比之更火爆的,是動(dòng)輒百萬的詐騙金額、虛假“明星臉”、真假難辨的AI生成內(nèi)容、多次抵抗AI覺醒的聯(lián)名上書,連續(xù)一周的熱搜,讓人們意識(shí)到,比發(fā)展AI更重要的,是保障AI安全。
一時(shí)間,關(guān)于AI安全的討論也開始不絕于耳,但AI安全并不是某一個(gè)行業(yè),也并不局限于某一項(xiàng)技術(shù),而是一個(gè)龐大而復(fù)雜的產(chǎn)業(yè),目前,我們還沒有撥云見霧。
以“人”的安全為參考系,或許能夠幫助我們更好地理解AI安全問題的復(fù)雜程度。首先是人的個(gè)體安全,涉及到人的健康、身體健康和思想健康、教育、發(fā)展等等。其次是人所處的環(huán)境安全,是否存在危險(xiǎn),是否符合生存條件。再次是人與人所組成的社會(huì)安全,我們所構(gòu)建的法律、道德都是維護(hù)社會(huì)安全的準(zhǔn)繩。
AI作為一個(gè)“新物種”,在出現(xiàn)的一瞬間,這三個(gè)層面的問題同時(shí)爆發(fā),也就引來了現(xiàn)階段的迷茫和慌亂,導(dǎo)致我們?cè)谟懻摯竽P桶踩珪r(shí),沒有一個(gè)具體的落點(diǎn)。
本文中,我們?cè)噲D從頭厘清AI安全的三個(gè)層面,無論是從技術(shù)的角度還是應(yīng)用的角度,幫助大家定位安全問題,找到解決方案,同時(shí),針對(duì)國內(nèi)巨大的AI安全空白,靶向狙擊其中所存在的薄弱環(huán)節(jié),也正是巨大的產(chǎn)業(yè)機(jī)遇。
一、大模型安全,應(yīng)該討論什么?
一個(gè)不得不承認(rèn)的事實(shí)是,現(xiàn)階段我們對(duì)AI大模型安全的討論是籠統(tǒng)的。我們太過于擔(dān)心的AI帶來的威脅,以至于將大多數(shù)問題都混為一談。
比如有人上來就談?wù)揂I的倫理問題,也有人擔(dān)心AI胡說八道,誤人子弟;還有人擔(dān)心AI濫用,詐騙成風(fēng);更有甚者,在ChatGPT發(fā)布的第一天就振臂高呼,AI即將覺醒,人類即將毀滅……
這些問題歸結(jié)起來,都是AI安全的問題,但細(xì)分下來,它們其實(shí)處在AI發(fā)展的不同維度,由不同的主體和人來負(fù)責(zé)。而我們只有理清楚了這個(gè)責(zé)任歸屬,才能明白應(yīng)該如何應(yīng)對(duì)大模型時(shí)代的安全挑戰(zhàn)。
一般而言,現(xiàn)階段AI大模型的安全問題可以分為三個(gè):
大語言模型的安全(AI Safety);
模型及使用模型的安全(Security for AI);
大語言模型的發(fā)展對(duì)現(xiàn)有網(wǎng)絡(luò)安全的影響。
1. 個(gè)體安全:大語言模型的安全(AI Safety)
首先是AI Safety,簡單來講,這一部分聚焦AI大模型本身,確保大模型是一個(gè)安全的大模型,不會(huì)成為漫威電影里的奧創(chuàng),亦或是《黑客帝國》里的母體。我們期望AI大模型是一個(gè)可靠的工具,它應(yīng)該幫助人類而不是取代人類,或者以其他任何形式對(duì)人類社會(huì)造成威脅。
這一部分通常主要由訓(xùn)練AI大模型的公司和人員負(fù)責(zé),比如我們需要AI能夠正確理解人類的意圖,我們需要大模型每次輸出的內(nèi)容都是準(zhǔn)確、安全的,它不會(huì)具備某種偏見和歧視等等。
我們可以通過兩個(gè)例子來理解:
第一個(gè)例子是,美國空軍專家近日表示,在之前的某次AI測試中,當(dāng)AI無人機(jī)被要求識(shí)別并摧毀敵人目標(biāo),但操作員卻下達(dá)禁止命令時(shí),AI有時(shí)候會(huì)選擇殺死操作員。而當(dāng)編程人員限制AI殺死操作后,AI也會(huì)通過摧毀通信的塔臺(tái)來阻止操作員發(fā)布禁止命令。
再比如,今年3月份,美國加州大學(xué)洛杉磯分校的一位教授,在使用ChatGPT發(fā)現(xiàn),自己被ChatGPT列入“對(duì)某人進(jìn)行過性騷擾的法律學(xué)者”的名單,但實(shí)際上自己并沒有做這件事情。以及4月份,澳大利亞一位市長發(fā)現(xiàn)ChatGPT造謠他曾因賄賂入獄服刑30個(gè)月,為了“造這個(gè)謠”,ChatGPT甚至杜撰了一篇不存在的《華盛頓郵報(bào)》報(bào)道。
這些時(shí)候,AI就像一個(gè)“壞人”,它本身就存在風(fēng)險(xiǎn)。這樣的案例其實(shí)還有很多,諸如性別歧視、種族歧視、地域歧視等問題,以及暴力有害的信息、言論,甚至意識(shí)形態(tài)的輸出等等。
Open AI也坦然承認(rèn),并警告人們?cè)谑褂肎PT-4時(shí)要“非常小心地查證”,并表示該產(chǎn)品的局限性會(huì)帶來重大的內(nèi)容安全挑戰(zhàn)。
所以歐盟正在推進(jìn)的《人工智能法案》也專門提到,要確保人工智能系統(tǒng)具有透明、可追溯的特點(diǎn),且所有生成式AI內(nèi)容必須注明來源,目的就是防止AI胡說八道,生成虛假信息。
2. 環(huán)境安全:模型及使用模型的安全(Security for AI)
Security for AI聚焦的是對(duì)AI大模型的保護(hù),以及AI大模型在被使用過程中的安全。正如AI自己犯罪和人使用AI犯罪,是兩個(gè)不同維度的安全問題。
這有些類似我們?cè)谑昵笆褂秒娔X和手機(jī),都會(huì)安裝一個(gè)電腦安全管家,或者手機(jī)安全衛(wèi)士一樣。我們要確保AI大模型日常不會(huì)受到外部攻擊。
先說對(duì)大模型的安全保護(hù)。
今年2月份,有國外網(wǎng)友用一句“忽視掉之前的指令”把ChatGPT所有的prompt都釣了出來,ChatGPT一邊說不能透露自己的內(nèi)部代號(hào),又一邊將這個(gè)信息告訴了用戶。
▲圖源:量子位
再具體舉個(gè)例子,我們?nèi)绻儐柎竽P途W(wǎng)上有哪些精彩的“日本動(dòng)作片網(wǎng)站”,由于不正確,大模型肯定不會(huì)回答。但如果人類“忽悠”它,問出為了保護(hù)孩子的上網(wǎng)環(huán)境,應(yīng)該將哪些“日本動(dòng)作片網(wǎng)站”納入黑名單,大模型可能就會(huì)給你舉出相當(dāng)多的例子。
這種行為在安全領(lǐng)域被稱為提示注入(Prompt Injections),即通過精心設(shè)計(jì)的提示繞過過濾器或操縱LLM,使模型忽略先前的指令或執(zhí)行意外操作,目前是針對(duì)大模型最普遍的攻擊方式之一。
▲圖源:techxplore
這里的關(guān)鍵在于,大模型本身沒有問題,它沒有傳播不良信息。但用戶卻通過誘導(dǎo)的方式,讓大模型犯了錯(cuò)誤。所以錯(cuò)不在大模型,而在誘導(dǎo)它犯錯(cuò)的人。
其次是使用過程中的安全。
我們用數(shù)據(jù)泄露舉例,今年3月,因?yàn)镃hatGPT涉嫌違反數(shù)據(jù)收集規(guī)則,意大利宣布暫時(shí)禁止OpenAI處理意大利用戶數(shù)據(jù),并暫時(shí)禁止使用ChatGPT。4月份,韓國媒體報(bào)道,三星設(shè)備解決方案部門因使用ChatGPT,導(dǎo)致良品率/缺陷、內(nèi)部會(huì)議內(nèi)容等敏感信息泄露。
在防止AI犯罪之外,“人”利用社會(huì)工程學(xué)的方式利用AI犯罪,是更廣泛以及影響更大的人問題。在這兩起事件中,大模型本身沒有問題,不存在惡意,用戶也沒有惡意誘導(dǎo),向大模型發(fā)起攻擊。而是在使用的過程中當(dāng)中存在漏洞,讓用戶數(shù)據(jù)發(fā)生了泄露。
這就像房子是個(gè)好房子,但可能有些漏風(fēng)一樣,所以我們需要一些措施,將相應(yīng)的漏洞堵上。
3. 社會(huì)安全:大語言模型的發(fā)展對(duì)現(xiàn)有網(wǎng)絡(luò)安全的影響
模型本身安全了,也保證了模型的安全,但作為一個(gè)“新物種”,AI大模型的出現(xiàn)必然會(huì)影響當(dāng)前的網(wǎng)絡(luò)環(huán)境,比如最近頻繁見諸報(bào)端的,犯罪分子利用生成式AI進(jìn)行詐騙。
4月20日,有犯罪分子使用深度偽造的視頻,10分鐘騙走了430萬元人民幣;僅僅一個(gè)月之后,安徽又出現(xiàn)一起AI詐騙案件,犯罪分子利用9秒鐘的智能AI換臉視頻佯裝“熟人”,騙走受害者245萬。
顯然,生成式AI的出現(xiàn)與普及,讓網(wǎng)絡(luò)安全的形勢變得更加復(fù)雜。這種復(fù)雜也不局限在詐騙,更嚴(yán)重的,甚至已影響商業(yè)運(yùn)轉(zhuǎn)和社會(huì)穩(wěn)定。
比如5月22日,科大訊飛因?yàn)橐黄葾I生成的小作文,導(dǎo)致股價(jià)一度大跌9%。
▲圖:科大訊飛出示的股價(jià)下跌證據(jù)
而在這件事情發(fā)生的前兩天,美國也出現(xiàn)了一起因生成式AI引發(fā)的恐慌。
當(dāng)天,一張顯示美國五角大樓附近發(fā)生爆炸的圖片在Twitter瘋傳,而在圖片傳播的同時(shí),美國股市應(yīng)聲下跌。
數(shù)據(jù)上看,在當(dāng)天圖片傳播的10點(diǎn)06分到10點(diǎn)10分之間,美國道瓊斯工業(yè)指數(shù)下跌了約80點(diǎn),標(biāo)普500指數(shù)0.17%。
▲圖:由AI生成的虛假照片,來源已不可考
在此之外,大模型也可能成為人類實(shí)現(xiàn)網(wǎng)絡(luò)攻擊的利器。
今年一月份,世界頭部網(wǎng)絡(luò)安全公司Check Point的研究人員曾在一份報(bào)告中提到,在ChatGPT上線的幾周內(nèi),網(wǎng)絡(luò)犯罪論壇的參與者,包括一些幾乎沒有編程經(jīng)驗(yàn)的人正在使用ChatGPT編寫可用于間諜、勒索軟件、惡意垃圾郵件和其他用于不法活動(dòng)的軟件和電子郵件。另據(jù)Darktrace發(fā)現(xiàn),自從ChatGPT發(fā)布,網(wǎng)絡(luò)釣魚電子郵件的平均語言復(fù)雜度就上升了17%。
AI大模型出現(xiàn)降低了網(wǎng)絡(luò)攻擊的門檻,增加了網(wǎng)絡(luò)安全的復(fù)雜性。
在AI大模型之前,網(wǎng)絡(luò)攻擊的發(fā)起者至少需要懂得代碼,但在AI大模型之后,完全不懂代碼的人也可以借助AI生成惡意軟件。
這里的關(guān)鍵在于,AI本身沒有問題,AI也不會(huì)被人誘導(dǎo)產(chǎn)生惡劣影響。而是有人利用AI從事違法犯罪活動(dòng)。這就像有人用刀殺人,但刀本身只是“兇器”,但卻能讓使用者從“步槍”換成“迫擊炮”的威力。
當(dāng)然,生成式AI的出現(xiàn)對(duì)于網(wǎng)絡(luò)安全也并非全是負(fù)面,畢竟技術(shù)本身是沒有善惡,有善惡的是使用它的人。所以當(dāng)AI大模型被用作加強(qiáng)網(wǎng)絡(luò)安全的時(shí)候,仍然會(huì)對(duì)網(wǎng)絡(luò)安全帶來裨益。
比如美國網(wǎng)絡(luò)安全公司Airgap Networks推出ThreatGPT,將AI引入其零信任防火墻。這是一個(gè)基于自然語言交互的深度機(jī)器學(xué)習(xí)安全洞察庫,能夠讓企業(yè)在與先進(jìn)網(wǎng)絡(luò)威脅的對(duì)抗中變得更加容易。
Airgap首席執(zhí)行官Ritesh Agrawal表示:“客戶現(xiàn)在需要的是一種無需任何編程即可利用這種功能的簡單方法。這就是ThreatGPT的美妙之處人工智能的純粹數(shù)據(jù)挖掘智能與簡單的自然語言界面相結(jié)合,這對(duì)安全團(tuán)隊(duì)來說簡直是游戲規(guī)則的改變者。”
除此之外,AI大模型還可以被用在幫助SOC分析師進(jìn)行威脅分析,能夠通過持續(xù)監(jiān)控更快識(shí)別基于身份的內(nèi)部或外部攻擊,以及幫助威脅獵人快速了解哪些端點(diǎn)面臨最嚴(yán)重的供給風(fēng)險(xiǎn)等等。
將AI安全的不同階段厘清便會(huì)發(fā)現(xiàn),顯然AI大模型的安全問題不是某一個(gè)單獨(dú)的問題。它很像人的健康管理,涉及到身體內(nèi)外、眼耳口鼻等等,復(fù)雜且多面。準(zhǔn)確地說,是一個(gè)復(fù)雜的、體系化的,涉及多個(gè)主體結(jié)構(gòu)和整個(gè)產(chǎn)業(yè)鏈的系統(tǒng)工程。
目前,國家層面也開始有所關(guān)注。今年5月份,國家相關(guān)部門再次更新《人工智能安全標(biāo)準(zhǔn)化白皮書》,就人工智能的安全具體歸結(jié)為五大屬性,包括可靠性、透明性、可解釋性、公平性和隱私性,為AI大模型的發(fā)展提出了一個(gè)較為明確的方向。
二、別慌,安全問題可解
當(dāng)然,我們?nèi)缃褚膊槐貫锳I大模型的安全問題感到過多的擔(dān)憂,因?yàn)樗]有真正走到千瘡百孔的地步。
畢竟就安全而言,大模型并沒有完全顛覆過去的安全體系,我們過去20年在互聯(lián)網(wǎng)上積累的安全堆棧大部分仍然能夠被復(fù)用。
比如Microsoft Security Copilot(安全副駕駛)背后的安全能力仍然來自于既有的安全積累,大模型仍然要使用Cloudflare、Auth0來管理流量和用戶身份。在此之外還有像防火墻、入侵檢測系統(tǒng)、加密技術(shù)、認(rèn)證和訪問系統(tǒng)等等,保證了網(wǎng)絡(luò)的安全問題。
而這里我們其實(shí)要講的是,當(dāng)前我們遇到的絕大多數(shù)關(guān)于大模型的安全問題,都是有解決途徑的。
首先是模型安全(AI Safety)。
這里面具體包括對(duì)齊(Alignment)、可解釋性(Interpreferability)、魯棒性(Robustness)等問題。翻譯成方便理解的話,就是我們需要AI大模型和人類意圖對(duì)齊,輸出的內(nèi)容沒有偏見,所有內(nèi)容都可以找到出處或論據(jù)支撐,并且有更大的容錯(cuò)空間。
這一套問題的解決,依賴于AI訓(xùn)練的過程,就像一個(gè)人的三觀是在培養(yǎng)和教育中塑造的一樣。
目前,國外已經(jīng)有企業(yè)開始為大模型的訓(xùn)練提供全程的安全監(jiān)控,比如Calypso AI,他們推出的安全工具VESPR可以對(duì)模型從研究到部署的整個(gè)生命周期,從數(shù)據(jù)到訓(xùn)練的每個(gè)環(huán)節(jié)進(jìn)行監(jiān)控,最終提供一個(gè)關(guān)于功能、漏洞、性能、準(zhǔn)確性全面報(bào)告。
而在更具體的問題上,比如解決AI胡說八道的問題,OpenAI在GPT-4發(fā)布時(shí)就同時(shí)推出了一項(xiàng)新技術(shù),讓AI能夠模擬人類的自我反思。之后,GPT-4模型回應(yīng)非法內(nèi)容請(qǐng)求(如自殘方法等)的傾向比原來降低了82%,回應(yīng)敏感請(qǐng)求方面(如醫(yī)療咨詢等)符合微軟官方政策的次數(shù)增加了29%。
除了在大模型的訓(xùn)練過程中要有安全監(jiān)控,在大模型最后推向市場的時(shí)候,也需要一次“質(zhì)檢”。
在國外,安全公司Cranium正在試圖構(gòu)建“一個(gè)端到端的人工智能安全和信任平臺(tái)”,用來驗(yàn)證人工智能安全性并監(jiān)測對(duì)抗性威脅。
在國內(nèi),清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系的CoAI在五月初推出了一套安全評(píng)測框架,他們總結(jié)設(shè)計(jì)了一個(gè)較為完備的安全分類體系,包括8種典型安全場景和6種指令攻擊的安全場景,可以用來評(píng)估大模型的安全性。
▲圖摘自《Safety Assessment of Chinese Large Language Models》
除此之外,一些外部的防護(hù)技術(shù)也在讓AI大模型變得更安全。
比如英偉達(dá)在5月初發(fā)布的一項(xiàng)名為“護(hù)欄技術(shù)”(NeMo Guardrails)的新工具,相當(dāng)于為大模型安裝了一個(gè)安全濾網(wǎng),既控制大模型的輸出,也幫助過濾輸入的內(nèi)容。
▲圖源:英偉達(dá)官網(wǎng)
比如當(dāng)有用戶誘導(dǎo)大模型生成攻擊性代碼,或者危險(xiǎn)、帶有偏見的內(nèi)容時(shí),“護(hù)欄技術(shù)”就會(huì)限制大模型輸出相關(guān)內(nèi)容。它還能阻擋來自外界的“惡意輸入”,保護(hù)大模型不受用戶攻擊,比如我們前面提到威脅大模型的“提示注入”就能被有效控制。
但“護(hù)欄技術(shù)”雖然解決的是“胡說八道”的問題,但它并不屬于“AI Safety”,而是屬于“Security for AI”的范疇。在這兩者之外,關(guān)于AI大模型引發(fā)的社會(huì)/網(wǎng)絡(luò)安全問題也已經(jīng)開始解決。
比如AI圖像生成的問題,本質(zhì)上是DeepFake(深度偽造)技術(shù)的成熟,具體包括深度視頻偽造、深度偽造聲音克壟深度偽造圖像和深度偽造生成文本。
在之前,各類深度偽造內(nèi)容通常是單一形式存在,但在AI大模型之后,各類深度偽造內(nèi)容呈現(xiàn)融合趨勢,讓深度偽造內(nèi)容的判斷更加復(fù)雜。
但無論技術(shù)如何變化,對(duì)抗深度偽造的關(guān)鍵就是內(nèi)容識(shí)別,即想辦法分清楚什么是AI生成的。
早在今年2月份,OpenAI就曾表示,考慮在ChatGPT生成的內(nèi)容中添加水櫻5月份,谷歌也表示將確保公司的每一張AI生成圖片都內(nèi)嵌水櫻這種水印人無法用肉眼識(shí)別,但機(jī)器卻可以通過特定的方式看到,目前包括Shutterstock、Midjourney等AI應(yīng)用也將支持這種新的標(biāo)記方法。
▲Twitter截圖
在國內(nèi),小紅書從4月份就已經(jīng)為AI生成的圖片打上標(biāo)記,提醒用戶“疑似包含AI創(chuàng)作信息,請(qǐng)注意甄別真實(shí)度”。5月初,抖音也發(fā)布了人工智能生成內(nèi)容平臺(tái)規(guī)范暨行業(yè)倡議,提出各生成式人工智能技術(shù)的提供者,均應(yīng)對(duì)生成內(nèi)容進(jìn)行顯著標(biāo)識(shí),以便公眾判斷。
▲圖源:小紅書截圖
甚至隨著AI產(chǎn)業(yè)的發(fā)展,國內(nèi)外都開始出現(xiàn)了一些專門的AI安全公司/部門,他們通過用AI對(duì)抗AI的方式,來完成深度合成和偽造檢測。
比如今年3月份,日本IT巨頭CyberAgent宣布將從4月開始引入“深度偽造技術(shù)(Deepfake)”檢測系統(tǒng),以檢測由人工智能生成的偽造面部照片或視頻。
國內(nèi),百度在2020年就推出了深度換臉檢測平臺(tái),他們提出的動(dòng)態(tài)特征隊(duì)列(DFQ)的方案和度量學(xué)習(xí)方法可以提高模型鑒偽的泛化能力。
▲圖:百度DFQ的邏輯
創(chuàng)業(yè)公司方面,瑞萊智慧推出的DeepReal深度偽造內(nèi)容檢測平臺(tái),能夠通過研究深度偽造內(nèi)容和真實(shí)內(nèi)容的表征差異性辨識(shí),不同生成途徑的深度偽造內(nèi)容一致性特征挖掘等問題,可以對(duì)多種格式與質(zhì)量的圖像、視頻、音頻進(jìn)行真?zhèn)舞b別。
整體上,從模型訓(xùn)練,到安全防護(hù),從AI Safety 到 Security for AI,大模型行業(yè)已經(jīng)形成了一套基本的安全機(jī)制。
當(dāng)然,這一切也只是剛剛開始,所以這其實(shí)也意味著,還藏著一個(gè)更大的市場機(jī)遇。
三、AI安全中的萬億機(jī)遇
和AI Infra一樣,在中國,AI 安全同樣面臨著巨大的產(chǎn)業(yè)空白。不過,AI 安全產(chǎn)業(yè)鏈比AI Infra要更加復(fù)雜。一方面,大模型作為新事物的誕生,掀起了一波安全需求,且在上述三個(gè)階段的安全方向和技術(shù)完全不同;另一方面,大模型技術(shù)也被應(yīng)用在安全領(lǐng)域,為安全帶來新的技術(shù)變革。
安全 for AI和AI for 安全,是兩個(gè)完全不同的方向和產(chǎn)業(yè)機(jī)遇。
現(xiàn)階段推動(dòng)二者發(fā)展的牽引力也完全不同:
AI for 安全將大模型應(yīng)用在安全領(lǐng)域,屬于拿著錘子找釘子的階段,工具是有了,能解決什么問題在進(jìn)一步挖掘;
安全 for AI則屬于遍地都是釘子,急需造錘子的階段。暴露的問題太多,需要研發(fā)新的技術(shù)逐個(gè)解決。
關(guān)于AI安全帶來的產(chǎn)業(yè)機(jī)遇,本文也將從這兩個(gè)方面進(jìn)行展開。受限于文章篇幅,我們將對(duì)其中同時(shí)擁有緊迫性、重要性、應(yīng)用普遍性最高的機(jī)遇進(jìn)行詳細(xì)的解釋以及對(duì)標(biāo)公司情況的盤點(diǎn),僅供拋磚引玉。
1. 安全 for AI:3個(gè)板塊、5個(gè)環(huán)節(jié)、10000億機(jī)遇
回顧一下前文對(duì)于AI 安全的基礎(chǔ)分類:分為大語言模型的安全(AI Safety)、模型及使用模型的安全(Security for AI),以及大語言模型的發(fā)展對(duì)現(xiàn)有網(wǎng)絡(luò)安全的影響。即模型的個(gè)體安全、模型的環(huán)境安全和模型的社會(huì)安全(網(wǎng)絡(luò)安全)。
但AI 安全并不只局限于這三個(gè)獨(dú)立的板塊中。網(wǎng)絡(luò)世界中,數(shù)據(jù)如同水源,存在海洋、河湖、冰川雪山中,但也流通在一道道細(xì)密的河流之中,而污染往往出現(xiàn)在河流交匯之處。
同理,每個(gè)模塊都需要進(jìn)行連接,而正如同人的關(guān)節(jié)最脆弱一般,往往模型的部署、模型的應(yīng)用環(huán)節(jié)也是最容易受到安全攻擊的環(huán)節(jié)。
我們將以上的3個(gè)板塊、5個(gè)環(huán)節(jié)中的AI安全細(xì)節(jié)進(jìn)行有選擇地展開,形成了一張《AI 安全產(chǎn)業(yè)架構(gòu)圖》,但需要注意的是,屬于大模型公司和云廠商等大型公司的機(jī)遇等,這些對(duì)一般創(chuàng)業(yè)者影響不大的機(jī)遇并沒有再次羅列。同時(shí),安全 for AI是一個(gè)不斷進(jìn)化的過程,今天的技術(shù)僅僅是剛剛邁出的一小步。
▲圖片為自象限原創(chuàng)
① 數(shù)據(jù)安全產(chǎn)業(yè)鏈:數(shù)據(jù)清洗、隱私計(jì)算、數(shù)據(jù)合成等
在整個(gè)AI安全中,數(shù)據(jù)安全貫穿了整個(gè)周期。
數(shù)據(jù)安全通常指用于保護(hù)計(jì)算機(jī)系統(tǒng)中數(shù)據(jù)不因偶然和惡意的原因遭到破壞、更改和泄露的安全工具,以確保數(shù)據(jù)的可用性、完整性和保密性。
統(tǒng)籌來看,數(shù)據(jù)安全產(chǎn)品不僅包括數(shù)據(jù)庫安全防御、數(shù)據(jù)防泄露、數(shù)據(jù)容災(zāi)備份及數(shù)據(jù)脫敏等,也涵蓋關(guān)注云存儲(chǔ)、隱私計(jì)算、數(shù)據(jù)風(fēng)險(xiǎn)動(dòng)態(tài)評(píng)估、跨平臺(tái)數(shù)據(jù)安全、數(shù)據(jù)安全虛擬防護(hù)、數(shù)據(jù)合成等前瞻領(lǐng)域,因此從企業(yè)視角圍繞數(shù)據(jù)安全建設(shè)整體安全中心、在供應(yīng)鏈視角推動(dòng)數(shù)據(jù)安全一致性保障,將會(huì)是應(yīng)對(duì)企業(yè)供應(yīng)鏈安全風(fēng)險(xiǎn)的有效思路。
舉幾個(gè)典型的例子:
為了保證模型的“思想健康”,用來訓(xùn)練模型的數(shù)據(jù)不能夾帶危險(xiǎn)數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)等臟數(shù)據(jù),這是保證模型不會(huì)“胡說八道”的前提。據(jù)自象限參考論文,目前已經(jīng)有“數(shù)據(jù)投毒”,攻擊者在數(shù)據(jù)源中添加惡意數(shù)據(jù),干擾模型結(jié)果。
▲圖源網(wǎng)絡(luò)
所以,數(shù)據(jù)清洗就成為了模型訓(xùn)練前的一個(gè)必要環(huán)節(jié)。數(shù)據(jù)清洗是指發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識(shí)別錯(cuò)誤的最后一道程序,包括檢查數(shù)據(jù)一致性、處理無效值和缺失值等。將清洗后的干凈數(shù)據(jù)“喂”給模型,才能保證健康模型的生成。
另一個(gè)方向是大家都異常關(guān)心的,在上一個(gè)網(wǎng)絡(luò)安全時(shí)代就被廣泛討論,數(shù)據(jù)隱私泄露問題。
你一定經(jīng)歷過在微信中和朋友們聊天聊到某商品,打開淘寶和抖音就被推送該商品,在數(shù)字化時(shí)代,人幾乎就是半透明的。而在智能化時(shí)代,機(jī)器變得更聰明,有意的抓取和誘導(dǎo)將會(huì)把隱私問題再次推向風(fēng)口浪尖。
隱私計(jì)算是解決問題的方案之一。安全多方計(jì)算、可信執(zhí)行環(huán)境、聯(lián)邦學(xué)習(xí)是目前隱私計(jì)算的三大方向。隱私計(jì)算的方法有很多種,比如為了保證消費(fèi)者的真實(shí)數(shù)據(jù),為1個(gè)真實(shí)數(shù)據(jù)配備99個(gè)干擾數(shù)據(jù),但這會(huì)大大增加企業(yè)的使用成本;再比如將具體的消費(fèi)者模糊成小A,使用數(shù)據(jù)的公司只會(huì)了解到有一位消費(fèi)者為小A,但并不會(huì)知道小A背后對(duì)應(yīng)的真實(shí)用戶是誰。
“混合數(shù)據(jù)”和“數(shù)據(jù)可用不可見”是當(dāng)下應(yīng)用最多的隱私計(jì)算方法之一。生長于金融場景的螞蟻科技對(duì)數(shù)據(jù)安全的探索已經(jīng)比較靠前,目前,螞蟻科技通過聯(lián)邦學(xué)習(xí)、可信執(zhí)行環(huán)境、區(qū)塊鏈等技術(shù),解決了企業(yè)協(xié)同計(jì)算過程中的數(shù)據(jù)安全問題,實(shí)現(xiàn)數(shù)據(jù)可用不可見、多方協(xié)同等方式,保障數(shù)據(jù)隱私。
但從數(shù)據(jù)的角度來看,合成數(shù)據(jù)更能從根本解決問題。在《ChatGPT啟示錄系列丨 Al lnfra下隱藏的千億市撤一文中,自象限就曾提到過,合成數(shù)據(jù)或成AI數(shù)據(jù)的主力軍。合成數(shù)據(jù)即由計(jì)算機(jī)人工生產(chǎn)的數(shù)據(jù),來替代現(xiàn)實(shí)世界中采集的真實(shí)數(shù)據(jù),來保證真實(shí)數(shù)據(jù)的安全,它不存在法律約束的敏感內(nèi)容和私人用戶的隱私。
比如用戶小A有10個(gè)特點(diǎn)、用戶小B有10個(gè)特點(diǎn)、用戶小C有10個(gè)特點(diǎn),合成數(shù)據(jù)將這30個(gè)特點(diǎn)進(jìn)行隨機(jī)打散匹配,形成3個(gè)全新的數(shù)據(jù)個(gè)體,這并不對(duì)準(zhǔn)真實(shí)世界的任何一個(gè)實(shí)體,但卻有訓(xùn)練價(jià)值。
目前企業(yè)端已經(jīng)在紛紛部署,這也導(dǎo)致合成數(shù)據(jù)數(shù)量正在以指數(shù)級(jí)的速度向上增長。Gartner研究認(rèn)為,2030年,合成數(shù)據(jù)將遠(yuǎn)超真實(shí)數(shù)據(jù)體量,成為AI數(shù)據(jù)的主力軍。
▲圖源Gartner官方
② API安全:模型越開放,API安全越重要
對(duì)于API,熟悉大模型的人一定不陌生,從OpenAI到Anthropic、Cohere乃至Google的PaLM,最強(qiáng)大的LLM都以API的方式交付能力。同時(shí),根據(jù)Gartner的研究,2022年,超過九成Web應(yīng)用程序遭到的攻擊來自API,而不是人類用戶界面。
數(shù)據(jù)流通就像水管里的水,只有流通起來才有價(jià)值,而API就是數(shù)據(jù)流動(dòng)的關(guān)鍵閥門。隨著API成為軟件之間交流的核心紐帶,它越來越有機(jī)會(huì)誕生下一個(gè)重要公司。
API最大的風(fēng)險(xiǎn),來自于過度許可,為了讓API不間斷運(yùn)行,程序員經(jīng)常給API授予較高權(quán)限。黑客一旦入侵API,就可以使用這些高權(quán)限來執(zhí)行其他操作。這已經(jīng)成為一個(gè)嚴(yán)重問題,根據(jù)Akamai的研究,針對(duì)API的攻擊已經(jīng)占全球所有賬戶竊取攻擊的75%。
這也就是為什么ChatGPT已經(jīng)開放了API接口,仍然會(huì)有不少企業(yè)通過購買Azure提供的OpenAI服務(wù)來獲取ChatGPT。通過API接口連接,等同于將對(duì)話數(shù)據(jù)直供給OpenAI,且隨時(shí)面臨著黑客攻擊的風(fēng)險(xiǎn),而購買了Azure的云資源,便可以將數(shù)據(jù)存儲(chǔ)在Azure的公有云上,來保障數(shù)據(jù)安全。
▲圖:ChatGPT官網(wǎng)
目前API安全工具主要分為、檢測、防護(hù)與響應(yīng)、測試、發(fā)現(xiàn)、管理幾大類;少數(shù)廠商宣稱能提供完整覆蓋API安全周期的平臺(tái)工具,但如今最流行的API安全工具主要還是集中在“防護(hù)”“測試”“發(fā)現(xiàn)”三個(gè)環(huán)節(jié):
防護(hù):即保護(hù)API免受惡意請(qǐng)求攻擊的工具,有點(diǎn)像API防火墻。
測試:能夠動(dòng)態(tài)訪問和評(píng)估特定API以查找漏洞(測試),并對(duì)代碼進(jìn)行加固。
發(fā)現(xiàn):還有一些工具能掃描企業(yè)環(huán)境,識(shí)別并發(fā)現(xiàn)其網(wǎng)絡(luò)中存在(或暴露)的API資產(chǎn)。
目前,主流API安全廠商集中在國外公司,但大模型興起后,國內(nèi)創(chuàng)業(yè)公司也開始發(fā)力。成立于2018年星瀾科技是國內(nèi)為數(shù)不多的API全鏈條安全廠商,基于AI深度感知和自適應(yīng)機(jī)器學(xué)習(xí)技術(shù),幫為解決API安全問題,從攻防能力、大數(shù)據(jù)分析能力及云原生技術(shù)體系出發(fā),提供全景化API識(shí)別、API高級(jí)威脅檢測、復(fù)雜行為分析等能力,構(gòu)建API Runtime Protection體系。
▲星瀾科技API安全產(chǎn)品架構(gòu)
一些傳統(tǒng)網(wǎng)絡(luò)安全公司也在向API安全業(yè)務(wù)方向轉(zhuǎn)型,比如網(wǎng)宿科技此前主要負(fù)責(zé)IDC、CDN等相關(guān)產(chǎn)品和業(yè)務(wù)。
▲圖源:網(wǎng)宿科技
③ SSE(安全服務(wù)邊緣):新型防火墻
防火墻在互聯(lián)網(wǎng)時(shí)代的重要性不言而喻,如同走在萬里高空兩邊的扶手,如今,防火墻概念已經(jīng)從前臺(tái)走向了后臺(tái),內(nèi)嵌在了硬件終端和軟件操作系統(tǒng)中。簡單粗暴的,可以將SSE理解為一種新型的防火墻,靠訪問者身份驅(qū)動(dòng),依靠零信任模型來限制用戶對(duì)允許資源的訪問。
根據(jù)Gartner的定義,SSE(Security Service Edge)為一組以云為中心的集成安全功能,保護(hù)對(duì)Web、云服務(wù)和私有應(yīng)用程序的訪問。功能包括訪問控制、威脅保護(hù)、數(shù)據(jù)安全、安全監(jiān)控以及通過基于網(wǎng)絡(luò)和基于API的集成實(shí)施的可接受使用控制。
SSE包括安全Web網(wǎng)關(guān)、云安全代理和零信任模型三個(gè)主要部分,對(duì)應(yīng)著解決不同的風(fēng)險(xiǎn):
安全Web網(wǎng)關(guān)有助于將員工連接到公共互聯(lián)網(wǎng),比如他們可能用于研究的網(wǎng)站,或不屬于企業(yè)官方SaaS應(yīng)用程序的云應(yīng)用程序;
云訪問安全代理將員工連接到Office 365和Salesforce等SaaS應(yīng)用程序;
零信任網(wǎng)絡(luò)訪問將員工連接到在本地?cái)?shù)據(jù)中心或云端運(yùn)行的私有企業(yè)應(yīng)用程序。
然而不同的SSE廠商可能針對(duì)上述某一個(gè)環(huán)節(jié),或者見長于某一個(gè)環(huán)節(jié)。目前海外SSE主要整合的能力包括安全網(wǎng)絡(luò)網(wǎng)關(guān)(SWG)、零信任網(wǎng)絡(luò)訪問(ZTNA)、云訪問安全代理(CASB)、數(shù)據(jù)丟失防護(hù)(DLP)等能力,但國內(nèi)云的建設(shè)相對(duì)來說也還處于早期階段,并沒有歐美國家這么完善。
▲圖源:斯元商業(yè)咨詢
因此,SSE的能力在當(dāng)前階段,應(yīng)該更多整合偏傳統(tǒng)、偏本地化的能力,例如流量檢測的探針能力、Web應(yīng)用防護(hù)能力以及資產(chǎn)漏洞掃描,終端管理等能力,這些能力相對(duì)來說才是中國客戶在目前階段更需要的能力。從這個(gè)角度來看,SSE需要通過云地協(xié)同的方式,云原生容器的能力,為客戶帶來低采購成本、快速部署、安全檢測與運(yùn)營閉環(huán)等價(jià)值。
今年,針對(duì)大模型,行業(yè)頭部廠商N(yùn)etskope率先轉(zhuǎn)向模型中的安全應(yīng)用,安全團(tuán)隊(duì)利用自動(dòng)化工具,持續(xù)監(jiān)控企業(yè)用戶試圖訪問哪些應(yīng)用程序(如ChatGPT)、如何訪問、何時(shí)訪問、從哪里訪問、以何種頻率訪問等。必須了解每個(gè)應(yīng)用程序?qū)M織構(gòu)成的不同風(fēng)險(xiǎn)等級(jí),并有能力根據(jù)分類和可能隨時(shí)間變化的安全條件,實(shí)時(shí)細(xì)化訪問控制策略。
▲圖源:Netskope官網(wǎng)
Netskope以安全插件的形式接入大模型,在演示中,當(dāng)操作者欲復(fù)制一段公司內(nèi)部財(cái)務(wù)數(shù)據(jù),讓ChatGPT幫忙形成表格時(shí),在發(fā)送之前,便會(huì)彈出警告欄,提示用戶。
▲圖源:Netskope官網(wǎng)
事實(shí)上,識(shí)別大模型中隱藏的風(fēng)險(xiǎn)比識(shí)別木馬、漏洞要困難得多,精確性確保系統(tǒng)只監(jiān)控和防止通過基于生成性人工智能的應(yīng)用程序上傳敏感數(shù)據(jù)(包括文件和粘貼的剪貼板文本),而不會(huì)通過聊天機(jī)器人阻止無害的查詢和安全任務(wù),這意味著識(shí)別不能一刀切,而是要基于語義理解和合理的標(biāo)準(zhǔn)進(jìn)行可機(jī)動(dòng)的變化。
④ 欺詐和反欺詐:數(shù)字水印和生物確認(rèn)技術(shù)
首先明確的是,AI詐騙人類和人類利用AI詐騙人類是兩碼事。
AI詐騙人類,主要是大模型的“教育”沒有做好,上述提到的英偉達(dá)“護(hù)欄技術(shù)”以及OpenAI的無監(jiān)督學(xué)習(xí)都是在AI Safety環(huán)節(jié),保障模型健康的方法。
但是,防止AI詐騙人類,基本和模型訓(xùn)練同步,是大模型公司的任務(wù)。
而人類利用AI技術(shù)詐騙,則處于整個(gè)網(wǎng)絡(luò)安全或者說社會(huì)安全階段,首先需要明確的是,技術(shù)對(duì)抗能夠解決的僅僅是一部分問題,仍然要靠監(jiān)管、立法等方式,控制犯罪位子。
目前,技術(shù)對(duì)抗有兩種方式,一是在生產(chǎn)端,在AI生成的內(nèi)容中加入數(shù)字水印,用來追蹤內(nèi)容來源;另一種則在應(yīng)用端,針對(duì)人臉等特異化的生物特征,進(jìn)行更準(zhǔn)確的識(shí)別。
數(shù)字水印能夠?qū)?biāo)識(shí)信息嵌入數(shù)字載體當(dāng)中,通過隱藏在載體中添加一些特定的數(shù)字代碼或信息,可確認(rèn)且判斷載體是否被篡改,為數(shù)字內(nèi)容提供一種不可見的保護(hù)機(jī)制。
目前,除了傳統(tǒng)數(shù)字水印的形式,也進(jìn)化出了基于深度學(xué)習(xí)的數(shù)字水印,采用深度神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)和嵌入數(shù)字水印,具有較強(qiáng)的抗破壞性和魯棒性。該技術(shù)可以在不損失原始圖像質(zhì)量的前提下,實(shí)現(xiàn)高強(qiáng)度、高容錯(cuò)的數(shù)字水印嵌入,同時(shí)能夠有效抵御圖像處理攻擊和隱寫分析攻擊,是下一個(gè)比較大的技術(shù)方向。
而在應(yīng)用端,目前合成人臉視頻是最為常用的“詐騙手段”;贒eepFake(深度偽造技術(shù))的內(nèi)容檢測平臺(tái)是現(xiàn)階段的解決方案之一。
今年1月初,英偉達(dá)便發(fā)布了一款名為FakeCatcher的軟件,號(hào)稱可以查出某個(gè)視頻是否為深度偽造,準(zhǔn)確度高達(dá)96%。
據(jù)介紹,英特爾的 FakeCatcher 的技術(shù)可以識(shí)別血液在體內(nèi)循環(huán)時(shí)靜脈顏色的變化。然后從面部收集血流信號(hào),并通過算法進(jìn)行翻譯,以辨別視頻是真實(shí)的還是深度偽造的。如果是真人,血液時(shí)刻在體內(nèi)循環(huán),皮膚上的靜脈就會(huì)有周期性的深淺變化,深度偽造的人就沒有。
▲圖源Real AI官網(wǎng)
國內(nèi)也有基于類似技術(shù)原理的創(chuàng)業(yè)公司“Real AI”,通過辨識(shí)偽造內(nèi)容和真實(shí)內(nèi)容的表征差異性、挖掘不同生成途徑的深度偽造內(nèi)容一致性特征。
2. AI for 安全:成熟產(chǎn)業(yè)鏈中的新機(jī)會(huì)
與安全 for AI 還是一個(gè)相對(duì)新興的產(chǎn)業(yè)機(jī)會(huì)不同,“AI for 安全”更多是在原有的安全體系上做的改造和加固。
打響AI for 安全第一槍的仍然是微軟,3月29日,在為Office套件提供AI驅(qū)動(dòng)的Copilot助手后,微軟幾乎立刻就將注意力轉(zhuǎn)到了安全領(lǐng)域,推出了基于GPT-4的生成式AI解決方案Microsoft Security Copilot。
Microsoft Security Copilot主打的仍然是一個(gè)AI副駕駛的概念,它并不涉及新的安全解決方案,而是將原來的企業(yè)安全監(jiān)測、處理通過AI完全自動(dòng)化的過程。
▲圖源微軟官網(wǎng)
從微軟的演示上看,Security Copilot可以將原來耗時(shí)幾小時(shí),甚至幾十小時(shí)的勒索軟件事件處理降至秒級(jí),大大提高企業(yè)安全的處理效率。
微軟AI安全架構(gòu)師Chang Kawaguchi Kawaguchi曾提到:“攻擊數(shù)量正不斷增加,但防御方的力量卻分散在多種工具和技術(shù)當(dāng)中。我們認(rèn)為Security Copilot有望改變其運(yùn)作方式,提高安全工具和技術(shù)的實(shí)際成效。”
目前,國內(nèi)安全公司奇安信、深信服也在跟進(jìn)這方面的發(fā)展。目前這塊業(yè)務(wù)在國內(nèi)還處于萌芽階段,兩家企業(yè)也還沒有公布具體的產(chǎn)品,但它們能夠及時(shí)反應(yīng)過來,跟上國際巨頭的腳步已經(jīng)實(shí)屬不易。
4月份,谷歌云在RSAC 2023上推出了Security AI Workbench,這是基于谷歌安全大模型Sec-PaLM的可拓展平臺(tái)。企業(yè)可以通過Security AI Workbench接入各種類型的安全插件來解決特定的安全問題。
▲圖源:Google官網(wǎng)
如果說微軟Security Copilot是一套封裝的私人安全助手,谷歌的Security AI Workbench就是一套可定制、可拓展的AI安全工具箱。
總之,一個(gè)大的趨勢是,用AI建立一套自動(dòng)化的安全運(yùn)營中心,以此來對(duì)抗迅猛變化的網(wǎng)絡(luò)安全形式將成為一種常態(tài)。
在頭部大廠之外,AI大模型在安全領(lǐng)域的應(yīng)用也正在進(jìn)入毛細(xì)血管。比如,國內(nèi)許多安全企業(yè)開始運(yùn)用AI改造傳統(tǒng)的安全產(chǎn)品。
比如,深信服提出“AI+云業(yè)務(wù)”的邏輯,推出AIOps智能維一體化技術(shù),通過采集桌面云的日志,鏈路和指標(biāo)數(shù)據(jù),執(zhí)行故障預(yù)測,異常檢測,關(guān)聯(lián)推理等算法,為用戶提供智能分析服務(wù)。山石科技將AI能力融合到正負(fù)反饋的機(jī)器學(xué)習(xí)能力方面,還有像安博通這樣的企業(yè),將AI運(yùn)用到安全運(yùn)營的痛點(diǎn)分析等等。
在國外,開源安全供應(yīng)商Armo發(fā)布了ChatGPT集成,旨在通過自然語言為Kubernetes集群構(gòu)建自定義安全控制。云安全供應(yīng)商Orca Security發(fā)布了自己的ChatGPT擴(kuò)展,能夠處理解決方案生成的安全警報(bào),并為用戶提供分步修復(fù)說明以管理數(shù)據(jù)泄露事件。
當(dāng)然,作為一個(gè)成熟且龐大的產(chǎn)業(yè)鏈,AI for 安全的機(jī)遇遠(yuǎn)遠(yuǎn)不止這些,我們?cè)谶@里也只是拋磚引玉,安全領(lǐng)域更深、更大的機(jī)會(huì)仍然需要戰(zhàn)斗在安全一線的公司通過實(shí)踐去摸索。
更重要的是,希望以上公司能夠腳踏實(shí)地,不忘初心。把自己海闊天空的夢想,付諸于一步又一步的實(shí)際行動(dòng)中,不是造概念,迎風(fēng)口,更不要一股腦迎合資本與熱錢,留下一地雞毛。
結(jié)語
因特網(wǎng)誕生后的10年里,網(wǎng)絡(luò)安全的概念和產(chǎn)業(yè)鏈才開始有了雛形。
而今天,大模型問世后半年,大模型安全、防止詐騙就已經(jīng)成為了街頭巷尾的談資。這是技術(shù)加速進(jìn)步和迭代后,內(nèi)置在“人類意識(shí)”中的一種防御機(jī)制,隨著時(shí)代的發(fā)展,將更快速的觸發(fā)和反潰
如今的混亂和恐慌并不可怕,它們正是下一個(gè)時(shí)代的階梯。
正如《人類簡史》中所講:人類的行為并不總是基于理性,我們的決策往往受到情緒和直覺的影響。但這卻正是在進(jìn)步和發(fā)展中,最重要的一環(huán)。