來(lái)源丨數(shù)據(jù)實(shí)戰(zhàn)派
知識(shí)圖譜(KGs)是最近非常熱門(mén)的一個(gè)概念。它可以組織結(jié)構(gòu)化的世界知識(shí),并可以整合從多個(gè)數(shù)據(jù)來(lái)源中提取到的信息。知識(shí)圖譜已經(jīng)在自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)提取到的信息表示方面發(fā)揮重要作用,比如將知識(shí)圖譜表示的領(lǐng)域知識(shí)輸入到機(jī)器學(xué)習(xí)模型中,就可以產(chǎn)生更好的預(yù)測(cè)結(jié)果。
因此,這篇文章的目的是:
(a)解釋知識(shí)圖譜的基本術(shù)語(yǔ)、概念和用法
(b)介紹知識(shí)圖譜的應(yīng)用為何在最近突然流行起來(lái)
(c)將知識(shí)圖譜置于人工智能的整體環(huán)境中介紹
在閱讀其他相關(guān)的報(bào)告或關(guān)注知識(shí)圖譜有關(guān)討論之前,這篇文章是一個(gè)不錯(cuò)的入門(mén)選擇。
知識(shí)圖譜的定義
有向標(biāo)記圖記為一個(gè)四元組 G=(N,E,L,f),其中 N 是節(jié)點(diǎn)的集合,E N×N 是邊的集合,L 是標(biāo)簽集合,f:EL 是一個(gè)從邊到標(biāo)簽的函數(shù)。標(biāo)簽 B 與邊 E=(A,C) 可以看作是一個(gè)三元組 (A,B,C),如圖 1 所示。
圖 1 有向標(biāo)記圖中的一個(gè)三元組
知識(shí)圖譜是一個(gè)有向標(biāo)記圖,可以將具體含義與節(jié)點(diǎn)和邊聯(lián)系起來(lái)。任何東西都可以作為節(jié)點(diǎn),例如,人、公司、計(jì)算機(jī)等。邊用來(lái)描述節(jié)點(diǎn)之間的關(guān)系,例如,兩個(gè)人之間的友誼關(guān)系,公司和個(gè)人之間的客戶(hù)關(guān)系或兩臺(tái)計(jì)算機(jī)之間的網(wǎng)絡(luò)連接關(guān)系等等。
根據(jù)應(yīng)用的具體需要,有向標(biāo)記圖的使用方式多種多樣。例如有向標(biāo)記圖中的節(jié)點(diǎn)是人,而邊描述了他 / 她與父母的關(guān)系,那么這個(gè)有向標(biāo)記圖也可以叫做數(shù)據(jù)圖。如果有向標(biāo)記圖中的節(jié)點(diǎn)是物體類(lèi)別(例如,書(shū)、課本等),邊描述子類(lèi)之間的關(guān)系,那該有向標(biāo)記圖也被稱(chēng)為分類(lèi)。還有的數(shù)據(jù)模型會(huì)給定一個(gè)三元組 (A,B,C),其中 A、B、C 分別稱(chēng)為該三元組的主語(yǔ)、謂語(yǔ)和賓語(yǔ)。
應(yīng)用程序可以利用知識(shí)圖譜這種數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)信息。信息通過(guò)人工輸入、自動(dòng)和半自動(dòng)的方法組合添加到知識(shí)圖譜中。無(wú)論采用哪種方法輸入知識(shí)信息,只要記錄的信息能被人們輕松理解和驗(yàn)證就好。
許多對(duì)圖的計(jì)算可以簡(jiǎn)化為導(dǎo)向。例如,想在友誼知識(shí)圖譜中找到 A 這個(gè)人朋友的朋友,就可以在這張圖中先找到與 A 標(biāo)記為朋友關(guān)系的節(jié)點(diǎn) B,然后通過(guò)遞歸就可以找到所有和 B 有朋友關(guān)系的節(jié)點(diǎn) C。
知識(shí)圖譜的最新應(yīng)用
使用有向標(biāo)記圖這種數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)信息,以及使用圖算法來(lái)處理這些信息并不是什么新鮮事。
有向圖表示法已經(jīng)在許多計(jì)算機(jī)科學(xué)領(lǐng)域中都有所應(yīng)用,例如,數(shù)據(jù)流圖、二進(jìn)制決策圖、狀態(tài)圖等等。我們主要考慮了知識(shí)圖譜中最為流行的兩個(gè)具體應(yīng)用:通過(guò)互聯(lián)網(wǎng)整合知識(shí)、整合企業(yè)中的數(shù)據(jù)。討論這些應(yīng)用的同時(shí),也會(huì)突出講解使用知識(shí)圖譜時(shí)的創(chuàng)新和不同之處。
通過(guò)互聯(lián)網(wǎng)整合知識(shí)
在谷歌上搜索 “蘇黎世 溫特圖爾” 的結(jié)果顯示在圖 2 的左側(cè),而維基百科的相關(guān)搜索結(jié)果顯示在右側(cè),右側(cè)的頁(yè)面也被稱(chēng)為信息框。
圖 2 在網(wǎng)絡(luò)搜索結(jié)果中使用知識(shí)圖譜
從搜索結(jié)果中可以看出,溫特圖爾位于瑞士,其海拔高度為 430 米等信息。這些信息是直接從溫特圖爾的維基百科頁(yè)面信息框中提取的。而信息框中的數(shù)據(jù)是通過(guò)查詢(xún)一個(gè)名為維基數(shù)據(jù)(Wikidata)的知識(shí)圖譜來(lái)獲得的。
接下來(lái)要討論的是來(lái)自知識(shí)圖譜的數(shù)據(jù)是如何增強(qiáng)網(wǎng)絡(luò)搜索能力的。
維基百科頁(yè)面還列出了溫特圖爾的孿生城市:兩個(gè)在瑞士,一個(gè)在捷克共和國(guó),一個(gè)在奧地利。加利福尼亞州的安大略市在維基百科上有一個(gè)名為 “安大略,加利福尼亞” 的頁(yè)面,它將溫特圖爾列為其姐妹城市。而姐妹城市和孿生城市的關(guān)系是對(duì)等的,因此,如果城市 A 是另一個(gè)城市 B 的姐妹(孿生)城市,那么 B 也一定是 A 的姐妹(孿生)城市。
由于 “姐妹城市” 和 “孿生城市” 都是維基百科中的一種標(biāo)題,兩者之間并沒(méi)有明確的定義或關(guān)系,所以很難發(fā)現(xiàn)兩者的差異。
與此相反,Wikidata 在對(duì)溫特圖爾的表述中,有一個(gè)名為孿生行政機(jī)構(gòu)的關(guān)系,其中包括安大略市。在知識(shí)圖譜中把這種關(guān)系定義為對(duì)稱(chēng)關(guān)系,所以 Wikidata 在安大略市的頁(yè)面中也會(huì)自動(dòng)包括溫特圖爾。
因此,Wikidata 的策劃人通過(guò)使用知識(shí)圖譜進(jìn)行存儲(chǔ)和推理,解決了識(shí)別等價(jià)關(guān)系的問(wèn)題。
如果可以把 Wikidata 的知識(shí)圖譜完全整合到維基百科中,就可以消除例子中提到的缺失鏈接的情況。我們可以在圖 3 中直觀地看出溫特圖爾和安大略市間的雙向關(guān)系。另外,圖 3 的知識(shí)圖譜中還顯示了與溫特圖爾和安大略市相連的其他對(duì)象及關(guān)系。
圖 3 Wikidata 的一個(gè)知識(shí)圖譜
Wikidata 的數(shù)據(jù)來(lái)自于幾個(gè)獨(dú)立的提供者,如美國(guó)國(guó)會(huì)圖書(shū)館。通過(guò)使用溫特圖爾的 Wikidata 標(biāo)識(shí),美國(guó)國(guó)會(huì)圖書(shū)館可以輕松地將發(fā)布的信息與 Wikidata 中關(guān)于溫特圖爾和溫特圖爾的其他信息聯(lián)系起來(lái)。通過(guò)在 Schema.Org 中發(fā)布使用中的關(guān)系,Wikidata 可以很容易建立起鏈接關(guān)系。
在 Schema.Org 中還可以查到一些關(guān)系列表或者叫關(guān)系詞匯表,這些列表可以帶來(lái)兩個(gè)好處。
首先,用多個(gè)數(shù)據(jù)來(lái)源的共同關(guān)系,可以更容易確定跨越多個(gè)數(shù)據(jù)集的查詢(xún)結(jié)果。而如果不使用這種共同關(guān)系,就需要確定它們之間的語(yǔ)義關(guān)系并進(jìn)行適當(dāng)翻譯。舉一個(gè)跨越多個(gè)來(lái)源進(jìn)行查詢(xún)的例子:在地圖上顯示死于溫特圖爾的人的出生城市?搜索引擎可以使用這個(gè)查詢(xún)?nèi)z索知識(shí)圖譜的信息,并返回類(lèi)似圖 2 那樣的最終結(jié)果。在返回的搜索結(jié)果中使用結(jié)構(gòu)化信息是目前主流搜索引擎的一個(gè)標(biāo)準(zhǔn)特性和發(fā)展趨勢(shì)。
最新版本的 Wikidata 有超過(guò) 9000 萬(wàn)個(gè)對(duì)象,這些對(duì)象之間有超過(guò) 10 億個(gè)關(guān)系。Wikidata 通過(guò)獨(dú)立數(shù)據(jù)提供者發(fā)布的 414 種語(yǔ)言的 4872 個(gè)不同圖錄來(lái)建立它們之間的聯(lián)系。
根據(jù)最近的統(tǒng)計(jì)結(jié)果顯示,31% 的網(wǎng)站,超過(guò) 1200 萬(wàn)的數(shù)據(jù)提供者正在使用 Schema.Org 的詞匯表來(lái)發(fā)布他們的網(wǎng)頁(yè)注釋。
所以,Wikidata 的知識(shí)圖譜到底有哪些特殊的創(chuàng)新之處?
首先,它是當(dāng)今規(guī)模最大的知識(shí)圖譜之一。
第二,盡管 Wikidata 是人為策劃的,但策劃的成本是由策劃者群體共同分擔(dān)的。
第三,Wikidata 中自動(dòng)提取到的一些數(shù)據(jù)信息,必須是容易理解并按照 Wikidata 的編輯策略進(jìn)行驗(yàn)證后才會(huì)使用。
第四,Schema.Org 中的詞匯表可以解決不同關(guān)系名稱(chēng)的語(yǔ)義定義問(wèn)題。
最后,Wikidata 主要用于提升網(wǎng)絡(luò)的搜索性能。盡管 Wikidata 還可以應(yīng)用在分析和可視化方面,但它在網(wǎng)絡(luò)上的成果卻是最令人矚目和容易理解的。
企業(yè)數(shù)據(jù)集成
圖 4 通過(guò)整合外部數(shù)據(jù)和公司內(nèi)部信息創(chuàng)建客戶(hù)的 360 度視圖
許多金融機(jī)構(gòu)希望通過(guò) 360 度全方位視角來(lái)更好地管理客戶(hù)關(guān)系,因?yàn)檫@種視圖可以把同一客戶(hù)的外部信息和內(nèi)部信息整合在一起。
例如,將來(lái)自財(cái)經(jīng)新聞的公開(kāi)信息、商業(yè)來(lái)源信息和策劃的供應(yīng)鏈關(guān)系數(shù)據(jù)與客戶(hù)的內(nèi)部信息整合起來(lái),就可以創(chuàng)建一個(gè) 360 度視圖。
下面我們舉例說(shuō)明該視圖的作用:
金融新聞報(bào)道說(shuō),因?yàn)榱餍胁〉脑?“Acma 零售公司” 申請(qǐng)破產(chǎn),因此許多與它相關(guān)的供應(yīng)商將面臨財(cái)務(wù)壓力。而這種壓力會(huì)通過(guò)供應(yīng)鏈進(jìn)行傳遞,引發(fā)其他客戶(hù)的財(cái)務(wù)困難。比如,如果作為 Acma 供應(yīng)商的 A 公司正面臨財(cái)務(wù)壓力,那么作為 A 公司供應(yīng)商的公司 B 也會(huì)經(jīng)歷這樣的壓力。這種供應(yīng)鏈關(guān)系是一個(gè)名為 Factset 的商業(yè)數(shù)據(jù)集中的一部分。在 360 度視圖中,將來(lái)自 Factset 的數(shù)據(jù)和金融新聞的數(shù)據(jù)與客戶(hù)內(nèi)部數(shù)據(jù)庫(kù)相結(jié)合。
由此產(chǎn)生的知識(shí)圖譜就能準(zhǔn)確地跟蹤 Acma 供應(yīng)鏈,識(shí)別出有不同收入風(fēng)險(xiǎn)的受壓供應(yīng)商和值得監(jiān)測(cè)的公司。
圖 5 全景視圖
為了創(chuàng)建客戶(hù)全方位視圖,業(yè)務(wù)分析師需要整合感興趣的關(guān)鍵實(shí)體、事件和關(guān)系。
由于知識(shí)圖譜模式具有可視化性,因此業(yè)務(wù)專(zhuān)家更容易明確他們的要求。之后通過(guò)知識(shí)圖譜引擎將來(lái)自不同來(lái)源的數(shù)據(jù)進(jìn)行加載。三元組的存儲(chǔ)格式允許只翻譯那些與業(yè)務(wù)領(lǐng)域?qū)<叶x的模式直接相關(guān)的關(guān)系。不過(guò)其余的數(shù)據(jù)仍然可以以三元組的形式加載,以減少將它們與定義的模式聯(lián)系起來(lái)的前期成本。并且知識(shí)圖譜使用的是通用的三元組模式,在分析過(guò)程中很容易寫(xiě)入需要改變的需求。
最后,存儲(chǔ)格式是由領(lǐng)域?qū)<宜x的模式?jīng)Q定的。
使用知識(shí)圖譜進(jìn)行數(shù)據(jù)整合有什么創(chuàng)新之處?
首先,一個(gè)通用的三元組模式大大降低了數(shù)據(jù)整合項(xiàng)目的啟動(dòng)成本。
其次,與調(diào)整傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)所需的工作相比,調(diào)整基于三元組的模式來(lái)應(yīng)對(duì)變化要更加容易。
最后,為了回答那些需要遍歷數(shù)據(jù)中圖關(guān)系的問(wèn)題,需要對(duì)現(xiàn)代知識(shí)圖譜引擎進(jìn)行高度優(yōu)化。比如圖 5 中的示例,圖引擎已經(jīng)內(nèi)置了一些操作來(lái)識(shí)別供應(yīng)鏈網(wǎng)絡(luò)中的核心供應(yīng)商、關(guān)系密切的客戶(hù)或供應(yīng)商群體以及不同供應(yīng)商的影響范圍。這些計(jì)算都是利用與領(lǐng)域無(wú)關(guān)的圖算法進(jìn)行的,比如 centrality detection 和 community detection。
正是因?yàn)橹R(shí)圖譜具有易于創(chuàng)建、可視化的模式以及內(nèi)置的分析操作等優(yōu)點(diǎn),所以漸漸成為將數(shù)據(jù)轉(zhuǎn)化為智能的一種主流方案。
人工智能中的知識(shí)圖譜
人工智能個(gè)體可以表示真實(shí)的世界,并用這種表示進(jìn)行推理。所以人工智能領(lǐng)域的核心問(wèn)題就是怎樣提出更好的表示,以允許個(gè)體存儲(chǔ)信息并推斷出結(jié)論。
我們先快速回顧一下之前 AI 對(duì)知識(shí)的表示,然后重點(diǎn)論述現(xiàn)代 AI 算法如何使用知識(shí)圖譜。
知識(shí)圖譜在人工智能領(lǐng)域中也被稱(chēng)為語(yǔ)義網(wǎng)絡(luò),人工智能個(gè)體很早就被用來(lái)存儲(chǔ)世界知識(shí),而現(xiàn)在已經(jīng)應(yīng)用到計(jì)算機(jī)科學(xué)的各個(gè)領(lǐng)域。當(dāng)然還有許多其他方法與語(yǔ)義網(wǎng)絡(luò)一起并行發(fā)展,比如概念圖(conceptual graphs)、描述邏輯(description logics,)和規(guī)則語(yǔ)言( rule languages)等等。某些情況下,概率圖模型可以獲取不確定的知識(shí)。
語(yǔ)義網(wǎng)絡(luò)方法的一個(gè)重要應(yīng)用是可以獲取知識(shí)主體( ontologies)。知識(shí)主體是知識(shí)圖譜中關(guān)系的正式描述。例如在圖 3 中,知識(shí)主體是由城市、國(guó)家等概念,部分、相同等關(guān)系以及它們的正式定義構(gòu)成的。通過(guò)這個(gè)知識(shí)主體,我們可以推斷出溫特圖爾位于瑞士。
為了使互聯(lián)網(wǎng)更加智能,萬(wàn)維網(wǎng)聯(lián)盟(W3C)對(duì)一系列知識(shí)表示語(yǔ)言進(jìn)行了標(biāo)準(zhǔn)化,如今已經(jīng)廣泛地應(yīng)用在互聯(lián)網(wǎng)上獲取知識(shí)。這些語(yǔ)言包括資源描述框架(RDF)、Web 本體語(yǔ)言(OWL)和語(yǔ)義 Web 規(guī)則語(yǔ)言(SWRL)。
我們剛才提到的 AI 的知識(shí)表示是以自上而下的方式驅(qū)動(dòng)的,也就是說(shuō)首先需要開(kāi)發(fā)一個(gè)世界化的模型,然后再使用邏輯推理算法得出結(jié)論。
而如今出現(xiàn)了很多自下而上的人工智能方法,即一種可以處理數(shù)據(jù)并從中得出結(jié)論和見(jiàn)解的算法。接下來(lái),我們將討論知識(shí)圖譜在兩個(gè)方向的發(fā)展:學(xué)習(xí)知識(shí)和向 AI 算法輸入領(lǐng)域知識(shí)。
將知識(shí)圖譜作為機(jī)器學(xué)習(xí)的輸出
盡管 Wikidata 已經(jīng)成功地吸引了一批標(biāo)注人群,但實(shí)際上人工創(chuàng)建知識(shí)圖譜的成本依舊很高。因此,我們非常期待可以通過(guò)自動(dòng)化的方式來(lái)創(chuàng)建知識(shí)圖譜。
幾年前,自然語(yǔ)言處理(NLP)和計(jì)算機(jī)視覺(jué)(CV)算法就可以很好地從文本中識(shí)別語(yǔ)言和從圖像中檢測(cè)目標(biāo)。
而隨著近幾年的發(fā)展,這些算法不僅僅實(shí)現(xiàn)了最基本的識(shí)別任務(wù),還可以提取并存儲(chǔ)對(duì)象之間的關(guān)系用于進(jìn)一步的處理和推理,F(xiàn)在,我們將討論如何通過(guò)自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)技術(shù)自動(dòng)創(chuàng)建知識(shí)圖譜。
圖 6 通過(guò)提取實(shí)體和關(guān)系創(chuàng)建的知識(shí)圖譜
從文本中提取實(shí)體和關(guān)系是自然語(yǔ)言處理的兩項(xiàng)基本任務(wù)。
提取的方法主要分為基于規(guī)則的方法和基于機(jī)器學(xué)習(xí)的方法;谝(guī)則的方法是利用句子的語(yǔ)法結(jié)構(gòu),或者指定好從輸入文本中識(shí)別實(shí)體和關(guān)系的方法。而機(jī)器學(xué)習(xí)的方法利用序列標(biāo)注算法或語(yǔ)言模型來(lái)提取實(shí)體和關(guān)系。
知識(shí)圖譜就是一種自然媒介,可以將文本中多個(gè)部分提取到的信息進(jìn)行相互關(guān)聯(lián)。例如從圖 6 的句子中,我們可以提取到阿爾伯特 - 愛(ài)因斯坦、德國(guó)、理論物理學(xué)家和相對(duì)論等實(shí)體;以及出生地、職業(yè)和發(fā)展等關(guān)系。一旦將該部分知識(shí)整合到更大的知識(shí)圖譜中,就可以使用邏輯推理獲得更多的鏈接(如圖中虛線(xiàn)所示)。
比如我們可以得到,理論物理學(xué)家是從事物理學(xué)研究的人、相對(duì)論是物理學(xué)的一個(gè)分支等等知識(shí)。
圖 7 通過(guò)計(jì)算機(jī)視覺(jué)技術(shù)中的物體和邊緣檢測(cè)得到的知識(shí)圖譜
計(jì)算機(jī)視覺(jué)的最終目標(biāo)是能夠完全理解圖像,包括正確地檢測(cè)物體,描述物體屬性并識(shí)別物體之間的關(guān)系。更好地理解圖像也可以為圖像檢索、問(wèn)答系統(tǒng)和機(jī)器人交互等應(yīng)用提供支持。
近年來(lái),在圖像分類(lèi)和目標(biāo)檢測(cè)領(lǐng)域上的研究取得了很大的進(jìn)展。計(jì)算機(jī)視覺(jué)算法大量使用機(jī)器學(xué)習(xí),如分類(lèi)、聚類(lèi)、最近鄰,以及循環(huán)神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)方法。
將圖 7 的左圖輸入圖像理解系統(tǒng),就會(huì)生成右側(cè)的知識(shí)圖譜。知識(shí)圖譜中的節(jié)點(diǎn)就是目標(biāo)檢測(cè)的輸出。目前計(jì)算機(jī)視覺(jué)的研究重點(diǎn)是開(kāi)發(fā)一種可以正確推斷物體之間關(guān)系的技術(shù),例如上圖中人拿著桶,馬從桶里吃東西等等。而右邊顯示的知識(shí)圖譜,可以為視覺(jué)問(wèn)答提供基矗
將知識(shí)圖譜作為機(jī)器學(xué)習(xí)的輸入
如果想讓機(jī)器學(xué)習(xí)算法表現(xiàn)得更好,就得結(jié)合領(lǐng)域知識(shí)。
而知識(shí)圖譜這種數(shù)據(jù)結(jié)構(gòu)就能很好地捕獲領(lǐng)域知識(shí),但機(jī)器學(xué)習(xí)算法需要符號(hào)或離散結(jié)構(gòu)的輸入。所以首先要將知識(shí)圖譜轉(zhuǎn)換成數(shù)字形式,比如使用詞嵌入或圖嵌入方法就可以將符號(hào)輸入轉(zhuǎn)換為數(shù)字形式。
詞嵌入最初是為了計(jì)算單詞之間的相似度而出現(xiàn)的。為了理解詞嵌入,可以看以下幾組句子:
I like knowledge graphs.
I like databases.
I enjoy running.
我們計(jì)算上面句子中一個(gè)單詞挨著另一個(gè)單詞出現(xiàn)的頻率,并記錄在矩陣中。
例如,單詞 I 在單詞 like 旁邊出現(xiàn)了兩次,在單詞 enjoy 旁邊出現(xiàn)一次。因此,這兩個(gè)單詞次數(shù)分別計(jì)為 2 和 1,其他單詞為 0。我們可以用類(lèi)似方式計(jì)算其他單詞,結(jié)果如表 1 所示。通常這種矩陣被稱(chēng)為詞共現(xiàn)次數(shù)(word co-occurrence counts),每個(gè)單詞的含義由對(duì)應(yīng)行中的詞向量表示。所以可以通過(guò)計(jì)算單詞對(duì)應(yīng)向量之間的相似度來(lái)表示單詞之間的相似度。但實(shí)際上,我們感興趣的文本可能包含數(shù)百萬(wàn)個(gè)單詞,從而得到一個(gè)稀疏矩陣。
所以我們需要使用線(xiàn)性代數(shù)技術(shù)(例如奇異值分解)來(lái)降低矩陣的維數(shù),使其有緊湊的表示。由此產(chǎn)生的對(duì)應(yīng)詞的向量稱(chēng)為詞嵌入,目前常用的典型詞嵌入向量的長(zhǎng)度為 200。
表 1 共現(xiàn)次數(shù)矩陣
句子是由單詞序列構(gòu)成的,而詞嵌入是計(jì)算單詞在句子中的共現(xiàn)次數(shù)。我們可以將這一思想推廣到圖的節(jié)點(diǎn)嵌入中,方法是:(a)使用隨機(jī)游走遍歷圖得到一條路徑,(b)通過(guò)重復(fù)遍歷圖獲得一組路徑,(c)就像計(jì)算單詞在句子中的共現(xiàn)矩陣一樣,計(jì)算節(jié)點(diǎn)在這些路徑上的共現(xiàn)次數(shù),(d)計(jì)算出的共現(xiàn)次數(shù)矩陣每一行對(duì)應(yīng)一個(gè)節(jié)點(diǎn)的向量,(e)采用合適的降維技術(shù)獲得維度更小的向量,這稱(chēng)為節(jié)點(diǎn)嵌入。
圖嵌入就是將整個(gè)圖編碼成一個(gè)向量。有很多方法可以計(jì)算圖嵌入,但最簡(jiǎn)單的是為圖中的每個(gè)節(jié)點(diǎn)添加節(jié)點(diǎn)嵌入向量,以獲得表示整個(gè)圖的向量。
我們用詞嵌入為例子,來(lái)解釋圖嵌入。是因?yàn)閺母旧蟽烧叩哪繕?biāo)是相似的:詞嵌入捕獲詞的含義并可以計(jì)算單詞之間的相似性,而節(jié)點(diǎn)嵌入捕獲圖中節(jié)點(diǎn)的含義并計(jì)算節(jié)點(diǎn)之間的相似性。而且用來(lái)計(jì)算它們相似性的方法也很類(lèi)似。
詞嵌入和圖嵌入方法是為了給機(jī)器學(xué)習(xí)算法提供符號(hào)輸入。
詞嵌入方法常用于學(xué)習(xí)語(yǔ)言模型,來(lái)預(yù)測(cè)在已知單詞序列情況下,下一個(gè)最有可能出現(xiàn)的單詞。而更高級(jí)的應(yīng)用是將詞嵌入與知識(shí)圖譜一起使用,例如,只要知識(shí)圖譜將頻率較低的單詞編碼為頻率較高詞的下義詞,那么頻率較低的單詞就可以重復(fù)使用頻率高單詞的詞嵌入向量。比如由朋友關(guān)系圖譜計(jì)算出的圖嵌入,就可以直接用來(lái)推薦新朋友。更高級(jí)的圖嵌入用法就是鏈接預(yù)測(cè),比如可以在公司圖譜上使用鏈接預(yù)測(cè)來(lái)識(shí)別潛在新客戶(hù)。
總結(jié)
在計(jì)算機(jī)科學(xué)的各個(gè)領(lǐng)域中,都有對(duì)離散數(shù)學(xué)基本結(jié)構(gòu) 有向標(biāo)記圖的應(yīng)用。
在人工智能中最常見(jiàn)的就是將有向標(biāo)記圖作為數(shù)據(jù)圖的形式使用,在數(shù)據(jù)集中則是以分類(lèi)法( taxonomies)和知識(shí)主體(ontologies)的形式出現(xiàn)的。一般來(lái)說(shuō),這種應(yīng)用的規(guī)模比較小,并且是通過(guò)自上而下的設(shè)計(jì)和人工知識(shí)工程創(chuàng)建的。
與經(jīng)典知識(shí)圖譜相比,現(xiàn)代知識(shí)圖譜的特殊在于規(guī)模性、自下而上的發(fā)展和多種模式構(gòu)建方式。
比如早期的人工智能語(yǔ)義網(wǎng)絡(luò)就從未達(dá)到過(guò)當(dāng)今知識(shí)圖譜的規(guī)模和程度。因?yàn)楫?dāng)時(shí)難以構(gòu)思一個(gè)自上而下的數(shù)據(jù)集成方案,也無(wú)法理解機(jī)器學(xué)習(xí)的數(shù)據(jù)驅(qū)動(dòng)本質(zhì),所以不得不采用自下而上的方法創(chuàng)建知識(shí)圖譜。而現(xiàn)代知識(shí)圖譜的創(chuàng)建,則大量使用自動(dòng)化技術(shù)和眾包來(lái)補(bǔ)充人工知識(shí)工程。
最近,上述這兩種方法有漸漸融合的趨勢(shì),重新確定了經(jīng)典知識(shí)圖譜理論和算法的重要性。
即使使用自下而上的方式創(chuàng)建知識(shí)圖譜,仍然要重視模式的設(shè)計(jì)和語(yǔ)義定義。雖然自動(dòng)化技術(shù)可能在某些步驟中可以加快創(chuàng)建知識(shí)圖譜,但人工驗(yàn)證和監(jiān)督仍然是必不可少的。利用經(jīng)典知識(shí)圖譜技術(shù)、機(jī)器學(xué)習(xí)、眾包和可擴(kuò)展計(jì)算等現(xiàn)代工具的協(xié)同作用,已經(jīng)開(kāi)辟了一個(gè)引人探索的新領(lǐng)域。
來(lái)源丨數(shù)據(jù)實(shí)戰(zhàn)派
關(guān)于騰訊AI加速器
騰訊AI加速器是騰訊產(chǎn)業(yè)加速器的重要組成部分。其背靠騰訊產(chǎn)業(yè)生態(tài)投資,依托騰訊AI實(shí)驗(yàn)室矩陣的核心技術(shù),騰訊云的平臺(tái)、計(jì)算能力以及豐富的應(yīng)用場(chǎng)景,為入選項(xiàng)目提供課程、技術(shù)、資金、生態(tài)、品牌等層面的扶持;并與入選項(xiàng)目共同打造行業(yè)解決方案,推動(dòng)AI技術(shù)在產(chǎn)業(yè)中的應(yīng)用落地。
AI加速器已經(jīng)舉辦四期,過(guò)往三期在一年時(shí)間的加速中都取得了非常不錯(cuò)的成績(jī)。騰訊AI加速器三期成員經(jīng)過(guò)一年期加速奔跑,60%企業(yè)獲得新一輪融資,全員與騰訊達(dá)成多層次聯(lián)動(dòng),涉及50+產(chǎn)品及業(yè)務(wù)合作。在前兩期AI加速器中,從全球2000+項(xiàng)目中甄選出的65個(gè)項(xiàng)目,整體估值662億+,形成行業(yè)解決方案50+。
騰訊AI加速器四期自2019年9月啟動(dòng)以來(lái),吸引全球超1000家優(yōu)質(zhì)AI企業(yè)報(bào)名,復(fù)試首次舉辦騰訊產(chǎn)業(yè)加速器“AI+開(kāi)放日”,助力企業(yè)鏈接更多合作商機(jī)。最終TOP40入選名單于2021年1月21日出爐,入圍率僅4%,聚焦垂直領(lǐng)域AI應(yīng)用場(chǎng)景,覆蓋工業(yè)、企業(yè)服務(wù)、文旅、零售、醫(yī)療、政務(wù)、出行、農(nóng)業(yè)等11大行業(yè)。騰訊AI加速器四期希望與優(yōu)秀的AI企業(yè)一起,加速推進(jìn)新基建在AI領(lǐng)域落地。