4月25日26日,2021人工智能與機器人國際研討會在香港中文大學(xué)(深圳)舉行,本次大會以“歷史轉(zhuǎn)折期的科技”為主題,匯集了20余位中外院士和60余位業(yè)界專家,重點圍繞人工智能和機器人技術(shù)、5G、數(shù)字技術(shù)等議題分享研究成果、研討技術(shù)難題和交換創(chuàng)新見解,意在為我國目前在人工智能與機器人領(lǐng)域面臨的技術(shù)挑戰(zhàn)和關(guān)鍵應(yīng)用難題尋找解決方案。
26日上午,中國工程院院士潘云鶴出席會議并發(fā)表《視覺智能的五個重要問題》的主題演講。潘云鶴在大會上討論了視覺知識表達、視覺識別、視覺形象思維模擬、視覺知識的學(xué)習(xí)和多重知識表達等五個重要問題。進一步指出視覺知識的獨特優(yōu)點是具有形象的綜合生成能力、時空演化能力和形象顯示能力。這些正是字符知識和深度神經(jīng)網(wǎng)絡(luò)所缺乏的。因此,視覺知識和多重知識表達的研究是發(fā)展新的視覺智能的關(guān)鍵。
視覺智能的發(fā)展對人工智能至關(guān)重要
“第一次掀起人工智能浪潮的時候,視覺智能起到很重要的作用。”潘云鶴說,原因在于圖象識別技術(shù)不僅對人臉、文字、指紋、醫(yī)學(xué)圖像的識別準(zhǔn)確率高,而且可以應(yīng)用廣泛,例如智能汽車、安全監(jiān)控、智能交通等都需要視覺智能的技術(shù)支撐。
中國科學(xué)技術(shù)發(fā)展戰(zhàn)略研究院將2018年中美人工智能企業(yè)按照技術(shù)因素進行分類統(tǒng)計。共計分為九類,其中三類是基礎(chǔ)性的技術(shù),六類是專業(yè)性的技術(shù),而其中有三分之二與視覺相關(guān),三分之一與語言相關(guān)。
中國信息通訊研究院對工業(yè)人工智能也做了進一步分析,分析了20多個工業(yè)人工智能的模型,最后發(fā)現(xiàn)它們主要使用兩類技術(shù),一類是深度學(xué)習(xí),一類是知識圖譜。而且來自底層的都用深度學(xué)習(xí),來自高層的都用知識圖譜。原因很簡單,知識圖譜滿足不了底層要處理的視覺信息;而高層大量處理的是語言信息、文字信息,能夠使用知識圖譜。所以從這些人工智能的應(yīng)用和人工智能的產(chǎn)業(yè)來看,視覺都非常重要。
有心理學(xué)家做過一個實驗,結(jié)果發(fā)現(xiàn)人的大腦雖然看不到圖像,但依然存在很多形象。這些視覺記憶在認知心理學(xué)叫做“視覺心象”。“我過去曾牽頭一個重點項目,發(fā)現(xiàn)視覺心象實際上是形象識別的一個重要支撐。”潘云鶴說。
大會現(xiàn)場
視覺智能的5個重要問題
在研究視覺智能時,有5個重要的問題。第一個問題是視覺知識表達。認知心理學(xué)實驗證明了視覺知識不同于語言知識的特征,能夠表達對象的空間形狀、大孝色彩和紋理的關(guān)系,還能夠表達對象的動作、速度和時間關(guān)系。
第二個問題是視覺識別。在人工智能誕生之初,模式識別就已經(jīng)成為重要的研究領(lǐng)域。圖像和視頻識別是模式識別中最重要的一個部分。早期的圖像識別是用數(shù)字圖像處理技術(shù)進行從低到高、從局部到整體的識別。但是近幾年深度神經(jīng)網(wǎng)絡(luò)崛起后有了其他的方式。深度神經(jīng)網(wǎng)絡(luò)有諸多優(yōu)點,比如它能夠識別圖像,能夠通過標(biāo)識的數(shù)據(jù)進行學(xué)習(xí)。
第三個問題是視覺形象思維模擬。視覺形象怎么變化,變化怎么模擬,實際上都是人類在工程活動中十分重要的部分。因為人類進行一項工程活動之前要進行設(shè)計和規(guī)劃,有的實際規(guī)劃需要進行模擬,然后在實際規(guī)劃過程中對其進行修改。
潘云鶴演講現(xiàn)場
第四個問題是視覺知識的學(xué)習(xí)。目前,計算機視覺已經(jīng)開始研究從圖像到圖形的轉(zhuǎn)化方式,計算機視覺除了設(shè)備以外,很重要的內(nèi)容就是重建,我們希望它更多的是進行知識和概念的重建。
第五個問題是多重知識表達。人工智能通過多種知識表達來解決問題,有知識圖譜型、圖像型、心象型等。所以“人工智能2.0”提出兩個新的概念,分別是跨媒體智能和大數(shù)據(jù)智能,目的就是推動多種知識表達的同時表達、同時使用。“這可能將是人工智能未來510年中發(fā)展的一個重要的方向。”潘云鶴說。
“對于這5個問題,視覺知識的表達和多重知識的表達最重要,這兩個問題解決好了,另外三個問題更容易得到解決。”潘云鶴說,視覺知識的獨特性、形象的綜合生成能力、時空比較能力和形象顯示能力,這些正是人工智能所欠缺的。視覺知識和多重知識表達是一塊荒蕪、寒濕而肥沃的“北大荒”,也是一塊充滿希望值得勇探的“無人區(qū)”。
大會現(xiàn)場
【記者】金永勝
【作者】 金永勝
【來源】 南方報業(yè)傳媒集團南方+客戶端