展會信息港展會大全

微軟稱其人工智能可以像人一樣描述圖像
來源:互聯(lián)網(wǎng)   發(fā)布日期:2020-10-16 08:27:04   瀏覽:18223次  

導讀:準確地描述圖像,而不僅僅是像一個毫無頭緒的機器人,長期以來一直是人工智能的目標。2016年,谷歌表示,其人工智能可以為圖像添加幾乎與人類一樣的字幕,準確率為94%,F(xiàn)在微軟說它已經(jīng)更進一步:研究人員已經(jīng)建立了一個比人類更精確的人工智能系統(tǒng),以至于...

準確地描述圖像,而不僅僅是像一個毫無頭緒的機器人,長期以來一直是人工智能的目標。2016年,谷歌表示,其人工智能可以為圖像添加幾乎與人類一樣的字幕,準確率為94%。現(xiàn)在微軟說它已經(jīng)更進一步:研究人員已經(jīng)建立了一個比人類更精確的人工智能系統(tǒng),以至于它現(xiàn)在位于nocaps圖像捕獲基準的排行榜首位。微軟聲稱,它比自2015年以來一直使用的圖像字幕模型好兩倍。

雖然這本身就是一個值得注意的里程碑,但微軟并不只是將這項技術獨家。它現(xiàn)在提供新的字幕模型作為Azure認知服務的一部分,這樣任何開發(fā)者都可以把它帶到他們的應用程序中。今天,它也可以在Seeing AI中使用,這是微軟為盲人和視障用戶開發(fā)的應用程序,可以幫助他們了解周圍的世界。今年晚些時候,字幕模式還將改進您在PowerPoint中用于Web、Windows和Mac的演示文稿,它還會在桌面平臺上的Word和Outlook中彈出。

Azure AI首席副總裁埃里克博伊德說:“[圖像字幕]是人工智能中最棘手的問題之一。它不僅代表著理解場景中的物體,還代表了它們是如何交互的,以及如何描述它們。”優(yōu)化字幕技術可以幫助每一個用戶:它讓你更容易在搜索引擎中找到你正在尋找的圖像。對于視障用戶來說,它可以讓網(wǎng)絡和軟件導航變得非常好。

看到公司吹噓他們的人工智能研究創(chuàng)新并不少見,但這些發(fā)現(xiàn)迅速部署到運輸產(chǎn)品中的情況要罕見得多。Azure AI認知服務CTO黃學冬,考慮到對用戶的潛在好處,力推將其快速整合到Azure中。他的團隊用標有特定關鍵字的圖像訓練了這個模型,這幫助它提供了一種大多數(shù)人工智能框架所沒有的視覺語言。通常,這些類型的模型使用圖像和完整的字幕進行訓練,這使得模型更難了解特定對象是如何交互的。

黃學冬在一篇博客文章中說:“這種視覺詞匯的預訓練本質上是訓練系統(tǒng)所需的教育;我們正在努力教育這種運動記憶。”這就是為什么這個新模型在nocaps基準中占據(jù)了一席之地,該基準專注于確定人工智能對他們以前從未見過的圖像的字幕能力有多好。

但是,雖然打破基準意義重大,但對微軟新模式的真正考驗將是它在現(xiàn)實世界中的運作方式。根據(jù)Boyd的說法,看到人工智能開發(fā)人員Saqib Shaik,他自己也是一個盲人,也在微軟推動更好的可訪問性,他將其描述為比他們之前提供的產(chǎn)品有了戲劇性的改進,F(xiàn)在微軟已經(jīng)建立了一個新的里程碑,看看谷歌和其他研究人員的競爭模型如何競爭將是一件有趣的事情。


贊助本站

相關內容
AiLab云推薦
推薦內容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港