陳奇杰 任曉寧/文 11月18日,智能硬件創(chuàng)業(yè)公司Rokid發(fā)布人工智能(AI)和增強(qiáng)現(xiàn)實(AR)眼鏡產(chǎn)品Rokid Glasses。
Rokid Glasses的形態(tài)與普通眼鏡相似,其通過攝像頭支持高清拍照和視頻錄制功能。該產(chǎn)品還整合了阿里巴巴旗下的通義千問大模型,具備物體識別、文字翻譯、數(shù)學(xué)題解答等能力。
據(jù)經(jīng)濟(jì)觀察網(wǎng)不完全統(tǒng)計,自今年10月以來,至少有小度、小米、Rokid、創(chuàng)業(yè)公司致敬未知等4家國內(nèi)廠商,已發(fā)布或者被傳出計劃推出AI眼鏡。這讓AI眼鏡成了目前國內(nèi)智能可穿戴領(lǐng)域的新風(fēng)口。
小度方面稱,該公司跨行研制AI眼鏡的原因是,眼鏡作為人的第一視角設(shè)備,在搭載了攝像頭、麥克風(fēng)、傳感器等組件后,進(jìn)一步具備了捕捉多模態(tài)信息的能力,也成了高效便捷的人機(jī)交互入口。同時,大模型在多模態(tài)、強(qiáng)化學(xué)習(xí)、語音識別等能力上的進(jìn)步,為AI重塑智能眼鏡帶來了更大的想象空間。
不過,致敬未知前產(chǎn)品經(jīng)理王永森告訴經(jīng)濟(jì)觀察網(wǎng),對業(yè)內(nèi)人士來說,AR眼鏡結(jié)合大模型的技術(shù)門檻并不高,但是很難把AI眼鏡做好。AI眼鏡在調(diào)用大模型時,如何低延時、準(zhǔn)確地理解用戶的自然對話意圖,是目前的一個技術(shù)難點(diǎn)。
為什么是AI眼鏡
2023年9月,美國科技巨頭Meta發(fā)布了和美國眼鏡品牌雷朋聯(lián)合研制的AI眼鏡Meta Ray-Ban。該產(chǎn)品的起售價為299美元(約2167元人民幣),在發(fā)售4個月后的銷量超過100萬臺。
這款產(chǎn)品的熱銷,側(cè)面驗證了AI眼鏡的可行性,也給入局該賽道的廠商帶來了信心。
Rokid工業(yè)設(shè)計總監(jiān)夏凱認(rèn)為,過去AI硬件領(lǐng)域存在著一些創(chuàng)新誤區(qū):比如,一款A(yù)PP可以解決的功能,不要硬件化;如果C端(面向個人用戶的)產(chǎn)品的信息呈現(xiàn)更簡陋、交互比手機(jī)更復(fù)雜,大概率也會翻車,例如美國創(chuàng)業(yè)公司Humane 發(fā)布的智能硬件產(chǎn)品AI Pin。
因此,夏凱覺得AI硬件的創(chuàng)新可以從個人日常的基礎(chǔ)生活功能切入,設(shè)置的功能簡單、剛需即可,這樣的產(chǎn)品售價便宜、試錯成本低。
夏凱告訴經(jīng)濟(jì)觀察網(wǎng),眼鏡這種設(shè)備的優(yōu)勢是,用戶平時就把它戴在頭上,它不像手機(jī)那樣需要用戶抬手交互。而交互是過去困擾AR眼鏡廠商的一個問題,大模型的出現(xiàn)解決了這個難題。大模型可以被理解為一個搜索引擎,能讓使用AI眼鏡的用戶更精準(zhǔn)地觸達(dá)信息。比如用戶在逛商場時,看見一件衣服,就可以通過AI眼鏡檢索出這款產(chǎn)品在全網(wǎng)的最優(yōu)惠價格和最佳購買途徑,然后下單購買。
多位AI眼鏡的用戶對經(jīng)濟(jì)觀察網(wǎng)表示,由于近視或者有佩戴裝飾品的需求,他們本身就會使用眼鏡。同時,他們也看重AI眼鏡的拍照、通話、翻譯、會議記錄等功能,覺得這類產(chǎn)品使用方便,可以部分替代手機(jī)的作用。
一位用戶說,她所在的單位是一家外企,但她的英語并不好,所以比較依賴AI眼鏡的翻譯功能。另一位用戶表示,他購買AI眼鏡,主要是為了在玩過山車等特定場景中錄像。
怎樣與大模型結(jié)合
致敬未知是國內(nèi)較早開始研究AR眼鏡結(jié)合大模型的智能硬件創(chuàng)業(yè)公司。該公司成立于2022年8月,在2023年拿到過阿里巴巴領(lǐng)投的 1000萬美元(約7246萬元人民幣)天使輪融資,其創(chuàng)始人吳德周曾擔(dān)任錘子科技合伙人、華為榮耀產(chǎn)品線總經(jīng)理。
王永森曾在致敬未知擔(dān)任產(chǎn)品經(jīng)理,負(fù)責(zé)過AR眼鏡的大模型場景整合。他表示,致敬未知當(dāng)初選擇走AR眼鏡路線,是因為相比虛擬現(xiàn)實(VR)那種隔絕現(xiàn)實的場景,AR更貼近現(xiàn)實。吳德周希望致敬未知的產(chǎn)品能貼合用戶現(xiàn)實,并提供現(xiàn)實背后的數(shù)字信息。在AR眼鏡結(jié)合大模型后,用戶可以使用其識別生圖、物品。基于識別功能和數(shù)字信息串聯(lián),用戶還能進(jìn)行比價、給商鋪評分和團(tuán)購。
在對比一系列 AR 眼鏡產(chǎn)品的交互設(shè)計后,致敬未知還得出了一個結(jié)論:AR 眼鏡要特別注意任何交互和呈現(xiàn),不能影響用戶的走路、下樓梯、聊天等現(xiàn)實行為。
王永森說,AR眼鏡結(jié)合大模型的大概過程是:首先,研發(fā)人員在訓(xùn)練和篩選模型后,在AR眼鏡中整合圖片分切模型、語音識別算法等小模型,這些小模型可以收集信息,是大模型理解世界的工具;其次,AR眼鏡將收集到的圖像或語音信息交給大模型,由其做出智能判斷并生成結(jié)果;最后,AR眼鏡把大模型生成的結(jié)果反饋到服務(wù)器和算法層面,整合互聯(lián)網(wǎng)上的相關(guān)信息,打包呈現(xiàn)給用戶。
AR眼鏡結(jié)合大模型的成本,與普通的大模型應(yīng)用的成本相似。硬件廠商除了需要投入后端工程師、算法工程師等人力成本外,使用大模型也需要按照token(大模型文本中的基本單位)計費(fèi)。據(jù)王永森透露,很多AI眼鏡廠商在前期都會向大模型公司墊付用戶使用大模型的成本。
為了不影響用戶的佩戴體驗,各家廠商正在致力于AI眼鏡的輕量化,例如采用鎂鋁合金這種比鋼材和鋁合金等傳統(tǒng)材料更輕的材料,以及使用更輕、更薄的光波導(dǎo)顯示模塊。
目前,市面上的AI眼鏡的重量基本保持在50克以內(nèi),而普通眼鏡的重量是2030克。
王永森說,更好的處理器芯片,更多的攝像頭和其他組件,意味著AI眼鏡會更重、更難攜帶和佩戴。因此,為了符合人體工學(xué)的要求,廠商需要在AI眼鏡的重量和算力能力中間尋找平衡。
仍有技術(shù)瓶頸
當(dāng)前,各家廠商發(fā)布的AI眼鏡,其功能主要聚焦于問答、翻譯、識物等場景。
不過,一位擴(kuò)展現(xiàn)實(XR,即AR、VR等技術(shù)的統(tǒng)稱)設(shè)備行業(yè)的前從業(yè)者告訴經(jīng)濟(jì)觀察網(wǎng),現(xiàn)在的AI眼鏡,就是給具備通話、拍照、AR等能力的音頻眼鏡,增加了語音助手功能。而且音頻眼鏡的門檻很低,廠商找一家原始設(shè)計制造商(ODM)就能做貼牌產(chǎn)品。
上述XR設(shè)備行業(yè)的前從業(yè)者還稱,受限于端側(cè)芯片的性能,AI眼鏡當(dāng)前依賴于云側(cè)大模型提供AI能力。此外,這類產(chǎn)品也需要解決持續(xù)工作帶來的高功耗、發(fā)熱,以及短續(xù)航和網(wǎng)絡(luò)延遲等一系列問題。
王永森說,對業(yè)內(nèi)人士來說,AR眼鏡結(jié)合大模型的技術(shù)門檻并不高,但是很難把AI眼鏡做好。其中一個難點(diǎn)是,AI眼鏡在調(diào)用大模型時,如何低延時、準(zhǔn)確地理解用戶的自然對話意圖。人們會進(jìn)行無序的自然對話,可能一口氣說出十幾個字、好幾件事,但大模型需要理解這些話語里面的用戶意圖。
Rokid創(chuàng)始人祝銘明此前表示,可穿戴眼鏡的同質(zhì)化競爭確實存在,但這是所有消費(fèi)電子行業(yè)的必經(jīng)階段。就像手機(jī)行業(yè)一樣,現(xiàn)在用戶更換手機(jī)不只是因為品牌,更因為各款手機(jī)的細(xì)節(jié)打磨和生態(tài)體驗不同。所以,可穿戴眼鏡的核心競爭力最終會落在品牌競爭力、生態(tài)的豐富程度以及產(chǎn)品的細(xì)節(jié)打磨上。
祝銘明認(rèn)為,只有真正愿意在細(xì)節(jié)上深耕的公司,才能在這個市場中生存并發(fā)展。最終,可穿戴眼鏡行業(yè)會走向類似手機(jī)行業(yè)的寡頭格局。與手機(jī)行業(yè)的56家主流廠商相比,可穿戴眼鏡行業(yè)由于存在強(qiáng)烈的個性化需求,可能會有1020家主流廠商存在。