財聯(lián)社4月12日訊(記者 崔銘)“得數(shù)據(jù)者得天下”,大模型帶火數(shù)據(jù)要素板塊。機構(gòu)人士向財聯(lián)社記者表示,大模型的發(fā)展會對很多行業(yè)產(chǎn)生較大改變,通過大模型去訓(xùn)練針對特定行業(yè)應(yīng)用的小模型,將會讓數(shù)據(jù)變得精細化、專業(yè)化,做數(shù)據(jù)確權(quán)或手上有優(yōu)質(zhì)數(shù)據(jù)的公司將會獲益。
近期國內(nèi)百度(09888.HK)、阿里巴巴(09988.HK)、商湯(00020.HK)等企業(yè)陸續(xù)進軍大模型領(lǐng)域,加速了垂直行業(yè)應(yīng)用落地。在具體賦能行業(yè)的過程中,投喂專業(yè)數(shù)據(jù)進行微調(diào)可以大幅提升模型表現(xiàn)。數(shù)據(jù)要素的重要性突出,有機構(gòu)甚至稱其為AI時代的“鋰礦”,還稱“得數(shù)據(jù)者得天下”。
前述機構(gòu)人士告訴記者,“鋰礦”的比喻很恰當(dāng),但數(shù)據(jù)跟鋰礦的背后邏輯不同。“一般情況下,鋰礦挖掘出來后,作為商品可以自由售賣。但數(shù)據(jù)即便挖掘出來,只能在‘可用不可見’的時候,脫敏后去銷售一些數(shù)據(jù)的計算結(jié)果,而不能拿到原始數(shù)據(jù)。”該機構(gòu)人士認為,一些數(shù)據(jù)供應(yīng)商會受益于此,比如有政府?dāng)?shù)據(jù)或做政府?dāng)?shù)據(jù)開發(fā)的供應(yīng)商。
有業(yè)內(nèi)人士向記者表示,“現(xiàn)在還不清楚大模型的數(shù)據(jù)具體是從哪里來的,比如百度、知乎里很多是個人數(shù)據(jù),平臺可以取得用戶授權(quán)去引用,但這個數(shù)據(jù)不一定能夠合法合規(guī)地進行售賣。如果要開發(fā)個人數(shù)據(jù)或使用個人數(shù)據(jù)去做大模型,肯定是需要個人同意開發(fā)數(shù)據(jù),這個方面還存疑。”
據(jù)悉,百度文心一言和阿里通義千文并未公開具體的訓(xùn)練數(shù)據(jù)集。百度此前在回應(yīng)文心一言“套殼”時稱,文心一言文生圖能力來自文心跨模態(tài)大模型ERNIE-ViLG,“在大模型訓(xùn)練中,我們使用的是互聯(lián)網(wǎng)公開數(shù)據(jù),符合行業(yè)慣例。”
值得注意的是,昨日網(wǎng)信辦發(fā)布《生成式人工智能服務(wù)管理辦法(征求意見稿)》,其中第七條提到,“提供者應(yīng)當(dāng)對生成式人工智能產(chǎn)品的預(yù)訓(xùn)練數(shù)據(jù)、優(yōu)化訓(xùn)練數(shù)據(jù)來源的合法性負責(zé)”,強調(diào)對數(shù)據(jù)安全方向的關(guān)注。
受消息提振,二級市場上數(shù)據(jù)要素概念板塊拉升。記者注意到,其中一類為擁有政企、地域數(shù)據(jù)的企業(yè),如每日互動(300766.SZ)、易華錄(300212.SZ)等,另一類則為手握IP、版權(quán)的文化傳媒企業(yè),如華策影視(300133.SZ)、捷成股份(300182.SZ)、中文在線(300364.SZ)等,還有包含第三方內(nèi)容審核業(yè)務(wù)的人民網(wǎng)(603000.SH)等公司。
每日互動證券部相關(guān)人士對以投資者身份致電的記者表示,“我們數(shù)據(jù)合規(guī)走在非常前面,在業(yè)務(wù)開展過程中,都有雙道保險。比如說我們在開展之前都會獲得用戶授權(quán),包括我們開展這個業(yè)務(wù)都是所學(xué)的數(shù)據(jù)都是最小化的,是合理必要的這樣一個數(shù)字范圍。”
分析人士告訴記者,當(dāng)前AI對于數(shù)據(jù)相關(guān)概念板塊的拉動,也包含了一定的“市場熱情”。目前來看,還不是落在具體業(yè)績和落地方向上,而是一個偏概念的行情。在AI浪潮下,仍有許多應(yīng)當(dāng)警惕的風(fēng)險,首當(dāng)其沖的是個人隱私問題,此外還存在假數(shù)據(jù)、數(shù)據(jù)不精準(zhǔn)等問題。
(編輯 劉琰)