隨著大模型掀起AI技術(shù)革新浪潮,大數(shù)據(jù)也進(jìn)入了與AI深度結(jié)合的創(chuàng)新時(shí)期。2023年云棲大會上,阿里云DataWorks產(chǎn)品負(fù)責(zé)人田奇銑發(fā)布了DataWorks Copilot、DataWorks AI增強(qiáng)分析、DataWorks湖倉融合數(shù)據(jù)管理等眾多新產(chǎn)品能力,讓DataWorks這款已經(jīng)發(fā)展了14年的大數(shù)據(jù)開發(fā)治理平臺產(chǎn)品,從一站式向智能化不斷升級演進(jìn)。
Data+AI雙輪驅(qū)動
進(jìn)入AIGC時(shí)代,AI for Data和Data for AI成為當(dāng)下的熱詞。AI for Data,這個(gè)比較好理解,通過大模型驅(qū)動的AI智能助手,可以提升數(shù)據(jù)平臺工具的效率。DataWorks為企業(yè)搭建了一站式、全鏈路的工具鏈,在這個(gè)過程中,也源源不斷地為企業(yè)構(gòu)建數(shù)據(jù)資產(chǎn),比如數(shù)據(jù)模型、元數(shù)據(jù)、數(shù)據(jù)血緣、數(shù)據(jù)指標(biāo)等,在大模型時(shí)代,這些也可以稱之為企業(yè)專屬的領(lǐng)域知識,借助大模型強(qiáng)大的語義理解、推理、上下文學(xué)習(xí)、記憶能力,通過大模型的Prompt Engineering,DataWorks一站式平臺可以為AI智能助手提供更接近的、更及時(shí)的、更全面的上下文信息,從而可以讓AI獲得更好的效果和性能,這是Data for AI。有了良好的數(shù)據(jù)基礎(chǔ),今天我們發(fā)布的眾多新品就是借助AI大模型的能力,通過Data + AI雙輪驅(qū)動,為數(shù)據(jù)開發(fā)和分析提供了新的范式,進(jìn)一步提升企業(yè)獲得數(shù)據(jù)價(jià)值的效率。
云棲發(fā)布:DataWorks Copilot 智能SQL編程助手提升30%數(shù)據(jù)開發(fā)分析效率
DataWorks Copilot是基于NL2SQL大模型打造的SQL編程助手,我們使用基于公開的數(shù)據(jù)集訓(xùn)練和微調(diào)的NL2SQL大模型,結(jié)合Prompt Engineering,提供了豐富的自然語言生成SQL的操作。
- SQL生成
輸入想要查詢分析的自然語言描述,例如“統(tǒng)計(jì)最近7天的商品銷售排行”,DataWorks Copilot將自動生成對應(yīng)的SQL語句。
- SQL續(xù)寫
在SQL IDE中編寫SQL代碼時(shí),DataWorks Copilot能夠提供智能代碼提示建議,提升SQL編程效率。
- SQL糾錯(cuò)
當(dāng)SQL運(yùn)行報(bào)錯(cuò)時(shí),DataWorks Copilot可提供一鍵糾錯(cuò)服務(wù),幫助ETL工程師和分析師快速修復(fù)SQL錯(cuò)誤。
- SQL注釋
以前寫代碼注釋是個(gè)負(fù)擔(dān),我們自己不想寫注釋,卻又希望別人的代碼有注釋。DataWorks Copilot可以批量為建表語句生成字段Comment信息,也可以為SQL語句添加逐行注釋,提升SQL的可讀性。
- SQL解釋
對于部分業(yè)務(wù)人員或者分析師,經(jīng)常拿到是數(shù)倉工程師給到一段比較復(fù)雜的取數(shù)腳本,使用到的一些高級SQL語法和函數(shù)不懂什么意思但又想改一改取數(shù)邏輯,以前就要到處查資料或者請教別人。DataWorks Copilot可以直接對SQL代碼進(jìn)行解釋,幫助我們的業(yè)務(wù)人員更快理解SQL邏輯、用途,提高取數(shù)分析和SQL學(xué)習(xí)的效率。
DataWorks Copilot 智能SQL編程助手,在我們內(nèi)部已經(jīng)使用了一段時(shí)間了,根據(jù)我們的一些觀測,可以為ETL開發(fā)和數(shù)據(jù)分析提效30%以上。
從GUI到LUI,DataWorks Copilot輔助ETL數(shù)倉開發(fā)
40多年前出現(xiàn)了圖形用戶界面(GUI),大模型強(qiáng)大的自然語言理解能力,帶來了全新的自然語言用戶界面(LUI),這也是一種全新的人機(jī)交互方式,一個(gè)軟件產(chǎn)品,能否提供LUI,這也是大模型應(yīng)用從AI智能助手邁向AI原生應(yīng)用的標(biāo)志能力之一。DataWorks也在思考和探索,如何將復(fù)雜的產(chǎn)品操作邏輯隱藏在背后,借助大模型,對用戶提供簡單直接、更符合人性的自然語言用戶界面。
我們做了一些產(chǎn)品實(shí)踐。舉幾個(gè)應(yīng)用場景,在實(shí)際工作中,找表是件頭疼的問題,業(yè)務(wù)人員為了計(jì)算一個(gè)指標(biāo)要找數(shù)倉的同學(xué)問該用哪張表,數(shù)倉同學(xué)天天應(yīng)付這類咨詢,也很煩躁。DataWorks Copilot則可以提供通過自然語言快捷找表,讓找表這件事情不用東問西問,從而提升企業(yè)的數(shù)據(jù)消費(fèi)效率。在ETL開發(fā)過程中,有些操作是比較復(fù)雜或者繁瑣的,比如調(diào)度配置、參數(shù)配置、數(shù)據(jù)質(zhì)量規(guī)則配置,過去往往需要到不同的產(chǎn)品頁面來回跳轉(zhuǎn)和手工配置,現(xiàn)在DataWorks Copilot提供了對話式的自然語言用戶界面,在一個(gè)統(tǒng)一對話窗口中,通過自然語言交互就可以完成很多跨產(chǎn)品工具的操作,比如說一句“給某某表配置一個(gè)什么質(zhì)量規(guī)則”就可以完成數(shù)據(jù)質(zhì)量檢測的規(guī)則配置。未來,我們將持續(xù)豐富自然語言交互界面的覆蓋范圍。
DataWorks Copilot產(chǎn)品演示 https://cloud.video.taobao.com/play/u/null/p/1/e/6/t/1/437757941217.mp4
DataWorks Copilot提供了兩種模型服務(wù),第一種是基于公開數(shù)據(jù)集訓(xùn)練和微調(diào)的NL2SQL大模型,當(dāng)前在阿里云DataWorks官網(wǎng)可以直接申請參與邀測。如果有的企業(yè)對我們的模型效果有更高的期待,或者希望Copilot能夠回答更貼近企業(yè)內(nèi)部業(yè)務(wù),我們可以提供企業(yè)專屬的模型微調(diào)服務(wù),結(jié)合阿里云人工智能平臺PAI以及大模型專家服務(wù),可以為企業(yè)量身定制專屬代碼大模型以及私有化大模型部署服務(wù)。
云棲發(fā)布:DataWorks AI增強(qiáng)數(shù)據(jù)分析
企業(yè)在數(shù)據(jù)生產(chǎn)建設(shè)上投入這么多資源,最終希望是洞察數(shù)據(jù)中的業(yè)務(wù)價(jià)值,指導(dǎo)企業(yè)的經(jīng)營、決策。傳統(tǒng)的統(tǒng)計(jì)分析方法常常先假設(shè)一種統(tǒng)計(jì)模型,然后根據(jù)數(shù)據(jù)樣本來估計(jì)模型參數(shù),從而了解數(shù)據(jù)的特征,但實(shí)際中往往有很多數(shù)據(jù)并不符合假設(shè)的統(tǒng)計(jì)模型。探索性數(shù)據(jù)分析強(qiáng)調(diào)讓數(shù)據(jù)自身“說話”,先對數(shù)據(jù)特征、統(tǒng)計(jì)量進(jìn)行探索,然后再選取合適的模型進(jìn)一步分析,這是一種更加貼合實(shí)際情況的分析方法。在AI時(shí)代,數(shù)據(jù)洞察也不斷向智能化演進(jìn),AI增強(qiáng)分析利用AI技術(shù),可以加速或者自動化數(shù)據(jù)探索與洞察,幫助分析師從手工數(shù)據(jù)探索中解放出來。AI技術(shù)還能更好地發(fā)現(xiàn)數(shù)據(jù)中隱藏的規(guī)律和趨勢,幫助分析師進(jìn)一步突破自身固有認(rèn)知的局限。
DataWorks聯(lián)合DataV數(shù)據(jù)可視化產(chǎn)品,深度結(jié)合AI技術(shù),推出了AI增強(qiáng)分析產(chǎn)品。目前提供了四項(xiàng)核心能力:
自動探查數(shù)據(jù)集,無需專業(yè)技術(shù)背景即可快速了解數(shù)據(jù)特征、統(tǒng)計(jì)分布。
基于自動數(shù)據(jù)探查的信息,自動生成數(shù)據(jù)圖表卡片,結(jié)合AI技術(shù),自動識別不同數(shù)據(jù)字段組合之間的相關(guān)性并生成圖表,不需要你手動寫很多SQL進(jìn)行分析,可以幫助你快速獲得靈感,保存見解。
結(jié)合大模型技術(shù),通過自然語言生成 SQL 查詢數(shù)據(jù),并自動為查詢結(jié)果自動推薦和生成數(shù)據(jù)圖表卡片。
可以像制作PPT一樣,將上面生成的數(shù)據(jù)圖表卡片一鍵生成數(shù)據(jù)長圖報(bào)告,支持導(dǎo)出為圖片或者一鍵分享。
DataWorks AI增強(qiáng)分析,讓數(shù)據(jù)自己“說話”,將數(shù)據(jù)洞察過程盡可能的自動化、無代碼化,通過AI還能自動發(fā)現(xiàn)數(shù)據(jù)中的潛在趨勢,講好數(shù)據(jù)故事,表達(dá)數(shù)據(jù)觀點(diǎn)。這款產(chǎn)品目前在公測當(dāng)中,大家開通DataWorks后進(jìn)入數(shù)據(jù)分析產(chǎn)品即可申請公測體驗(yàn)。
DataWorks 增強(qiáng)分析產(chǎn)品演示 https://cloud.video.taobao.com/play/u/null/p/1/e/6/t/1/438309479548.mp4
云棲發(fā)布:DataWorks湖倉融合數(shù)據(jù)管理
隨著市場的不斷變化,企業(yè)業(yè)務(wù)也不斷的發(fā)展,企業(yè)面臨的競爭和不確定性也越來越大,數(shù)據(jù)需求從簡單的查詢、統(tǒng)計(jì)到BI到數(shù)據(jù)科學(xué)到推薦預(yù)測到AI應(yīng)用,整體上從簡單的固定查詢統(tǒng)計(jì)到復(fù)雜多變靈活的智能化分析,相應(yīng)企業(yè)數(shù)據(jù)架構(gòu)也發(fā)生了變化,從數(shù)據(jù)庫到數(shù)據(jù)倉庫到數(shù)據(jù)湖,再到湖倉融合,整個(gè)演進(jìn)過程是在追求更高的數(shù)據(jù)效率和更好更快的滿足企業(yè)的各種靈活多變的數(shù)據(jù)需求。湖倉融合數(shù)據(jù)架構(gòu)既兼顧數(shù)據(jù)倉庫的規(guī)范性和企業(yè)級能力,又兼顧數(shù)據(jù)湖的靈活性和生態(tài)開放性,成為越來越多企業(yè)所關(guān)注的數(shù)據(jù)架構(gòu)。
DataWorks當(dāng)前全面支持湖倉融合的數(shù)據(jù)管理,在存儲層,離線數(shù)據(jù)倉庫MaxCompute和實(shí)時(shí)數(shù)據(jù)倉庫Hologres以及數(shù)據(jù)湖存儲OSS/OSS-HDFS,它們之間已經(jīng)在存儲層做了無縫的打通,不需要復(fù)制移動數(shù)據(jù)就可以進(jìn)行數(shù)據(jù)的聯(lián)邦查詢。在這之上,DataWorks提供了統(tǒng)一的湖倉融合數(shù)據(jù)管理用戶界面。
在數(shù)據(jù)集成上,DataWorks本身支持50多種異構(gòu)數(shù)據(jù)源的離線、實(shí)時(shí)同步入倉。今年新增實(shí)時(shí)數(shù)據(jù)入湖的能力,實(shí)現(xiàn)數(shù)據(jù)秒級實(shí)時(shí)入湖,并且支持在數(shù)據(jù)同步過程中自動進(jìn)行庫表字段的更新,同時(shí)在這個(gè)過程中也能夠進(jìn)行元數(shù)據(jù)的自動發(fā)現(xiàn)和注冊,借助DLF可以在DataWorks數(shù)據(jù)地圖里進(jìn)行湖倉統(tǒng)一的元數(shù)據(jù)管理。
面向湖倉融合架構(gòu)中多種計(jì)算引擎,如MaxCompute、Hologres、Spark、Hive、Presto等,提供了統(tǒng)一的ETL任務(wù)開發(fā)、任務(wù)編排調(diào)度和運(yùn)維服務(wù),實(shí)現(xiàn)統(tǒng)一的數(shù)據(jù)開發(fā)流水線,解決企業(yè)因數(shù)據(jù)架構(gòu)不統(tǒng)一造成的數(shù)據(jù)生產(chǎn)鏈路割裂、不穩(wěn)定等難以管理的問題。
DataWorks新增支持了湖倉融合數(shù)據(jù)治理。不僅能支持湖倉統(tǒng)一的元數(shù)據(jù)管理、數(shù)據(jù)建模和數(shù)據(jù)質(zhì)量管理,而且DataWorks的主動式、自動化數(shù)據(jù)治理工具“DataWorks數(shù)據(jù)治理中心”也全面支持了EMR+OSS數(shù)據(jù)湖。
DataWorks數(shù)據(jù)治理中心,將成熟的數(shù)倉治理能力全面擴(kuò)展到了EMR+OSS數(shù)據(jù)湖。為了簡化湖倉架構(gòu)下的數(shù)據(jù)治理難度,讓數(shù)據(jù)治理不再是運(yùn)動式的,而是能夠真正可持續(xù)、可跟進(jìn)、可落地,DataWorks數(shù)據(jù)治理中心,新增了“數(shù)據(jù)治理計(jì)劃”功能,來協(xié)助用戶完成主動式的數(shù)據(jù)治理規(guī)劃和診斷。
數(shù)據(jù)治理計(jì)劃內(nèi)置了面向數(shù)據(jù)管理者的計(jì)算存儲的成本治理、任務(wù)的穩(wěn)定性治理等數(shù)據(jù)治理場景的模板,支持企業(yè)設(shè)置一個(gè)數(shù)據(jù)治理目標(biāo),提供多個(gè)維度的數(shù)據(jù)治理健康度的評估模型,幫助大家去評估數(shù)據(jù)治理的成效。
數(shù)據(jù)治理計(jì)劃面向數(shù)據(jù)治理的執(zhí)行者,提供60余項(xiàng)覆蓋5個(gè)維度的治理規(guī)則庫,結(jié)合設(shè)置的數(shù)據(jù)治理目標(biāo)方向,數(shù)據(jù)治理產(chǎn)品可以自動推薦圈選和目標(biāo)相關(guān)的數(shù)據(jù)治理問題,并且提供相應(yīng)的治理手段和方法,幫助數(shù)據(jù)治理的執(zhí)行者可以及時(shí)的發(fā)現(xiàn)問題解決問題。同時(shí)數(shù)據(jù)治理中心提供事前的問題攔截,在數(shù)據(jù)開發(fā)階段可以事前發(fā)現(xiàn)很多的問題,比如代碼規(guī)范問題,表明任務(wù)名命名規(guī)范問題,可以進(jìn)行提前的攔截,這些事前攔截的插件和事后問題發(fā)現(xiàn)的插件都是允許支持企業(yè)自己定義。
數(shù)據(jù)治理應(yīng)用:成本優(yōu)化-無效任務(wù)自動化下線
隨著企業(yè)業(yè)務(wù)的不斷變化,企業(yè)人員變動,不可避免地會出現(xiàn)越來越多的無效數(shù)據(jù)任務(wù),每天都在消耗著大量的計(jì)算成本和存儲成本。傳統(tǒng)的手動治理,需要依賴數(shù)據(jù)工程師人工分析判斷,進(jìn)行復(fù)雜的影響分析,還存在與相關(guān)被影響人員的溝通協(xié)同成本,極容易因不小心失誤影響了線上任務(wù)造成故障,從而導(dǎo)致數(shù)據(jù)工程師因害怕出問題而對無效任務(wù)不敢治理,不愿治理。
DataWorks數(shù)據(jù)治理中心,提供了一項(xiàng)稱之為“優(yōu)雅下線”的產(chǎn)品功能,可對無效任務(wù)進(jìn)行批量的流程化、自動化的下線治理。首先會自動進(jìn)行任務(wù)下線的影響分析,然后將任務(wù)下線分解為延遲調(diào)度、暫停調(diào)度、下線任務(wù)、備份產(chǎn)出表、刪除產(chǎn)出表五個(gè)步驟,每個(gè)步驟還提供一個(gè)靜默期并自動通知相關(guān)責(zé)任人或者受影響人。整個(gè)過程類似于一種“灰度下線”機(jī)制,一旦出問題可以快速恢復(fù),并將影響范圍降到最低。
在阿里內(nèi)部數(shù)據(jù)團(tuán)隊(duì),原先治理下線一組涉及到30個(gè)責(zé)任人的1000個(gè)任務(wù),從拉群拉會溝通,分析下線影響,制定下線計(jì)劃,各自分別執(zhí)行下線操作到結(jié)果跟進(jìn),要花費(fèi)3-5個(gè)月時(shí)間。有了DataWorks數(shù)據(jù)治理中心的優(yōu)雅下線功能,2天完成治理動作,1周完成影響觀察,15天即可正式結(jié)項(xiàng)。DataWorks數(shù)據(jù)治理中心的優(yōu)雅下線已經(jīng)幫助阿里內(nèi)部數(shù)倉團(tuán)隊(duì)成功下線了數(shù)萬個(gè)無效任務(wù),節(jié)省在大量的存儲計(jì)算成本。
DataWorks數(shù)據(jù)治理中心已經(jīng)在DataWorks企業(yè)版提供服務(wù),近期也會推出企業(yè)版的試用活動,大家可以關(guān)注產(chǎn)品的官網(wǎng)信息。
從2009年誕生在阿里巴巴集團(tuán)內(nèi)部開始,DataWorks一直是一站式平臺的倡導(dǎo)者與堅(jiān)定執(zhí)行者,包含從數(shù)據(jù)集成、數(shù)據(jù)開發(fā)的工具鏈、數(shù)據(jù)治理的工具鏈,以及到數(shù)據(jù)消費(fèi)側(cè)的分析及服務(wù)的產(chǎn)品,我們通過一站式平臺不斷為企業(yè)構(gòu)建、沉淀企業(yè)的數(shù)據(jù)資產(chǎn)。在AI時(shí)代,DataWorks將14年積累的產(chǎn)品能力不斷與大模型進(jìn)行融合創(chuàng)新,為企業(yè)一站式智能化的數(shù)據(jù)平臺產(chǎn)品,提升企業(yè)數(shù)據(jù)流轉(zhuǎn)效率,加速企業(yè)數(shù)據(jù)價(jià)值獲齲
若需要了解更多DataWorks產(chǎn)品信息和開通試用。