AI代碼正在革新軟件開發(fā)范式。
文|徐鑫
編|任曉漁
今年上半年,趣丸科技內(nèi)部研發(fā)人員中AI代碼工具的使用率快速提升!白铋_始不到10%技術(shù)研發(fā)人員使用靈碼,經(jīng)過一個Q(季度)使用占比超80%,下半年目標(biāo)是把代碼生成占比提升到35%”,趣丸科技的研發(fā)效能工具平臺負(fù)責(zé)人黃金說。
靈碼全名是阿里云研發(fā)的AI代碼工具通義靈碼。這款產(chǎn)品在去年云棲大會發(fā)布后受到了市場廣泛關(guān)注,目前插件下載量超800萬,累計為程序員生成超15億行代碼,并服務(wù)了一汽集團(tuán)、中華財險、哈集團(tuán)等上萬家企業(yè)。
這種蓬勃應(yīng)用落地的態(tài)勢,與近期大模型市場的冷思考相比,頗有冰火兩重天的架勢。
過去幾個月,行業(yè)內(nèi)時常能聽到大模型的Scaling Law失效的論調(diào)。特別是隨著全球基礎(chǔ)大模型市場洗牌,無法完成健康造血的玩家退出基模競爭,同時市場始終沒有出現(xiàn)一款大模型超級應(yīng)用。這些背景下,生成式AI被認(rèn)為正從狂飆猛進(jìn)落進(jìn)理性的現(xiàn)實。
不過,這些可能并非市場的全貌。以通義靈碼為代表的AI代碼落地態(tài)勢顯示,大模型ToB落地正當(dāng)時!霸谶@個領(lǐng)域,我們是絕對領(lǐng)先的。”阿里云智能集團(tuán)資深副總裁、公共云事業(yè)部總裁劉偉光說,通義靈碼是有真正社會價值的產(chǎn)品,阿里云做的就是To B,創(chuàng)造價值。
這些ToB落地趨勢也意味著,大模型不是曇花一現(xiàn),不是玩具,它已經(jīng)在影響現(xiàn)實世界,并創(chuàng)造出切實的價值。
01
需求洶涌,從Copilot向Agent演進(jìn)
AI代碼助手,在當(dāng)下大模型采購里已經(jīng)占據(jù)了一席之地。
數(shù)智前線統(tǒng)計大模型市場招投標(biāo)項目時看到,今年前三季度,不少央國企的需求都與智能代碼助手相關(guān)。例如,郵儲集團(tuán)、聯(lián)通、華泰證券、電信、上海金融期貨等多家企業(yè)及機(jī)構(gòu)都曾發(fā)布與大模型代碼助手相關(guān)的采購需求,吸引了多家服務(wù)商競標(biāo)。
某國有大行此前告訴數(shù)智前線,他們看到,金融場景要求高,正非常謹(jǐn)慎地推進(jìn)大模型在交易等核心業(yè)務(wù)環(huán)節(jié)的落地,會優(yōu)先選擇代碼助手、客服等場景先行落地。
通義靈碼已經(jīng)感受到了這股蓬勃的需求!办`碼在大模型產(chǎn)品中非常受歡迎,有從前不是阿里云客戶的企業(yè),也因為通義靈碼,開始與阿里云合作”,一位靠近阿里云的人士稱。
日前,該企業(yè)已經(jīng)將通義靈碼接入內(nèi)部開發(fā)平臺中,有超70%的研發(fā)人員使用通義靈碼,AI代碼生成占比超過30%,將研發(fā)效率提升兩位數(shù)。這相當(dāng)于靈碼撬開了一道大模型合作的門,大模型又可以為阿里云的云產(chǎn)品帶來新的增量,該人士表示。
實際上,AI編程能力在這波大模型浪潮里一直備受矚目。從OpenAI到百模大戰(zhàn)各路玩家,大模型廠商們發(fā)布新模型時總把模型的AI編程能力作為保留項目重點展示。各類榜單和Benchmark也會專門考察模型的編程能力。
業(yè)界看到,這一領(lǐng)域呈現(xiàn)出模型廠商密切關(guān)注,應(yīng)用落地也走在前列的態(tài)勢,與AI代碼領(lǐng)域的特性有關(guān)。
一方面,編程本身是人與機(jī)器溝通的語言,大語言模型訓(xùn)練時,編程語言作為一種重要的語言能力,關(guān)乎大模型的整體能力表現(xiàn)。
其次,用大模型來提升軟件開發(fā)效率也是行業(yè)剛需。有統(tǒng)計顯示,與大語言模型的對話互動里,29%的對話需求是希望大模型幫忙寫代碼。而JetBrains2023年的一個開發(fā)者生態(tài)報告顯示,開發(fā)者最耗時的活動百分之七八十都與編寫代碼、理解代碼及互聯(lián)網(wǎng)搜索、調(diào)試、寫注釋、寫測試等有關(guān)。
大模型到來,AI代碼工具可以快速補(bǔ)齊初級工程師的能力短板,從團(tuán)隊層面可以極大提升協(xié)同效率。同時,AI直接能完成許多日常重復(fù)性勞動,將程序員從大量繁復(fù)的代碼編寫、調(diào)優(yōu)、檢查中解放出來,降低企業(yè)的運(yùn)行成本,縮短開發(fā)周期,提高軟件開發(fā)效率,在市場競爭中贏得先機(jī)。
市場蓬勃需求之下,正如大模型在許多領(lǐng)域的落地趨勢一樣,AI代碼領(lǐng)域代碼助手的形態(tài)也正從原來的輔助型Copilot工具為主,向Agent端到端模式演化。
一位AI編程行業(yè)人士稱,今年年初Devin出現(xiàn)給行業(yè)里打了一個樣。Copilot階段,AI代碼主要完成一些單點任務(wù),而進(jìn)入到Agent模式,它將逐漸具備自主完成任務(wù)的能力,比如能寫代碼、做測試。
之前,行業(yè)內(nèi)并不特別確信當(dāng)下AI能基于Agent模式,獨(dú)立去完成端到端的代碼任務(wù)。該人士提到,Devin之后,Cursor等Agent模式產(chǎn)品又持續(xù)受到市場關(guān)注,Agent方向出現(xiàn)加速發(fā)展跡象。
過去一年,通義靈碼的產(chǎn)品演進(jìn)也與這一趨勢呼應(yīng)。
去年10月云棲大會上,通義靈碼首次亮相。作為一個輔助編碼助手,它能輔助程序員完成不少代碼開發(fā)工作。比如,能根據(jù)當(dāng)前代碼文件及跨文件的上下文,自動生成行級/函數(shù)級代碼、單元測試、代碼注釋等,此外還具備代碼解釋、智能研發(fā)問答、異常報錯排查等能力。
到今年9月的云棲大會上,通義靈碼AI程序員登場。Agent模式下,全新的通義靈碼AI程序員模擬了人類程序員的能力,能完成更復(fù)雜、更全面的編程任務(wù)。比如只需幾句話指令,這名AI程序員就能完成需求理解、任務(wù)拆解、代碼編寫、修改BUG、測試等任務(wù),最快幾分鐘可從0到1完成應(yīng)用開發(fā)。
2024云棲大會上通義靈碼重磅升級
數(shù)智前線獲悉,本月,通義靈碼AI程序員還將迎來重大升級。
通義靈碼團(tuán)隊認(rèn)為,Agent產(chǎn)品接下來演進(jìn)路徑,將從單庫的問答Agent向編碼Agent、測試Agent發(fā)展,最終多Agents調(diào)度組合,將實現(xiàn)需求、代碼、測試的全流程自動化。
這將帶來軟件行業(yè)開發(fā)范式的巨大革新,開發(fā)人才隊伍也會出現(xiàn)轉(zhuǎn)型,“人會聚焦于業(yè)務(wù)的創(chuàng)意和糾偏,重復(fù)性工作交由大模型完成,大模型和軟件工具鏈的結(jié)合,軟件研發(fā)正在步入一個全新的時代!蓖x靈碼產(chǎn)品技術(shù)負(fù)責(zé)人神秀說。
02
企業(yè)級場景,通義靈碼如何率先實現(xiàn)落地?
AI代碼將從Copilot最終演進(jìn)到Multi-Agent模式已成為共識。但當(dāng)下,AI代碼工具還在落地初期,技術(shù)服務(wù)商們需要基于當(dāng)下的發(fā)展階段,找到技術(shù)的落地路徑。
通義靈碼這樣的先鋒產(chǎn)品正通過解決一系列落地問題,讓產(chǎn)品在企業(yè)級場景里率先被用了起來。
基模的能力很重要,它決定了代碼能力的強(qiáng)弱。業(yè)界看到,基模能力變強(qiáng),代碼生成效率的準(zhǔn)確度和研發(fā)團(tuán)隊的代碼采納指標(biāo)都會提升,還能減少應(yīng)用層針對基礎(chǔ)模型的SFT或其他調(diào)整。
近兩年國內(nèi)模型廠商在基礎(chǔ)模型層面不斷追趕,在努力縮短與OpenAI最強(qiáng)的模型的差距。目前國內(nèi)一些AI代碼產(chǎn)品在基座模型的代碼能力上已經(jīng)實現(xiàn)了趕超。
比如,通義靈碼上個月的底層模型升級到Qwen-coder2.5,實現(xiàn)了智能問答和代碼補(bǔ)全效果的全面提升。阿里云介紹,Qwen-coder2.5在EvalPlus、LiveCodeBench、BigCodeBench十余項基準(zhǔn)評測中均取得開源最佳成績,是全球最強(qiáng)開源代碼模型。它在考察代碼修復(fù)能力的Aider、多編程語言能力的McEval等9個基準(zhǔn)上,也優(yōu)于GPT-4o。
基模能力提升之外,工程側(cè)也有大量問題有待技術(shù)服務(wù)商們解決。
一家AI代碼應(yīng)用企業(yè)提到,他們還非常看重產(chǎn)品的企業(yè)級能力。比如,AI代碼工具能否和企業(yè)內(nèi)的系統(tǒng)結(jié)合,企業(yè)內(nèi)部知識庫能否便捷導(dǎo)入,能不能提供團(tuán)隊級ID等功能都十分影響產(chǎn)品應(yīng)用的效果。
這都是真實的研發(fā)要求。日常研發(fā)工作近八成要與企業(yè)內(nèi)原有的幾十萬行沉淀代碼資產(chǎn)互動,需要基于已有代碼修復(fù)BUG、增加需求。在這類任務(wù)里,AI代碼工具得從幾十萬行代碼里,精準(zhǔn)找到解決用戶需求所需要的代碼,并且塞到一個足夠小的上下文窗口里。
它要求AI代碼產(chǎn)品具備可擴(kuò)展性,方便企業(yè)能夠進(jìn)行企業(yè)級RAG和SFT改進(jìn)等控制動作。
通義靈碼團(tuán)隊花了大量精力來建設(shè)這類企業(yè)級能力。以檢索增強(qiáng)的探索為例,他們總結(jié)出了不少做法,比如,把大量的常用業(yè)務(wù)代碼和邏輯寫好注釋,作為語料放到檢索增強(qiáng)庫。其他開發(fā)者注入注釋時,AI代碼工具通過注釋就能找回上傳的代碼,直接進(jìn)行生成。這時代碼生成的效果更好,大概率能生成更符合企業(yè)鼓勵規(guī)范的代碼。
這些探索也在沉淀成為企業(yè)級RAG的落地方法論。具體來說,不能大而全,要從場景出發(fā),把大模型解決得不是特別好的Bad Case總結(jié)出來,思考解決它所需要的語料或者代碼庫、樣例庫,再去收集相關(guān)的數(shù)據(jù),上傳到知識庫做向量化,最后再評測問題是不是得到了改進(jìn);谶@種不斷的實驗,一些場景里消除Bad Case的效果已經(jīng)非常明顯。
代碼采納率等ROI指標(biāo)能否被統(tǒng)計也非常影響企業(yè)采購決定,影響AI代碼的落地。
這涉及到兩點,一方面是產(chǎn)品功能層面,需要廠商對市場需求有洞察能力。
“如果沒有代碼采納率統(tǒng)計,企業(yè)就很難評估工具給企業(yè)帶來的價值。去做預(yù)算申報和落地結(jié)果呈現(xiàn)時,ROI無法計算!秉S金認(rèn)為,GitHub Copilot基模能力很強(qiáng),但在企業(yè)級能力上比較單薄。國內(nèi)通義靈碼企業(yè)級支撐度更強(qiáng),對企業(yè)落地應(yīng)用更加友好。
另一方面,AI代碼產(chǎn)品還得真正創(chuàng)造價值,ROI要算得過來,才能被市場認(rèn)可。IDC此前告訴數(shù)智前線,ROI是否可測算極大影響了大模型在場景里的落地進(jìn)展。大模型賦能的數(shù)字人、智能客服等產(chǎn)品走在落地前列,與這些場景里產(chǎn)品能帶來可測算的收益密切有關(guān)。
目前通義靈碼在大量頭部企業(yè)里應(yīng)用,已經(jīng)帶來了非常立竿見影的效果。比如國內(nèi)某頭部全金融牌照公司通過整合通義靈碼,在超3000人的試用階段,就有極大的效能提升。團(tuán)隊開發(fā)效率整體提升10%以上,將繼續(xù)推廣到數(shù)萬人開發(fā)人員,持續(xù)提升開發(fā)團(tuán)隊的生產(chǎn)效率和開發(fā)質(zhì)量。
靈碼還快速汲取市場反饋,來加速產(chǎn)品迭代。中華財險創(chuàng)新研發(fā)中心開發(fā)二部架構(gòu)師吳杰對靈碼的響應(yīng)速度印象深刻。他們公司今年四月開始使用通義靈碼,前后端研發(fā)團(tuán)隊500+人,近六成使用靈碼,代碼采納率達(dá)到20%。吳杰提過一個需求,希望靈碼能在組織里建更小組織,方便統(tǒng)計靈碼使用情況。他觀察到這個需求提出不久后就上線了,靈碼的產(chǎn)品更新很快。
基于技術(shù)、產(chǎn)品和工程層面的工作,在海量用戶的持續(xù)反饋-迭代下,通義靈碼正在大量頭部企業(yè)里落地應(yīng)用,并形成一個正向的循環(huán)。
03
先鋒企業(yè),怎么用通義靈碼?
亞信科技接觸通義靈碼時,提了一個很現(xiàn)實的需求,他們要在不同的場景來用這款產(chǎn)品。
比如自用型場景主要是在亞信內(nèi)部研發(fā)環(huán)境用,希望能顯著提升公司自有產(chǎn)品的研發(fā)效率。在協(xié)作型場景,AI代碼工具主要是用來服務(wù)客戶,在客戶的現(xiàn)場內(nèi)部環(huán)境來用,目標(biāo)是提升一些日常項目的交付質(zhì)量和運(yùn)維效率。研發(fā)環(huán)境里涉及多個廠商,包含交付、運(yùn)維、運(yùn)營等多類工作,還要求嚴(yán)格控制數(shù)據(jù)安全及網(wǎng)絡(luò)安全。
另外,他們還有一些面向客戶的中短期需求,希望使用智能編程工具,提升這些中短期項目的交付效率及交付質(zhì)量。
三類場景,需求各異,對AI代碼產(chǎn)品的部署方式提出了不低的要求。通義靈碼靈活的部署恰好能契合亞信科技的復(fù)雜使用場景。靈碼提供了公共云、公共云vpc、私有部署三種模式,企業(yè)可以根據(jù)不同業(yè)務(wù)需求、安全性要求,選擇不同的部署模式。
使用通義靈碼后,亞信科技也看到了明顯的效率提升。目前,無論是研發(fā)團(tuán)隊還是交付團(tuán)隊,都基于AI代碼工具實現(xiàn)了更高的開發(fā)效率。目前,亞信科技的研發(fā)團(tuán)隊采納率超過30%,交付團(tuán)隊采納率穩(wěn)定在20%~30%。
企業(yè)實際應(yīng)用時,除了對部署模式有要求,還需要AI代碼產(chǎn)品能廣泛支持多種代碼語言。
2024年云棲大會上開發(fā)者使用通義靈碼實現(xiàn)了對機(jī)器人的控制
國內(nèi)目前開發(fā)者群體非常青睞Java語言,靈碼后臺看到有四成開發(fā)者使用Java語言。為了服務(wù)好這個群體,靈碼團(tuán)隊針對Java專門做了一些優(yōu)化。此前,阿里云基于小模型開發(fā)的代碼助手就針對Java語言做了大量的工作和調(diào)優(yōu)。大模型時代,這些經(jīng)驗,如跨文件解析、幻覺消除等都被融入到通義靈碼中。目前通義靈碼Java語言的生成效果很不錯,生成代碼率達(dá)到四到五成。
Java之外,靈碼還熟練掌握Python、Go、JavaScript、TypeScript、C/C++、C#等200多種編程語言,幫助開發(fā)者提升超10%的開發(fā)效率。
應(yīng)用場景上,通義靈碼七成的代碼生成發(fā)生在代碼補(bǔ)全場景。目前,通靈碼具備多端支持能力,可支持VScode和JetBrains,這讓不少開發(fā)者直觀感受到了靈碼的能力。
中華財險創(chuàng)新研發(fā)中心開發(fā)二部架構(gòu)師吳杰提到,“靈碼不僅能感知到當(dāng)前編輯的頁面,還能對整個項目進(jìn)行跨文件感知,因此生成出來的代碼比較符合我們的需求”。
靈碼的智能研發(fā)問答功能,是開發(fā)者的第二剛需。開發(fā)者可以隨時與通義靈碼進(jìn)行技術(shù)對話,靈碼能給出高匹配的回復(fù)。之前許多開發(fā)者需要查搜索引擎的問題,現(xiàn)在可以直接問大模型。要做到這一點,需要在大模型上加上互聯(lián)網(wǎng)知識的RAG框架,這種架構(gòu)當(dāng)下在行業(yè)內(nèi)也是標(biāo)配。
代碼解釋場景,解決了工程師最頭疼的問題,讀別人的代碼。有了通義靈碼后能大大節(jié)省這部分時間,目前這一功能也深受開發(fā)者青睞。
2024世界人工智能大會,通義靈碼入選為“鎮(zhèn)館之寶”
在代碼生成和代碼解釋這類提升效率的需求外,廣大用戶還有一些更深層的提升代碼質(zhì)量的需求,比如單元測試和優(yōu)化review等診斷類工作。業(yè)界認(rèn)為,在這類能力上,行業(yè)內(nèi)的AI代碼服務(wù)商還需要持續(xù)優(yōu)化升級。
目前,已經(jīng)有企業(yè)將通義靈碼的這部分能力用了起來。今年6月,接入通義靈碼的哈集團(tuán)自研copilot“海螺機(jī)器人”就體驗了通義靈碼的代碼評審能力。每周有180個應(yīng)用通過AI完成評審,平均每周發(fā)現(xiàn)140個Bug。
一些企業(yè)也反饋,在前端語言如VUE語言,靈碼目前采納率不超過20%,代碼生成占比也比較低。其中一個很重要原因在于,很多企業(yè)有自己個性化的前端框架,它們不都是基于開源的前端框架來開發(fā)。大模型要能理解用戶多樣化、個性化框架的特點。
這也是靈碼需要持續(xù)去優(yōu)化的方向,要進(jìn)一步降低產(chǎn)品與企業(yè)內(nèi)個性化框架和企業(yè)知識庫知結(jié)合的難度,構(gòu)建更多工具鏈,通過檢索增強(qiáng),讓AI代碼產(chǎn)品能更加貼合企業(yè)的個性化場景。
相應(yīng)的,這也會帶來企業(yè)內(nèi)知識傳遞方式的變化。過去靠口口相傳、老帶新,未來模型具備業(yè)務(wù)知識和領(lǐng)域經(jīng)驗,每一個開發(fā)者用好智能化工具,企業(yè)內(nèi)知識就可以通過工具傳導(dǎo)到研發(fā)過程中。比如開發(fā)場景里的代碼規(guī)范、測試場景里的測試用例、運(yùn)維場景里的運(yùn)維知識,都能得到更好的沉淀。
從落地路徑探索,到企業(yè)及個人開發(fā)者使用進(jìn)展看,通義靈碼已經(jīng)走在了大模型賦能AI代碼的落地前列?梢哉f,大模型應(yīng)用,AI代碼先行。而科技ToB,阿里云堅定投入,一直在路上。