界面新聞記者 | 肖芳
6月15日,搜狗創(chuàng)始人王小川的新公司百川智能推出了70億參數(shù)量的中英文預(yù)訓(xùn)練大模型baichuan-7B。目前baichuan-7B大模型已在Hugging Face、Github以及Model Scope平臺發(fā)布。
在構(gòu)建預(yù)訓(xùn)練語料庫方面,百川智能稱其大模型以高質(zhì)量中文語料為基礎(chǔ),同時融合了優(yōu)質(zhì)的英文數(shù)據(jù)。在數(shù)據(jù)質(zhì)量方面,通過質(zhì)量模型對數(shù)據(jù)進(jìn)行打分,對原始數(shù)據(jù)集進(jìn)行篇章級和句子級的篩選;在內(nèi)容多樣性方面,利用自研超大規(guī)模局部敏感哈希聚類系統(tǒng)和語義聚類系統(tǒng),對數(shù)據(jù)進(jìn)行了多層次多粒度的聚類,最終構(gòu)建了包含1.2萬億token的兼顧質(zhì)量和多樣性的預(yù)訓(xùn)練數(shù)據(jù)。該公司強(qiáng)調(diào),相較于其他同參數(shù)規(guī)模的開源中文預(yù)訓(xùn)練模型,baichuan-7B數(shù)據(jù)量提高了超過50%。
據(jù)百川智能介紹,其在萬億優(yōu)質(zhì)中英文數(shù)據(jù)的基礎(chǔ)上,為了更好地提升訓(xùn)練效率,baichuan-7B深度整合了模型算子來加快計算流程,并針對任務(wù)負(fù)載和集群配置,自適應(yīng)優(yōu)化了模型并行策略以及重計算策略。通過高效的訓(xùn)練過程調(diào)度通信,baichuan-7B實(shí)現(xiàn)了計算與通信的高效重疊,進(jìn)而達(dá)到了超線性的訓(xùn)練加速,在千卡集群上訓(xùn)練吞吐達(dá)到180+Tflops的水平。
通常已有的開源模型窗口長度在2K以內(nèi),對于一些長文本建模任務(wù),如需要引入外部知識做搜索增強(qiáng)的場景,更長的處理長度有助于模型在訓(xùn)練與推理階段捕獲更多的上下文信息,2K的處理長度存在比較大的制約。而百川智能稱baichuan-7B基于高效的attention算子優(yōu)化實(shí)現(xiàn)了萬級別超長動態(tài)窗口的擴(kuò)張能力,本次開源的預(yù)訓(xùn)練模型開放了4K上下文窗口,使模型應(yīng)用場景更加廣泛。
此外,baichuan-7B還對模型訓(xùn)練流程進(jìn)行了深度優(yōu)化,采用了更科學(xué)且穩(wěn)定的訓(xùn)練流程和超參數(shù)選擇,使得baichuan-7B模型的收斂速度大大提升。
據(jù)了解,北京大學(xué)和清華大學(xué)兩所頂尖大學(xué)已使用baichuan-7B模型推進(jìn)相關(guān)研究工作,并計劃在未來與百川智能深入合作,共同推動baichuan-7B模型的應(yīng)用和發(fā)展。
今年4月10日,王小川宣布入場大模型創(chuàng)業(yè),和前搜狗COO茹立云聯(lián)合創(chuàng)立人工智能公司百川智能,旨在開發(fā)中國版的OpenAI基礎(chǔ)大模型及顛覆性上層應(yīng)用。據(jù)悉公司早前已獲得5000萬美元啟動資金,來自王小川與其業(yè)內(nèi)好友的個人支持。