国产午夜精品一区二区,亚洲欧美精品一中文字幕

王小川旗下大模型正式發(fā)布：70億參數(shù)量，北大清華已用｜把脈AI大模型

來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-06-15 19:38:50 瀏覽：5661次

導(dǎo)讀：界面新聞記者 | 肖芳 6月15日，搜狗創(chuàng)始人王小川的新公司百川智能推出了70億參數(shù)量的中英文預(yù)訓(xùn)練大模型baichuan-7B。目前baichuan-7B大模型已在Hugging Face、Github以及Model Scope平臺發(fā)布。在構(gòu)建預(yù)訓(xùn)練語料庫方面，百川智能稱其大模型以高質(zhì)量中文語料...

界面新聞記者 | 肖芳

6月15日，搜狗創(chuàng)始人王小川的新公司百川智能推出了70億參數(shù)量的中英文預(yù)訓(xùn)練大模型baichuan-7B。目前baichuan-7B大模型已在Hugging Face、Github以及Model Scope平臺發(fā)布。

在構(gòu)建預(yù)訓(xùn)練語料庫方面，百川智能稱其大模型以高質(zhì)量中文語料為基礎(chǔ)，同時融合了優(yōu)質(zhì)的英文數(shù)據(jù)。在數(shù)據(jù)質(zhì)量方面，通過質(zhì)量模型對數(shù)據(jù)進(jìn)行打分，對原始數(shù)據(jù)集進(jìn)行篇章級和句子級的篩選；在內(nèi)容多樣性方面，利用自研超大規(guī)模局部敏感哈希聚類系統(tǒng)和語義聚類系統(tǒng)，對數(shù)據(jù)進(jìn)行了多層次多粒度的聚類，最終構(gòu)建了包含1.2萬億token的兼顧質(zhì)量和多樣性的預(yù)訓(xùn)練數(shù)據(jù)。該公司強(qiáng)調(diào)，相較于其他同參數(shù)規(guī)模的開源中文預(yù)訓(xùn)練模型，baichuan-7B數(shù)據(jù)量提高了超過50%。

據(jù)百川智能介紹，其在萬億優(yōu)質(zhì)中英文數(shù)據(jù)的基礎(chǔ)上，為了更好地提升訓(xùn)練效率，baichuan-7B深度整合了模型算子來加快計算流程，并針對任務(wù)負(fù)載和集群配置，自適應(yīng)優(yōu)化了模型并行策略以及重計算策略。通過高效的訓(xùn)練過程調(diào)度通信，baichuan-7B實(shí)現(xiàn)了計算與通信的高效重疊，進(jìn)而達(dá)到了超線性的訓(xùn)練加速，在千卡集群上訓(xùn)練吞吐達(dá)到180+Tflops的水平。

通常已有的開源模型窗口長度在2K以內(nèi)，對于一些長文本建模任務(wù)，如需要引入外部知識做搜索增強(qiáng)的場景，更長的處理長度有助于模型在訓(xùn)練與推理階段捕獲更多的上下文信息，2K的處理長度存在比較大的制約。而百川智能稱baichuan-7B基于高效的attention算子優(yōu)化實(shí)現(xiàn)了萬級別超長動態(tài)窗口的擴(kuò)張能力，本次開源的預(yù)訓(xùn)練模型開放了4K上下文窗口，使模型應(yīng)用場景更加廣泛。

此外，baichuan-7B還對模型訓(xùn)練流程進(jìn)行了深度優(yōu)化，采用了更科學(xué)且穩(wěn)定的訓(xùn)練流程和超參數(shù)選擇，使得baichuan-7B模型的收斂速度大大提升。

據(jù)了解，北京大學(xué)和清華大學(xué)兩所頂尖大學(xué)已使用baichuan-7B模型推進(jìn)相關(guān)研究工作，并計劃在未來與百川智能深入合作，共同推動baichuan-7B模型的應(yīng)用和發(fā)展。

今年4月10日，王小川宣布入場大模型創(chuàng)業(yè)，和前搜狗COO茹立云聯(lián)合創(chuàng)立人工智能公司百川智能，旨在開發(fā)中國版的OpenAI基礎(chǔ)大模型及顛覆性上層應(yīng)用。據(jù)悉公司早前已獲得5000萬美元啟動資金，來自王小川與其業(yè)內(nèi)好友的個人支持。

王小川旗下大模型正式發(fā)布：70億參數(shù)量，北大清華已用｜把脈AI大模型
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-06-15 19:38:50 瀏覽：5661次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

王小川旗下大模型正式發(fā)布：70億參數(shù)量，北大清華已用｜把脈AI大模型 來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-06-15 19:38:50 瀏覽：5661次