中國(guó)電競(jìng)網(wǎng)

中國(guó)電競(jìng)網(wǎng)

DeepSeek-V3 發(fā)布新論文,揭示低成本大模型訓(xùn)練的奧秘

近日,DeepSeek 團(tuán)隊(duì)發(fā)布了關(guān)于其最新模型 DeepSeek-V3的一篇技術(shù)論文,重點(diǎn)討論了在大規(guī)模人工智能模型訓(xùn)練中遇到的 “擴(kuò)展挑戰(zhàn)” 以及與硬件架構(gòu)相關(guān)的思考。這篇長(zhǎng)達(dá)14頁(yè)的論文不僅總結(jié)了 DeepSeek 在開發(fā) V3過程中的經(jīng)驗(yàn)與教訓(xùn),還為未來的硬件設(shè)計(jì)提供了深刻的見解。值得注意的是,DeepSeek 的 CEO 梁文鋒也參與了論文的撰寫。

image.png

論文地址: https://arxiv.org/pdf/2505.09343

該研究表明,當(dāng)前大語(yǔ)言模型(LLM)的迅速擴(kuò)展暴露了現(xiàn)有硬件架構(gòu)的許多局限性,比如內(nèi)存容量、計(jì)算效率和互連帶寬。DeepSeek-V3在2048塊 NVIDIA H800GPU 集群上訓(xùn)練,通過有效的硬件感知模型設(shè)計(jì),克服了這些限制,實(shí)現(xiàn)了經(jīng)濟(jì)高效的大規(guī)模訓(xùn)練和推理。

image.png

論文中提出了幾個(gè)關(guān)鍵點(diǎn)。首先,DeepSeek-V3采用了先進(jìn)的 DeepSeekMoE 架構(gòu)和多頭潛在注意力(MLA)架構(gòu),極大地提高了內(nèi)存效率。MLA 技術(shù)通過壓縮鍵值緩存,顯著降低了內(nèi)存使用,使得每個(gè) token 只需70KB 的內(nèi)存,相比其他模型大幅減少。

其次,DeepSeek 還實(shí)現(xiàn)了成本效益的優(yōu)化。通過其混合專家(MoE)架構(gòu),DeepSeek-V3在激活參數(shù)的數(shù)量上實(shí)現(xiàn)了顯著的降低,訓(xùn)練成本相比于傳統(tǒng)密集模型降低了一個(gè)數(shù)量級(jí)。此外,該模型在推理速度上也進(jìn)行了優(yōu)化,采用雙微批次重疊架構(gòu)來最大化吞吐量,確保 GPU 資源得到充分利用。

DeepSeek 在未來硬件設(shè)計(jì)方面提出了創(chuàng)新的思考。他們建議通過聯(lián)合優(yōu)化硬件和模型架構(gòu),來應(yīng)對(duì) LLM 的內(nèi)存效率、成本效益和推理速度三大挑戰(zhàn)。這為日后的 AI 系統(tǒng)開發(fā)提供了寶貴的參考。


標(biāo)簽:DeepSeek V3 新論文 低成本 大模型