導讀:豆包大模型團隊宣布,字節跳動豆包大模型團隊提出了全新的稀疏模型架構 UltraMem,該架構有效解決了 MoE 推理時高額的訪存問題,推理速度較 MoE 架構提升 2-6 倍,推理成本最高可降低 83%。
2 月 12 日消息,豆包大模型團隊宣布,字節跳動豆包大模型團隊提出了全新的稀疏模型架構 UltraMem,該架構有效解決了 MoE 推理時高額的訪存問題,推理速度較 MoE 架構提升 2-6 倍,推理成本最高可降低 83%。該研究還揭示了新架構的 Scaling Law,證明其不僅具備優異的 Scaling 特性,更在性能上超越了 MoE。
實驗結果表明,訓練規模達 2000 萬 value 的 UltraMem 模型,在同等計算資源下可同時實現業界領先的推理速度和模型性能,為構建數十億規模 value 或 expert 開辟了新路徑。
據介紹,UltraMem 是一種同樣將計算和參數解耦的稀疏模型架構,在保證模型效果的前提下解決了推理的訪存問題。實驗結果表明,在參數和激活條件相同的情況下,UltraMem在模型效果上超越了 MoE,并將推理速度提升了2-6倍。此外,在常見 batch size 規模下,UltraMem 的訪存成本幾乎與同計算量的 Dense 模型相當。
在 Transformer 架構下,模型的性能與其參數數量和計算復雜度呈對數關系。隨著 LLM 規模不斷增大,推理成本會急劇增加,速度變慢。
盡管 MoE 架構已經成功將計算和參數解耦,但在推理時,較小的 batch size 就會激活全部專家,導致訪存急劇上升,進而使推理延遲大幅增加。
注:“MoE”指 Mixture of Experts(專家混合)架構,是一種用于提升模型性能和效率的架構設計。在 MoE 架構中,模型由多個子模型(專家)組成,每個專家負責處理輸入數據的一部分。在訓練和推理過程中,根據輸入數據的特征,會選擇性地激活部分專家來進行計算,從而實現計算和參數的解耦,提高模型的靈活性和效率。