国产精品 一区二区三区-四虎成人久久精品无码-夜夜澡人摸人人添人人看,免费无码av一区二区三区,国产成人精品一区二三区在线观看 ,久久成人国产精品一区二区

應用

技術

物聯網世界 >> 物聯網新聞 >> 物聯網熱點新聞
企業注冊個人注冊登錄

豆包提出全新稀疏模型架構 UltraMem,推理成本較 MoE 最高可降 83%

2025-02-13 09:12 IT之家

導讀:豆包大模型團隊宣布,字節跳動豆包大模型團隊提出了全新的稀疏模型架構 UltraMem,該架構有效解決了 MoE 推理時高額的訪存問題,推理速度較 MoE 架構提升 2-6 倍,推理成本最高可降低 83%。

  2 月 12 日消息,豆包大模型團隊宣布,字節跳動豆包大模型團隊提出了全新的稀疏模型架構 UltraMem,該架構有效解決了 MoE 推理時高額的訪存問題,推理速度較 MoE 架構提升 2-6 倍,推理成本最高可降低 83%。該研究還揭示了新架構的 Scaling Law,證明其不僅具備優異的 Scaling 特性,更在性能上超越了 MoE。

  實驗結果表明,訓練規模達 2000 萬 value 的 UltraMem 模型,在同等計算資源下可同時實現業界領先的推理速度和模型性能,為構建數十億規模 value 或 expert 開辟了新路徑。

  據介紹,UltraMem 是一種同樣將計算和參數解耦的稀疏模型架構,在保證模型效果的前提下解決了推理的訪存問題。實驗結果表明,在參數和激活條件相同的情況下,UltraMem在模型效果上超越了 MoE,并將推理速度提升了2-6倍。此外,在常見 batch size 規模下,UltraMem 的訪存成本幾乎與同計算量的 Dense 模型相當。

  在 Transformer 架構下,模型的性能與其參數數量和計算復雜度呈對數關系。隨著 LLM 規模不斷增大,推理成本會急劇增加,速度變慢。

  盡管 MoE 架構已經成功將計算和參數解耦,但在推理時,較小的 batch size 就會激活全部專家,導致訪存急劇上升,進而使推理延遲大幅增加。

  注:“MoE”指 Mixture of Experts(專家混合)架構,是一種用于提升模型性能和效率的架構設計。在 MoE 架構中,模型由多個子模型(專家)組成,每個專家負責處理輸入數據的一部分。在訓練和推理過程中,根據輸入數據的特征,會選擇性地激活部分專家來進行計算,從而實現計算和參數的解耦,提高模型的靈活性和效率。