娇妻粗大高潮白浆,国产亚洲精品久久久久久久久动漫,麻豆美女丝袜人妻中文

行業首個：商湯發布并開源 NEO 原生多模態模型架構，實現視覺、語言深層統一

2025-12-03 09:03 IT之家

導讀：商湯科技發布并開源了與南洋理工大學 S-Lab 合作研發的全新多模態模型架構 ——NEO，為日日新 SenseNova 多模態模型奠定了新一代架構的基石。

　　12 月 2 日消息，商湯科技發布并開源了與南洋理工大學 S-Lab 合作研發的全新多模態模型架構 ——NEO，為日日新 SenseNova 多模態模型奠定了新一代架構的基石。

　　NEO 宣稱是“行業首個可用的、實現深層次融合的原生多模態架構（Native VLM）”，從底層原理出發，打破了傳統“模塊化”范式的桎梏，以“專為多模態而生”的設計，通過核心架構層面的多模態深層融合，實現了性能、效率和通用性的整體突破。

　　商湯科技介紹稱，當前業內主流的多模態模型大多遵循“視覺編碼器 + 投影器 + 語言模型”的模塊化范式。這種基于大語言模型（LLM）的擴展方式，雖然實現了圖像輸入的兼容，但本質上仍以語言為中心，圖像與語言的融合僅停留在數據層面。這種“拼湊”式的設計不僅學習效率低下，更限制了模型在復雜多模態場景下（比如涉及圖像細節捕捉或復雜空間結構理解）的處理能力。

　　商湯推出了從零設計的 NEO 原生架構，通過在注意力機制、位置編碼和語義映射三個維度的底層創新，讓模型天生具備了統一處理視覺與語言的能力：

　　原生圖塊嵌入（Native Patch Embedding）：摒棄了離散的圖像 tokenizer，通過獨創的 Patch Embedding Layer (PEL) 自底向上構建從像素到詞元的連續映射。這種設計能更精細地捕捉圖像細節，突破了主流模型的圖像建模瓶頸。

　　原生三維旋轉位置編碼（Native-RoPE）：解耦了三維時空頻率分配，視覺維度采用高頻、文本維度采用低頻，適配兩種模態的自然結構。這使得 NEO 不僅能捕獲圖像的空間結構，更具備向視頻處理、跨幀建模等復雜場景無縫擴展的潛力。

　　原生多頭注意力（Native Multi-Head Attention）：針對不同模態特點，NEO 在統一框架下實現了文本 token 的自回歸注意力和視覺 token 的雙向注意力并存。這種設計提升了模型對空間結構關聯的利用率，從而更好地支撐復雜的圖文混合理解與推理。

　　此外，配合 Pre-Buffer & Post-LLM 雙階段融合訓練策略，NEO 能夠在吸收原始 LLM 完整語言推理能力的同時，從零構建視覺感知能力，解決了傳統跨模態訓練中語言能力受損的難題。

　　測試顯示，NEO 實現了多方面的突破：

　　數據效率：僅需業界同等性能模型 1/10 的數據量（3.9 億圖像文本示例），NEO 便能開發出“頂尖的視覺感知能力”。無需依賴海量數據及額外視覺編碼器，其架構便能在多項視覺理解任務中追平 Qwen2-VL、InternVL3 等頂級模塊化旗艦模型。

　　性能：在 MMMU、MMB、MMStar、SEED-I、POPE 等多項公開評測中，NEO 架構均斬獲高分。

　　推理性價比：特別是在 0.6B-8B 的參數區間內，NEO 在邊緣部署方面優勢顯著。

　　商湯已正式開源基于 NEO 架構的2B 與 9B 兩種規格模型。

国产精品 一区二区三区-四虎成人久久精品无码-夜夜澡人摸人人添人人看,免费无码av一区二区三区,国产成人精品一区二三区在线观看 ,久久成人国产精品一区二区

行業首個：商湯發布并開源 NEO 原生多模態模型架構，實現視覺、語言深層統一

相關閱讀

国产精品一区二区三区-四虎成人久久精品无码-夜夜澡人摸人人添人人看,免费无码av一区二区三区,国产成人精品一区二三区在线观看 ,久久成人国产精品一区二区