Gate News 消息,4 月 24 日——DeepSeek 已在 MIT 授权下发布 V4 系列开源模型,权重现已在 Hugging Face 和 ModelScope 上提供。该系列包含两个 (MoE) 混合专家(Mixture-of-Experts)模型:V4-Pro 总参数 1.6 万亿、每 token 激活 49 亿,以及 V4-Flash 总参数 2840 亿、每 token 激活 13 亿。两者都支持 100 万 token 的上下文窗口。
该架构包含三项关键升级:混合注意力机制,将压缩稀疏注意力 (CSA) 与高度压缩注意力 (HCA) 结合,大幅降低长上下文开销——V4-Pro 在 100 万上下文下的推理 FLOPs 仅为 V3.2 的 27%,用于推理过程中存储历史信息的 KV cache (VRAM) 也仅为 V3.2 的 10%;用流形约束超连接 (mHC) 替代传统残差连接,以增强跨层信号传播稳定性;以及用于更快训练收敛的 Muon 优化器。预训练使用了超过 32 万亿个 token 的数据。
后训练采用两阶段策略:首先通过监督微调 (SFT) 和基于 GRPO 的强化学习训练领域专属专家,然后通过在线蒸馏将它们合并为单一模型。V4-Pro-Max (最高推理模式) 宣称是最强的开源模型,拥有顶级编码基准,并在推理与智能体任务上显著缩小了与闭源前沿模型之间的差距。V4-Flash-Max 在足够的计算预算下达到 Pro 级推理性能,但在纯知识与复杂智能体任务上会受限于参数规模。权重以混合 FP4+FP8 精度存储。
免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見
聲明。
相關文章
中國的知識產權局將AI、半導體與腦機介面納入加速保護計畫
閘道新聞訊息,4月24日——中國國家知識產權局於4月24日宣布,將透過制度改革、強化服務與擴大應用,為新興技術建立全面的知識產權保護。該局將
GateNews4分鐘前
美國政府在不挖礦的情況下運行比特幣節點,海軍上將表示
一位資深海軍上將已指出,美國政府正在積極在比特幣網路上運行一個節點,同時刻意避免參與挖礦活動。這項披露暗示,當局正在對區塊鏈基礎設施扮演更深入的角色,以進行監督與
Crypto Frontier20分鐘前
特斯拉 Q1 營收年增 16% 至 224 億美元;人形機器人將於 2026 年年中亮相
Gate News 訊息,4 月 24 日 — 特斯拉在 4 月 23 日公布其第一季度營收為 224 億美元,年增 16%。該公司全球汽車交付量超過 358,000 輛,而產量則突破 408,000 輛。
特斯拉的上海 Gigafactory 在本季度交付了 213,000 輛車,較去年同期成長 23.5%.
GateNews20分鐘前
SK Hynix Q1 利潤飆升五倍創紀錄,AI 熱潮帶動員工獎金至 878K 美元
門戶新聞訊息,4月24日——SK Hynix發布消息稱,其季度營業利潤在4月23日飆升五倍,創下紀錄,達到37.61兆韓元 ($32.4 billion),主要受人工智慧與資料中心需求激增帶動。這筆意外之財正在推動前所未有的員工獎金,分析師認為
GateNews1小時前
DeepSeek V4 架構獲證實:4 項預測命中 3 項,Engram 模組缺席
Gate 新聞訊息,4月24日 — DeepSeek 今天發布了 V4 模型卡,透過對昨日發布的 TileKernels 核心程式庫進行分析所提出的先前架構推測得到了驗證 (4月23日)。根據 Beating 的監測,已確認三個核心組件:mHC
GateNews1小時前
SoftBank 計劃在大阪建造 AI 資料中心電池工廠,目標五年內量產
Gate News 訊息,4 月 24 日——日本軟銀集團的行動事業體 SoftBank Corp 計劃將其位於大阪堺市的部分工廠改造為面向 AI 資料中心的大型電池生產線。預計執行長宮川淳一(Junichi Miyakawa)將在 5 月宣布該項目,作為一項新的五年計劃的一部分。
GateNews1小時前