DeepSeek V4 架構獲證實:4 項預測命中 3 項,Engram 模組缺席

Gate 新聞訊息,4月24日 — DeepSeek 今天發布了 V4 模型卡,透過對昨日發布的 TileKernels 核心程式庫進行分析所提出的先前架構推測得到了驗證 (4月23日)。根據 Beating 的監測,已確認三個核心組件:mHC (Manifold-Constrained Hyper-Connections) 取代 ByteDance 原本的 HyperConnection,採用 Top-k 專家路由的 MoE 架構,以及 FP4+FP8 混合精度權重儲存。模型卡中未出現被預測的 Engram 條件記憶模組。

模型卡揭示了 TileKernels 未涵蓋的全新組件:混合注意力機制 (CSA + HCA) 推動 V4 的長上下文效率提升,使推理 FLOPs 僅達到 V3.2 在 1M 上下文窗口下的 27%,KV 快取降至 10%。訓練現在使用 Muon 優化器。

此次驗證展示了,生產級的核心程式實作如何在官方規格發布之前揭示底層模型架構。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

V4-Pro 在內部自我測試中達到 67% 程式通過率,接近 Opus 4.5 的效能

Gate News 消息,4 月 24 日 — V4 已公開披露其 V4-Pro 模型的內部自我測試(dogfooding)數據。該公司從超過 50 位工程師收集了約 200 項真實世界的工程任務,涵蓋功能開發、錯誤修復、重構以及跨技術棧的診斷,包括

GateNews14分鐘前

英國著眼 Anthropic AI 以強化銀行業網路安全

英國正透過與 AI 公司 Anthropic 合作,探索金融資安領域的一項重大舉措。早期討論顯示,政府可能會將 Anthropic 的先進 Claude Mythos 模型部署於各銀行與金融機構。此舉旨在加強防禦,因為網路威脅

CryptoMeter io18分鐘前

中國的知識產權局將AI、半導體與腦機介面納入加速保護計畫

閘道新聞訊息,4月24日——中國國家知識產權局於4月24日宣布,將透過制度改革、強化服務與擴大應用,為新興技術建立全面的知識產權保護。該局將

GateNews25分鐘前

美國政府在不挖礦的情況下運行比特幣節點,海軍上將表示

一位資深海軍上將已指出,美國政府正在積極在比特幣網路上運行一個節點,同時刻意避免參與挖礦活動。這項披露暗示,當局正在對區塊鏈基礎設施扮演更深入的角色,以進行監督與

Crypto Frontier41分鐘前

特斯拉 Q1 營收年增 16% 至 224 億美元;人形機器人將於 2026 年年中亮相

Gate News 訊息,4 月 24 日 — 特斯拉在 4 月 23 日公布其第一季度營收為 224 億美元,年增 16%。該公司全球汽車交付量超過 358,000 輛,而產量則突破 408,000 輛。 特斯拉的上海 Gigafactory 在本季度交付了 213,000 輛車,較去年同期成長 23.5%.

GateNews41分鐘前

SK Hynix Q1 利潤飆升五倍創紀錄,AI 熱潮帶動員工獎金至 878K 美元

門戶新聞訊息,4月24日——SK Hynix發布消息稱,其季度營業利潤在4月23日飆升五倍,創下紀錄,達到37.61兆韓元 ($32.4 billion),主要受人工智慧與資料中心需求激增帶動。這筆意外之財正在推動前所未有的員工獎金,分析師認為

GateNews1小時前
留言
0/400
暫無留言