Gate News 訊息,4 月 22 日——普林斯頓博士生 Yifan Zhang 在 X 上披露 DeepSeek V4 的完整技術規格,該內容在 4 月 19 日的預告之後發布。V4 具備 1.6 兆(1.6 trillion)總參數,並有輕量版本 V4-Lite,其參數為 2850 億(285 billion)。
該模型採用 DSA2 注意力機制,結合 DeepSeek 先前在 V3.2 的 DSA (DeepSeek Sparse Attention) 與 NSA (Native Sparse Attention)(含 512 維的頭部嵌入),並搭配稀疏多查詢注意力 (MQA) 與滑動視窗注意力 (SWA)。MoE (Mixture of Experts) 層包含 384 位專家,每次前向傳播啟用 6 位,並使用 Fused MoE Mega-Kernel。殘差連接採用 Hyper-Connections 架構。
首次揭露的訓練細節包括使用 Muon 優化器 (applying Newton-Schulz orthogonalization to momentum updates) 來處理動量更新、32K token 的預訓練上下文視窗,以及 GRPO (Group Relative Policy Optimization),並在強化學習期間使用 KL 散度校正。最終上下文視窗擴展至 100 萬(1 million)tokens。該模型為僅文字模型。
Zhang 並未受僱於 DeepSeek,公司也尚未對所披露資訊作出正式評論。
免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見
聲明。
相關文章
OpenClaw、Hermes 與 SillyTavern 已確認獲 GLM Coding Plan 支援
智譜 AI 產品經理 Li 宣布 OpenClaw、Hermes 和 SillyTavern 作為支援的 GLM Coding Plan 專案;其他工具將依個案評估。請勿分享憑證,或將訂閱用作 API 存取;遇到錯誤 1313 請聯繫客服。
智譜 AI 產品經理 Li 宣布,OpenClaw、Hermes 和 SillyTavern 已正式列入 GLM Coding Plan 的支援專案,其它工具將依個案評估。該項公告提醒使用者不要分享憑證或將訂閱用作 API 存取,並告知遇到錯誤 1313 的使用者聯繫客服。
GateNews4分鐘前
Google Cloud 執行長:Gemini 將於 2026 年驅動 Apple 個人化 Siri 的推廣
摘要:Gemini 將在 2026 年為個人化的 Apple Siri 提供動力,並基於 Apple 的 Foundation Models,且在 Gemini 協作推動下;Apple 正在 iOS 27/macOS 27 中測試一款類聊天的 Siri,預定於 2026 年 WWDC 揭曉。
摘要:Google Cloud 的 Gemini 預計將在 2026 年為個人化的 Apple Siri 提供動力,透過將 Gemini 與 Apple 的 Foundation Models 結合,形成約 $1 billion 的合作關係。Apple 正在測試一款重新設計、類聊天的 Siri,應用於 iOS 27/macOS 27,並採用 Dynamic Island 介面及新功能,該內容將於 6 月 8 日的 2026 年 WWDC 揭幕前推出。
GateNews35分鐘前
SpaceX-Cursor $60B 交易 為 SBF 的赦免論點 提供新證據
摘要
SpaceX 宣布與 $60 billion 的 Cursor 合作,並設有收購選項,將塑造 SBF 的赦免申請;而 Alameda 的早期 Cursor 持股以今日計算約值 $3 billion。該報導權衡了 SBF 的資不抵債主張、父母的公開宣傳、債權人的反對,以及赦免機率偏低的現實。
摘要
SpaceX-Cursor 交易推動 SBF 赦免申請;Alameda 的 $200k 持股將約為 $3B 今天 (15,000x)。SBF 主張 FTX 資不抵債;市場顯示赦免機率很低;川普不太可能赦免。
GateNews42分鐘前
Chegg 股價暴跌 99%,因 AI 正在顛覆教育科技市場
摘要:Chegg 在線上教育需求帶動下飆升,隨後 AI 工具擾亂其商業模式,導致大規模裁員,股價跌破 2 美元並陷入崩跌;而更廣泛由 AI 推動的轉變也衝擊了加密貨幣礦工與金融科技公司。
摘要:本文探討 Chegg 如何從疫情時代的教育科技寵兒崛起,並在生成式 AI 快速普及之際走向衰落;生成式 AI 能提供快速答案,削弱了 Chegg 的價值主張。文章記錄了 2025 年的裁員,以及股價朝退市方向的暴跌,並將 Chegg 的經歷置於更大範圍的 AI 破壞之中:改變科技與加密領域的格局——比特幣礦工轉向 AI 運營,而以 AI 為原生的策略則重新定義金融科技及其他領域的競爭力。
Crypto Frontier53分鐘前
OpenAI 發布開源隱私過濾器模型,用於偵測與遮蔽 PII
摘要:OpenAI 的隱私過濾器(Privacy Filter)是一個開源、可在本機執行的模型,用於偵測並遮蔽文字中的個人可識別資訊(PII)。它支援大型上下文,能辨識多種 PII 類別,並用於以隱私保護為導向的工作流程,例如資料準備、索引、記錄(logging)與內容審查(moderation)。
OpenAI 的隱私過濾器是一個在本機運行的開源模型 (128k-token context),可偵測並遮蔽文字中的 PII,涵蓋隱私工作流程所需的聯絡、金融與憑證資料。
GateNews1小時前
OpenAI 計劃在 2030 年前部署 30GW 的運算能力
OpenAI 目標在 2030 年前達到 30GW 的運算能力,以滿足日益增長的 AI 需求;其中 10GW 的 2025 年目標已完成 8GW。這次擴張顯示出一項策略,即擴大基礎設施規模,以支援下一代 AI 的開發與部署。
OpenAI 打算在 2030 年前達到 30GW 的運算能力,以因應不斷成長的 AI 需求;目前已完成 10GW、2025 年目標中的 8GW。此舉反映了 OpenAI 為支援下一代 AI 的開發與部署而進行的基礎設施策略性擴張。
GateNews1小時前