DeepSeek V4 架构已验证:4项预测命中3项,缺少 Engram 模块

Gate 新闻消息,4月24日——DeepSeek 今天发布了 V4 模型卡,证实了此前通过对昨日发布的 TileKernels 内核库进行分析所做的架构预测 (4月23日)。根据 Beating 的监测,已确认三个核心组件:mHC (Manifold-Constrained Hyper-Connections) 取代字节跳动原始的 HyperConnection,采用带 Top-k 专家路由的 MoE 架构,以及 FP4+FP8 混合精度权重存储。预测的 Engram 条件记忆模块未出现在模型卡中。

模型卡还揭示了 TileKernels 未覆盖的新组件:混合注意力机制 (CSA + HCA) 推动了 V4 的长上下文效率提升,将在 1M 上下文窗口下的推理 FLOPs 降至仅为 V3.2 水平的 27%,并将 KV 缓存降至 10%。训练现在使用 Muon 优化器。

该验证展示了生产级内核实现如何在官方规范发布之前揭示底层模型架构。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

V4-Pro 在内部自用测试中实现 67% 编码通过率,逼近 Opus 4.5 性能

Gate News 消息,4月24日——V4 已公开披露其 V4-Pro 模型的内部自用(dogfooding)数据。该公司从 50 多名工程师处收集了约 200 项真实的工程任务,覆盖特性开发、错误修复、重构以及跨技术栈的诊断,包括

GateNews14 分钟前

英国瞄准安特罗匹(Anthropic)人工智能以加强银行网络安全

英国正在与人工智能公司 Anthropic 合作,探索金融网络安全方面的一大步。早期讨论显示,政府可能会在银行和金融机构中部署 Anthropic 的先进 Claude Mythos 模型。此举旨在加强防御,以应对网络威胁

CryptoMeter io18 分钟前

中国知识产权局将 AI、半导体和脑机接口纳入快速通道保护计划

Gate News 消息,4月24日——中国国家知识产权局在4月24日宣布,将通过机构改革、强化服务以及扩大应用,为新兴技术建立全面的知识产权保护体系。该局将优化专利审查政策,在人工智能、半导体及相关领域的创新方面,提供多种路径,包括优先审查和加速审查。

GateNews25 分钟前

美国政府在不进行挖矿的情况下运行比特币节点,海军上将表示

一位资深海军上将已表示,美国政府正在积极在比特币网络上运行一个节点,同时刻意避免参与挖矿活动。该披露暗示,当局正在更深入地参与区块链基础设施,以便进行监督和

Crypto Frontier41 分钟前

特斯拉Q1营收增长16%,至224亿美元;人形机器人计划于2026年年中亮相

Gate News 消息,4月24日——特斯拉在4月23日公布的第一季度营收为224亿美元,同比增长16%。公司全球汽车交付量超过358,000辆,而产量超过408,000辆。 特斯拉的上海超级工厂在该季度交付了213,000辆车辆

GateNews41 分钟前

SK Hynix一季度利润因AI繁荣实现五倍飙升并创纪录,员工奖金增至878K

Gate News 消息,4月24日——SK Hynix报告称,截至4月23日,其季度经营利润实现五倍增长,创下纪录,达到37.61万亿韩元 ($32.4 billion),主要受益于来自人工智能和数据中心的需求暴涨。该意外之财正在推动前所未有的员工奖金,分析师预计该奖金可能在2027年每位员工最高达到$878,000,若当前盈利预

GateNews1小时前
评论
0/400
暂无评论