是什么报告让马斯克看了也觉得不可思议?


Moonshot AI(Kimi团队)最近扔出一篇炸裂的技术报告:《Attention Residuals》,直接把 Transformer 里用了快 10年的残差连接(Residual Connections)给升级了。结果连 Elon Musk 都忍不住留言,感觉不可思议(unbelievable 级别的震惊)。
这篇的核心一句话就能概括:
“别再让每一层都傻傻地把前面所有层的信息等权重加起来了,让模型自己学会用注意力去挑哪些早期层的信号才真正有用!”
传统 Transformer(PreNorm结构)里,每一层的输出是:
x_{l} = x_{l-1} + sublayer(x_{l-1} / √something)
简单粗暴:不管前面 100层的信息到底有没有用,都一股脑加进来。层数一深,早期重要信号就被后面无数层稀释得快没了(他们叫这个现象 PreNorm dilution 或 representational dilution)。
Kimi团队直接把这个“+”号换成了一个轻量级的跨层注意力(depth-wise attention):
新公式大概长这样(简化版):
x_l = Attention( Q=x_l^{pre}, K=汇总前面所有层的summary, V=对应value ) + 其他东西
更实际的实现他们叫 Block AttnRes:每隔几层(比如8-16层)做一个总结 key/value,然后用注意力去选这些 总结,而不是每一层都算注意力。这样内存和算量增加很少(推理延迟<2%),但效果很猛。
他们实验结果(用他们自己的Kimi Linear系列模型,48B total / 3B active那种):
• 同等 FLOPs 下,性能提升相当于1.25倍算力优势
• 长序列推理、复杂多步推理任务提升明显
• 隐藏状态的 magnitude(范数)更稳定,不像传统残差那样越深越爆炸或越衰减
• 梯度传播更均匀,深层更容易训练
⚠️⚠️
问题来了,为什么马斯克那么大反应?
“残差连接躺了八年,终于有人敢动它了,而且动得这么优雅,效果还这么好?!”
这玩意儿为什么得注重?因为残差连接几乎是 Transformer 能训到100+层、甚至上千层的唯一救命稻草,大家都觉得已经最优了没法改。结果 Kimi 用最熟悉的注意力机制,反过来治了一下残差本身的问题,等于把注意力就是你需要的全部这句话又玩出了新高度。
现在已经有 Rust实现(基于burn框架)、各种可视化解释图在 X 上刷屏,还有人说这是继 DeepSeek mHC 之后,又一个真正能进下一代开源/闭源大模型的架构创新。
你要是做大模型、训自己的LLM、这篇报告值得连夜读原版 + 代码(GitHub已经开源)。
报告:
准备好被震撼吧 🚀
post-image
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论