何のレポートがマスクさえも信じられないほどの衝撃を与えたのか?



Moonshot AI(Kimiチーム)が最近発表した爆発的な技術レポート:《Attention Residuals》は、Transformerでほぼ10年使われてきた残差結合(Residual Connections)をアップグレードしたものです。その結果、Elon Muskまでもがコメントせざるを得なくなり、信じられないほどの衝撃を受けたと感じました。

このレポートの核心は一言で要約できます:
「もう各層が前のすべての情報を等しい重みでただ単に足し合わせるのはやめて、モデル自身に注意機構を学習させて、どの初期層の信号が本当に有用かを選ばせよう!」

従来のTransformer(PreNorm構造)では、各層の出力は次のようになっています:
x_{l} = x_{l-1} + sublayer(x_{l-1} / √something)
これはシンプルで乱暴なやり方で、前の100層の情報が有用かどうかに関わらず、すべてを一気に加算します。層が深くなるほど、初期の重要な信号は後の無数の層によって希釈されてほとんど見えなくなります(これをPreNorm dilutionまたは表現の希釈と呼びます)。

Kimiチームはこの「+」記号を、軽量なクロス層注意(depth-wise attention)に置き換えました。

新しい式はおおよそこうです(簡略版):
x_l = Attention( Q=x_l^{pre}、K=これまでの層のサマリー、V=対応するvalue) + その他の要素

より実践的な実装は「Block AttnRes」と呼ばれ、数層ごと(例えば8〜16層ごと)にサマリーのkey/valueを作成し、その後、各層で注意を計算するのではなく、これらのサマリーを注意機構で選択します。こうすることで、メモリと計算量の増加はごくわずか(推論遅延<2%)に抑えつつ、効果は非常に高いです。

彼らの実験結果(彼ら自身のKimi Linearシリーズモデル、合計48B、アクティブ3B):
• 同じFLOPs(演算量)で、性能は1.25倍の計算能力の向上に相当
• 長いシーケンスの推論や複雑な多段推論タスクで顕著な改善
• 隠れ状態の大きさ(ノルム)がより安定し、従来の残差のように深くなるほど爆発したり減衰したりしない
• 勾配の伝播がより均一になり、深層の訓練が容易に

⚠️⚠️
では、なぜマスクはこれにこれほど反応したのか?

「残差結合は8年間も放置されていたのに、ついに誰かが動かしてくれて、しかもこんなにエレガントに、しかも効果も抜群?!」

これが重要な理由は、残差結合がほぼ唯一、Transformerが100層以上、さらには千層近くまで訓練できる救命策だったからです。誰もがこれが最適解だと思い込み、改善の余地はないと考えていました。ところが、Kimiは最も馴染みのある注意機構を使って、残差自体の問題を解決し、注意機構が必要なすべてを担うという新たな高みを実現したのです。

現在、Rustでの実装(burnフレームワークベース)、さまざまな可視化解説図がX(旧Twitter)上で拡散されており、DeepSeek mHCに続く、次世代のオープンソース・クローズドソース大規模モデルのアーキテクチャ革新として本格的に注目されています。

大規模モデルを作ったり、自分のLLMを訓練したりしているなら、このレポートは一晩中原文とコード(GitHubですでにオープンソース化済み)を読む価値があります。

レポート:
衝撃を受ける準備をしてください 🚀
原文表示
post-image
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン