AI の波がメモリ需要を押し上げ、価格も水位のように上昇している。それでも外部では、HBM が「周期的」な反転を繰り返し、過去の DRAM のように需要のピーク後に急速に勢いを失うのではないかという懸念が残っている。半導体アーキテクチャ分析者 fin はこれについて、HBM の需要ロジックが従来のメモリ産業の規則から切り離されており、token を通じて再定価されつつあると指摘する。
(メモリの上げ相場は落ち着く? 機関評価では Q2 の上昇幅が 30% に縮小、下半期はさらに減速)
CPU 時代のメモリ:あってもなくてもいい付属品
fin は、CPU が計算を主導した時代において DDR メモリの役割は常に補助的だったと指摘する。CPU エンジニアは、メモリ遅延を隠すための一連のアーキテクチャ技術を発展させてきた。具体的には、超スーパースカラー設計、多層キャッシュ、レジスタのリネーミングなどで、処理器は高速メモリに依存しない条件でも高い性能を維持できる:
業界の経験則では、DDR の帯域幅が直接 2 倍になっても、CPU 全体の性能向上は多くの場合 2 割を超えない。
このアーキテクチャは、過去数十年にわたる DRAM 産業の成長リズムを直接形作ってきた。DDR3 から DDR5 まで、実に 15 年を要した。過去 10 年では、一般的な PC の DDR 容量は 7 〜 8 GB から約 23 GB へ増え、10 年で 3 倍にしかならなかった。DRAM メーカーの主な利益源は容量の大きさであり、帯域幅のアップグレードは単位販売価格を引き上げる手段にすぎない。
CPU 時代において、メモリは半導体産業の中でも限界効用が最も低い部分であり、周期的な上下動は常態であり、そして宿命でもある。
AI 推論時代が到来し、メモリの価値基準を書き換える
しかし、演算の主役が AI 推論エンジンへ切り替わると、評価基準もそれに応じて更新される。半導体メーカーが競うのは、1 秒あたりにどれだけの浮動小数点演算を実行できるか、ではなくなり、いまや AI 時代のコア KPI は 1 つだけになった。すなわち、コスト効率と消費電力あたりで、どれだけの token を生み出せるかである。
NVIDIA の CEO 黄仁勳(ジェンスン・フアン)が提唱した「AI 工場」という概念は、この新しいロジックを正確に言い当てている。AI 工場が存在する意義とは、最小コストで最大の token を生産し、同時に token 出力速度を極限まで押し上げることにある。最適化目標は単一の次元から拡張され、token の総スループットを最大化することに加え、1 リクエストあたりの token 出力速度も追求する。
この KPI の変化こそが、HBM の運命が反転する起点になる。
Token スループットの式が、HBM 需要の第一原理を明かす
fin は、AI 推論における token スループットを 2 つのパラメータの積として分解する。「同時に処理するリクエストのバッチ数 × 各リクエストの平均 token 生成速度」。それぞれのパラメータがどこでボトルネックになるのかをたどると、答えは同じ部品へと収束していく。
バッチ数のボトルネックは HBM の記憶容量にある。推論リクエストはすべて独自の KV キャッシュを携える。KV キャッシュとは、モデルの推論過程で中間状態を保存する仕組みであり、このキャッシュはモデルが token を 1 つ生成するたびに高速に繰り返し読み出すため、HBM 内に即時に格納されていなければならない。バッチ規模が大きくなるほど HBM に必要な保存容量も大きくなり、両者は線形に比例する。
token 速度のボトルネックは HBM の帯域幅にある。モデルのデコード段階で token を 1 つ生成するたびに、大量のロード重みと KV キャッシュを繰り返し読み出す必要がある。読み出し速度は token 生成効率を直接左右し、読み出し速度の上限は HBM の帯域幅で決まる。
彼は、この関係を空港のシャトルバスで例えることができると言う。HBM 容量はシャトルバスの車内スペースの大きさで、1 回に乗せられる乗客数を決める。HBM 帯域幅は車門の幅で、乗客の乗り降りのスピードを決める。旅客輸送の総スループットは、車内スペースの大きさに上車速度を掛けた積になる。そこから、AI 推論ハードウェア需要の第一原則が導かれる:
Token スループット = HBM 容量 × HBM 帯域幅
各世代の GPU の token スループットを 2 倍の世代成長に保つには、HBM 容量と HBM 帯域幅の積を毎世代 2 倍にする必要がある。
ソフトウェア最適化では解けない問題で、HBM 需要は指数軌道に固定される
この推論に対し、市場で最もよくある反論は「ソフトウェア最適化によって HBM への依存を下げられないのか?」だという。彼の答えは、ソフトウェア効率の向上とハードウェア仕様の進歩は、完全に独立した 2 つの次元であり、互いに代替し合うものではないというものだ。これは、CPU のソフトウェア最適化がどれほど徹底されても、Intel や AMD が毎世代の標準テストでより高いスコアを出さなければならない現実を止められないのと同じで、そうでなければ製品は売れない。
GPU のロジックもまったく同じだ。世界の token 需要が引き続き拡大する限り、より高い token スループットへの追求は止まらないし、HBM の両面での進歩を求める要求も止まらない。
さらに重要なのは、この圧力が外部の景気によって引き起こされているのではなく、供給側の内生的な需要から来ていることだ。NVIDIA が次世代の GPU を売る以上、SK 海力士、Samsung(サムスン)、Micron(マイクロン)に対して、毎世代の HBM が容量と帯域幅の両面で同時に跳躍的に進化するよう迫ることになる。なぜなら HBM の天井は、GPU 性能の天井そのものだからだ。
NVIDIA が A100 から Rubin Ultra まで各世代 GPU の token スループットと、対応する「HBM 容量 × HBM 帯域幅」の数値を同じ対数座標グラフ上に描くと、2 本の曲線の一致度は驚くほど高いはずだ。これは歴史的な偶然ではなく、システム最適化の必然的な結果である。
HBM は周期の宿命に別れを告げたが、市場の値付けロジックは再評価が必要
上記のようなアーキテクチャ面での推論を総合すると、HBM と従来の DRAM の本質的な違いはすでに明確になっている。従来メモリは半導体産業の付属品であり、需要を押し上げる力が弱い。生産能力の増強スケジュールが需要の回復を上回った瞬間、周期的な値崩れが当然のようにやってくる。
一方で HBM の需要は、AI 推論アーキテクチャがもたらす物理的な論理によって、指数成長の軌道へと固定されている。これは、AI 全体市場の温度感やマクロ経済の景気循環とは、直接的な因果関係がない。
もちろん本当の問題は需要側ではなく、供給側にある。SK 海力士、三星、そして美光(Micron)のこの 3 大プレイヤーが、強い需要に直面したときに、過去数十年にわたり繰り返されてきた盲目的な増産衝動を抑え込み、再び供給過剰という周期的な禍根を埋めないで済むかどうか、という点だ。この問いの答えこそが、今回のメモリのサイクルが長期にわたり継続できるかどうかを左右する鍵変数となる。
(メモリ株が大暴落しても買える? 三星証券のアナリスト:サイクル内の修正であって景気の天井ではない)
この記事は「周期性の迷信」を打ち破る! 1 つの数式で HBM 需要の構造を解き明かす:なぜメモリはこれからも上昇し続けるのか? この記事は最初に 鏈新聞 ABMedia に掲載された。
関連記事