AI基盤の隘路はGPUからメモリー側へ移りつつある。学習を支えるHBMの積層技術と帯域幅、推論を支えるDRAM容量と企業向けSSDのスループット、さらにHBMの増産がDRAMの生産能力を圧迫する構造までを体系的に解説する。株式情報や投資判断には踏み込まず、なぜAIの計算性能がメモリー階層によって制約されるのかを、工程と具体的な数値をもとに読み解く。

この一年、AIの話題で最も人だかりができていたのはGPUだった。学習も推論もデータセンターも、まずは計算用の半導体が足りるかどうかに関心が集まり、演算性能が技術の物語の中心に据えられてきた。ところが現場では、計算を支える記憶の側に目詰まりが移り始めている。広帯域メモリー(HBM)、主記憶のDRAM、記憶装置のNAND型フラッシュメモリーと企業向けSSDが、GPUの陰で次の隘路として浮かび上がってきた。冒頭の図が示す価格上昇の予測も、根っこにあるのは投機ではなく、メーカーが限られた生産能力をAIサーバー向けへ振り向け、一般用途の供給が押しのけられているという物理的な現象だ。本稿は、AIの基盤を成り立たせる記憶の階層を、その動作の仕組みと製造の制約から順に解く。

計算は宙に浮けない — GPUの外側に現れた隘路

GPUは計算を担うが、計算はデータを供給され続けなければ止まる。モデルが大きく、推論の回数が増えるほど、データを運ぶ帯域、ためておく容量、読み書きの速さ、そして消費電力あたりの効率への要求が跳ね上がる。演算性能はこの数年で桁違いに伸びた一方、メモリーの帯域の伸びははるかに緩く、巨大モデルの実行は計算ではなく帯域に足を引っ張られる。研究者がメモリーの壁と呼ぶ、この伸びの差が問題の核心にある(Gholami ほか)。

計算を満たす記憶の階層とAIの使い分け
計算を満たす記憶の階層とAIの使い分け

記憶は、速くて小さいものから遅くて大きいものへと階層をなす。GPUの至近に置くHBMが最大の帯域を持ち、その外側にサーバーの作業領域であるDRAM、さらに外側に大容量で安価なNAND型のSSDが控える。図のとおり、学習はHBMの帯域に、推論はDRAMの容量とSSDの処理量に、それぞれ支えられる。GPUだけを見ていると計算が高価になっていく姿しか見えないが、速度と費用を実際に決めているのは、この外側の三つの層だ。

帯域を稼ぐために積み上げる — HBMの仕組み

HBMが桁違いの帯域を出せるのは、DRAMのダイを縦に積み上げ、太い接続を一度に開くからだ。通常のメモリーが細い経路を高い周波数で動かすのに対し、HBMはダイを8段から12段重ね、シリコンを垂直に貫く電極(シリコン貫通電極、TSV)で串刺しにして、1スタックあたり1024ビットという広い接続幅を得る。広い口をほどほどの速度で流すことで、巨大な帯域と低い消費電力を両立させる。

帯域を稼ぐために縦に積む — HBMの構造
帯域を稼ぐために縦に積む — HBMの構造

工程の位置づけも独特だ。DRAMのウエハーを50マイクロメートル以下まで薄く削り、貫通電極と微細な接合端子を作り込んでから積層し、最後にシリコンインターポーザーという橋渡しの土台へGPUと並べて載せる。この実装は半導体の後工程に属し、製造の難しさが価格と供給を左右する。現行のHBM3Eは1スタック36ギガバイト(12段)で帯域はおよそ毎秒1.2テラバイト、これを8スタック束ねた加速器なら合計で毎秒8テラバイト級に達する。次世代のHBM4は接続幅を2048ビットへ倍増し、土台の制御ダイを受託製造で作る方向に進む。基板上に広く並べて帯域を稼ぐ従来型のメモリーと比べ、積み上げ型のHBMは同じ面積により多くの帯域と容量を収められる。

学習と推論で変わるメモリーの使われ方

同じモデルでも、学習と推論では詰まる場所が違う。学習では、何兆もの語句を繰り返し読み込み、その都度すべての数値を少しずつ更新する。データをGPUへ高速で流し込むHBMの帯域が足りなければ、演算器は手すきのまま待たされる。さらに学習は、更新の途中状態を保持するために、数値一つあたり16から20バイトもの作業領域を抱える。帯域と容量を同時に要求するのが学習の重さだ。

学習と推論で変わるメモリーの使われ方
学習と推論で変わるメモリーの使われ方

推論は逐次的に進む。前の語を見て次の語を選ぶ生成では、過去の文脈を保持するキャッシュが、文章の長さと同時に応対する利用者の数に比例して膨らむ。このキャッシュがDRAMの容量を圧迫し、容量の上限がそのまま同時に捌ける利用者数の上限になる(vLLM の研究)。あふれた分はDRAMやSSDへ逃がすため、推論では容量と読み書きの速さがものを言う。学習は帯域、推論は容量——この使い分けが、HBMとDRAMとSSDのどれが先に詰まるかを決める。

容量を支えるDRAMと、その壁

DRAMは、ごく小さな蓄電器(コンデンサー)に電荷をためて1ビットを記憶する。1個のトランジスタと1個の蓄電器で1ビットを構成する単純な仕組みだが、電荷は時間とともに漏れるため、絶えず読み直して書き戻す再書き込みが要る。微細化が進むほど蓄電器は細く深くなり、容量を保つために穴の縦横比を極端に高める設計が限界に近づいている。最先端の世代では露光に極端紫外線(EUV)を導入し、十ナノメートル級の世代を一段ずつ前へ進めている。

推論のキャッシュが膨らむほど、サーバーに積むDRAMの量は増える。現行のDDR5は1チャネルあたり毎秒51.2ギガバイト、十二チャネルのサーバーでおよそ毎秒600ギガバイトを供給するが、CPUに直結できる容量には基板と端子の物理的な上限がある。この天井を越えるために、既存の高速配線の上にメモリーを増設する新しい接続規格(CXL)が現れ、DRAMの容量を別の層として足す試みが進んでいる。容量を稼ぐ競争は、素子の微細化と、つなぎ方の工夫の両面で続いている。

データを流し込むNANDと企業向けSSD

記憶装置の側を担うのがNAND型フラッシュメモリーで、こちらは電源を切っても消えない不揮発の記憶だ。電荷を閉じ込める層に電子をためて情報を保つ仕組みで、平面では微細化が頭打ちになったため、セルを垂直に積み上げる3次元構造へ移った。積層はいまや300段を超え、1つのセルに3ビットや4ビットを詰め込む方式で容量を稼ぐ。垂直に貫くチャネルの孔は縦横比が50対1を超え、これを一括で深く掘り抜くエッチングが量産の壁になる。

AIの現場では、企業向けSSDの役割が後方の脇役から前面へ移った。膨大な学習データを高速で読み込み、長い学習の途中経過を保存し、検索を伴う推論で外部の知識を引き当て、推論であふれた文脈を退避させる——どれも読み書きの速さがそのまま処理の速度になる。最新のPCIe 5.0世代のSSDは毎秒14ギガバイト前後の読み出しに達し、容量重視の4ビット方式で大容量化と高速化を同時に追う。記憶と記憶装置は、もはやデータセンターの背後の付属品ではなく、費用と速度と事業の成否を直接左右する中核の変数になっている。

HBMがDRAMの生産枠を食う

ここに、日本ではあまり語られない需給の裏側がある。HBMは一般のDRAMと同じDRAMダイを使うが、縦に積んで貫通電極を通すぶん、同じ1ギガバイトを作るのに一般DRAMの2倍から3倍のシリコンと工程を要する。歩留まりも積層のぶん低い。つまりHBMを増産すると、限られたウエハーの生産枠をその何倍もの勢いで食いつぶす。

HBMが一般DRAMの生産枠を食う
HBMが一般DRAMの生産枠を食う

DRAM工場の生産枠は有限で、新たな工場の立ち上げには数年かかる。メーカーがAIサーバー向けのHBMと企業向けSSDへ生産能力を振り向ければ、PCやスマートフォン、汎用サーバー向けの一般的なメモリーと記憶装置に回る枠が細る。冒頭の図が描く価格上昇の予測は、この枠の奪い合いを映したものだ。供給側が利益率の高いAI向けへ資源を寄せるほど、記憶全体が品薄に傾き、上流の花形企業だけでなく、隘路に陣取る供給者の重みが増していく。

三つの層を誰が握るのか

記憶の供給は、少数の作り手に集中している。最も難しいHBMを量産できるのは、SKハイニックス、サムスン、マイクロンの3社にほぼ限られ、12段のHBM3EではSKハイニックスが先行する。主記憶のDRAMも同じ3社の寡占で、記憶装置のNAND型ではこれに日本のキオクシアやウェスタンデジタル系が加わる。供給者が絞られているほど、需要が跳ねたときの目詰まりは激しくなる。

三つの層を誰が握るのか
三つの層を誰が握るのか

その地図を塗り替えにかかっているのが中国勢だ。輸出規制の下でも、CXMTがDDR5のDRAMに参入し、YMTCがNAND型の積層数で世代を詰めてきた。汎用品の供給で中国の比重が増せば、価格と調達の力学が変わる。さらに、記憶と受託製造の境目も溶けつつある。HBM4では土台の制御ダイを受託製造大手のTSMCが手がけ、記憶メーカーと組む構図が固まりつつあり、これまで別の産業だった記憶づくりと論理半導体づくりが一つの土俵で交わり始めた。

モデル発表会の外側で起きていること

6月22日にマイクロンとアンソロピックが結んだ協業は、この変化を象徴している。内容は高帯域メモリーとDRAMとSSD、そしてAI基盤の構成設計と需給の協調にまで及ぶ。AI企業が標準品をただ買うのではなく、上流の供給者と一緒に基盤の構成を最適化し始めた——その兆候を示す一件だ。競争の軸が、モデルの賢さから、それを成り立たせる半導体と供給網と費用の側へと一段下りてきた。

AIを追うとき、モデルの発表会だけを見ても、GPUの値動きだけを追っても、絵の半分しか見えない。上流のHBMとDRAMとNAND、傍らの相互接続や冷却、下流のデータセンターと企業の利用が、この計算の波がどこまで伸びるかを左右する。賑わいの中心ではなく、その裏で静かに細り始めた部分にこそ、技術の物語の次の章が書かれている。記憶と記憶装置の値が動き始めたという事実は、この技術周期が筋書きから供給網の現実へ移りつつあることを告げている。