大規模言語モデルはどう動くのか。トークン化から注意機構の圧縮、専門家混合、FP8学習、検証可能報酬による推論、半導体とメモリの壁まで、AIの基盤を機構とアルゴリズムで一次資料に沿って解剖する技術解説。

AIという言葉は、ひとつの製品ではなく、積み重なった層の総称だ。利用者が打ち込んだ一文が答えに変わるまでに、その文字は検索やSNSのアプリを抜け、対話サービスの窓口を通り、複数のモデルを束ねた基盤に渡り、そこで大規模言語モデルが計算を回す。その計算はクラウドの何千基もの演算装置の上で走り、装置の中では半導体が一秒間に何百兆回もの積和をこなす。この六段の積み重なりを一望できると、「AIが賢い」という曖昧な手ざわりが、どの層のどの仕組みに支えられているのかという具体に変わる。本稿は六層をひとつずつ開け、動作の機構とそれを支えるアルゴリズムを、初めて触れる読者にも追える順序で解剖する。値段や損得の話は持ち込まない。扱うのは、なぜ動くのか、なぜ速いのか、なぜ安く回るのか——その物理と数式だけだ。

スタックとして見るAI

中国で広まったある資料は、AI市場を六つの層に分けて描いていた。最上段のアプリケーション層(検索やSNSがAIを機能として取り込む)、その下のAIネイティブアプリ層(対話サービスそのもの)、複数のモデルを束ねて窓口を提供するMaaS・開発基盤層、大規模言語モデルを作る基盤モデル層、計算資源を貸し出すクラウド層、そして最下段の半導体・チップ層。図としては素朴だが、この並びは工学上の依存関係をそのまま写している。上の層は下の層なしに一行も動かない。逆に、ある層で起きた技術の変化は、上下に波及する。基盤モデル層でメモリの使い方を工夫すれば、クラウド層で必要になる演算装置の数が減り、半導体層への注文が変わる。層を分けて見る値打ちは、この波及の道筋が読めるようになる点にある。

利用者の一文がたどる経路を、下向きに追ってみる。アプリが受け取った文章は、まず基盤モデル層の入口で「トークン」という小さな断片の列に刻まれ、数のベクトルに置き換えられる。そのベクトルが何十段もの変換をくぐり、次に来るべき断片を確率として吐き出す。この変換の一回一回が、クラウド層の演算装置に載った行列の掛け算であり、その掛け算は半導体層のごく小さな計算回路で実際に焼かれている。答えが返るときは、この経路を逆向きに、断片が文章へ、文章がアプリの画面へと戻っていく。以下では、この経路のうち最も理解の鍵になる基盤モデル層から始め、下の物理層へと降りていく。

言葉を数に変える

大規模言語モデルは文字を直接は扱わない。入力の文章は、まず語彙表にもとづいて「トークン」に分割される。英語なら単語や部分語、日本語なら数文字ごとの断片が一トークンになることが多い。各トークンには整数の番号が振られ、その番号で埋め込み表を引くと、数百から数千次元のベクトルが返る。これが、モデルが世界を捉えるための最小の単位だ。埋め込みは単なる置き換えではない。学習を通じて、意味の近い語が近いベクトルに配置されるよう調整される。ここから先、モデルの中では文字も文法も存在せず、ただ高次元空間の点と、その点を移動させる行列の掛け算だけが続く。

一トークンがモデルを一度通り抜けるあいだに発生する計算量には、単純な目安がある。パラメータ数を N とすると、順方向の処理でおよそ 2N 回の積和が起きる。掛け算と足し算をパラメータごとに一度ずつ行うからだ(Pope ほか, arXiv:2211.05102, 2022年11月)。この「2N」という粗い式が、後で速度とメモリの話を貫く物差しになる。

文章が生まれる二つの局面

モデルが文章を生成する処理は、性質のまったく異なる二つの局面に分かれる。ここを取り違えると、なぜ生成が遅いのかが永遠に分からない。

最初の局面は prefill(プロンプト処理)だ。利用者が入れた文章はすべて最初から揃っているので、全トークンを一度にまとめて通せる。多数のトークンをまとめて処理すると、計算は行列と行列の掛け算になり、演算装置の計算回路が埋まる。この局面は演算律速、つまり計算の速さそのものが上限を決める。

第二の局面が decode(逐次生成)だ。モデルは一度に一トークンしか生めない。次の一語を出すには、直前までに生成した全語を踏まえて、また全パラメータを一巡させる。バッチが小さいと、これは行列とベクトルの掛け算になる。ここに落とし穴がある。行列とベクトルの掛け算では、パラメータの各要素は一度読まれて一度使われるだけで、二度と再利用されない。読み込んだ一バイトあたりに実行する計算は、およそ一回か二回にとどまる。演算装置が本来さばける計算量に対して、供給が細すぎるのだ。

大規模言語モデルの生成が二つの局面に分かれること、decode 局面がなぜメモリ帯域で頭打ちになるかを示した図。
大規模言語モデルの生成が二つの局面に分かれること、decode 局面がなぜメモリ帯域で頭打ちになるかを示した図。

この不均衡を測る物差しが「演算強度」で、実行した計算数を、メモリから運んだバイト数で割った値だ。演算強度が小さいと、演算装置は計算するより待つ時間のほうが長くなる。ルーフラインモデルという図で描くと、達成できる性能は「ピーク計算性能」と「メモリ帯域 × 演算強度」の低いほうで頭打ちになる。両者が交わる折れ点は、演算性能をメモリ帯域で割った値で決まり、A100級では毎バイトあたりおよそ百数十回の計算がその境目になる(NVIDIA A100データシート, 2020年)。decode の演算強度は、バッチ数にほぼ等しく、一桁台にとどまる。境目のはるか手前だ。だから逐次生成の速さは、演算装置の計算力ではなく、メモリの帯域で決まる。七百億パラメータのモデルを十六ビットで持てば、一語生むごとに約百四十ギガバイトを読み出す必要があり、毎秒五テラバイト級の高速メモリでも上限は毎秒数十語にとどまる。これが「メモリの壁」と呼ばれる現象で、生成AIの体感速度を根っこで縛っている。

もう一つ、生成を重くする要素がある。過去に計算した各トークンの Key と Value を保存しておく「KVキャッシュ」だ。これがないと、新しい一語ごとに過去全語ぶんの注意計算をやり直すことになり、系列長の二乗で計算が膨らむ。保存すれば毎回の再計算を避けられるが、代わりにメモリを食う。十三億パラメータ級のあるモデルでは、一トークンぶんのKVキャッシュが約八百キロバイトに達し、演算装置のメモリの三割ほどをこのキャッシュが占める例が報告されている(Kwon ほか, vLLM論文, arXiv:2309.06180, 2023年9月)。長い文脈を扱うほどこのキャッシュは膨れ、decode のたびにそれを読み出す帯域がさらに削られる。生成AIの速度とコストを左右する主戦場は、実はこのKVキャッシュをいかに小さく畳むかにある。

記憶を畳む

KVキャッシュを削る工夫のうち、近年もっとも効いたのが Multi-head Latent Attention(MLA)だ。DeepSeekがV2で導入し、V3へ引き継いだ機構で、注意機構の品質を保ったままキャッシュ量を桁で減らす。

素朴な注意機構では、各ヘッドが独立に Key と Value を持ち、その全部をキャッシュする。MLAはここを二段構えで畳む。第一に、Key と Value を一本の低次元ベクトルに圧縮してからキャッシュする。トークンの内部表現を圧縮行列で潜在ベクトルへ落とし、必要なときに復元行列で Key と Value に戻す。復元行列は推論時にクエリ側や出力側の行列へ吸収できるため、実際に保持するのは潜在ベクトルだけで足りる。DeepSeek-V2の設定では、一ヘッドあたり百二十八次元・百二十八ヘッドという構成に対し、圧縮後の潜在次元はわずか五百十二だった(arXiv:2405.04434, 2024年5月)。

第二の工夫が、位置情報の分離だ。大規模言語モデルは、語の並び順を回転位置埋め込み(RoPE)という仕組みで表す。ところが、位置ごとに異なる回転を Key に掛けてしまうと、先ほどの「復元行列を吸収する」最適化が成立しなくなる。回転が間に挟まって行列を事前に結合できなくなるからだ。MLAは、位置情報だけを運ぶ小さな専用の次元(V2では六十四次元)を本体から切り離し、そこにだけ回転を掛ける。この分離により、圧縮の利点を保ったまま位置情報を扱える。

Multi-head Latent Attention が Key と Value を低次元の潜在ベクトルへ畳み、位置情報だけを別次元に分離してキャッシュ量を削る仕組みの図。
Multi-head Latent Attention が Key と Value を低次元の潜在ベクトルへ畳み、位置情報だけを別次元に分離してキャッシュ量を削る仕組みの図。

畳んだ後にキャッシュするのは、潜在ベクトルと、全ヘッドで共有する位置用の一本だけになる。DeepSeek-V2ではこれが一層あたり五百七十六要素で、素朴な注意機構の三万二千七百六十八要素に対して約九十八パーセントの削減にあたる。実運用の別モデルと比べた論文の報告値では、KVキャッシュを九割以上減らし、生成の最大処理量を五・七六倍に高めたとある(arXiv:2405.04434, 2024年5月)。メモリの壁を、注意機構の設計そのもので押し返した実例だ。

全部は使わない

もう一つ、コストを桁で動かした設計が Mixture of Experts(MoE、専門家混合)だ。大規模言語モデルの内部で、変換のパラメータの大半は「フィードフォワード層」と呼ばれる部分に集まる。素朴な作りでは全トークンがこの層の全パラメータを通るため、モデルを大きくすると計算量も比例して増える。MoEはこの層を多数の「専門家」に分割し、各トークンには一部の専門家だけを働かせる。こうすると、モデルの容量(記憶できる知識の量)と、一トークンあたりの計算量とを切り離せる。

仕組みはこうだ。各専門家には目印になるベクトルがあり、入ってきたトークンとの相性を点数で測る。点数の高い上位数個の専門家だけを選び、その出力を点数で重み付けして足す。残りの専門家はそのトークンには働かない。DeepSeekの設計はここに二つの改良を重ねた。第一に、専門家を細かく刻む。同じ計算量でも専門家の数を増やすと、選び方の組み合わせが爆発的に増える。十六個から二個を選ぶなら百二十通りだが、四分割して六十四個から八個を選ぶと約四十四億通りになる(DeepSeekMoE, arXiv:2401.06066, 2024年1月)。組み合わせの自由度が上がるほど、各専門家は細分化された知識に特化できる。第二に、どのトークンも必ず通る「共有専門家」を一つ常設し、共通して要る知識をそこに集める。これで、個々の専門家が同じ知識を重複して覚える無駄が減る。

DeepSeek-V3では、六十一層のうち下の三層を除く五十八層がこの構造で、各層に二百五十六の専門家と一つの共有専門家を持ち、一トークンにつき八つを選ぶ(arXiv:2412.19437, 2024年12月)。総パラメータは六千七百十億に達するが、一トークンで実際に計算されるのはそのうち三百七十億、およそ五・五パーセントだけだ。記憶の器は大きく、しかし一回の計算は小さい。この分離が、巨大なモデルを小さなモデル並みの計算費で走らせる正体になる。

Mixture of Experts のルーティング。入力トークンが相性の点数で上位の専門家に振り分けられ、常時働く共有専門家と合わせて出力される流れ。
Mixture of Experts のルーティング。入力トークンが相性の点数で上位の専門家に振り分けられ、常時働く共有専門家と合わせて出力される流れ。

MoEには積年の悩みがあった。放っておくと一部の人気専門家にトークンが集中し、大多数の専門家が学習されないまま容量が死ぬ。従来はこの偏りに罰則を与える「補助損失」を本来の学習目標に足していたが、この罰は言語の学習とは無関係な力をモデルに加え、強くすれば性能が落ち、弱くすれば偏りが直らないという板挟みを生んだ。DeepSeekはこれを機構で回避した。各専門家に調整用のバイアスを持たせ、それを「どの専門家を選ぶか」の判定にだけ加える。一方、選ばれた専門家の出力を重み付けする値には、このバイアスを加えない(Wang ほか, arXiv:2408.15664, 2024年8月)。過負荷の専門家はバイアスを下げて選ばれにくくし、暇な専門家は上げて選ばれやすくする。更新は「混みすぎなら少し下げ、空きすぎなら少し上げる」という単純な符号操作で、V3では学習の大半を通じて刻み幅を千分の一に、最後の五千億トークンでゼロに落として固定した(arXiv:2412.19437, 2024年12月)。肝心なのは、この調整が損失の勾配の外側で行われる点だ。微分を通らないので、言語の学習に余計な力を一切注がずに負荷だけを均す。板挟みそのものを設計で消したことになる。

八ビットで学習する

モデルを学習させる計算は、行列の掛け算の巨大な繰り返しだ。通常は十六ビットの数で行うが、DeepSeek-V3は主要な掛け算を八ビット(FP8)で回した。ビット幅が半分になると、演算装置の掛け算の速度はおよそ二倍、メモリと帯域の消費は半分になる。ただし八ビットは表現できる数の幅が狭く、素朴にやると値が飽和したり潰れたりして学習が壊れる。

八ビットには配分の異なる二種類がある。指数部四ビット・仮数部三ビットのE4M3は精度が高いが表せる最大値が四百四十八までと狭い。指数部五ビット・仮数部二ビットのE5M2は最大五万七千余りまで届くが精度は粗い。順方向で扱う重みと活性化には精度の効くE4M3を、値の幅が大きく暴れる勾配には範囲の広いE5M2を割り当てる(Micikevicius ほか, arXiv:2209.05433, 2022年9月)。この配分がFP8学習の基本作法になっている。

DeepSeekはさらに二つの安全装置を足した。一つは、スケールを細かい単位で取ること。テンソル全体に一つの倍率を掛けると、一部の突出した外れ値に合わせて倍率が決まり、大多数の小さな値が潰れる。そこで活性化はトークンごと・百二十八チャネルごとの短冊、重みは百二十八かける百二十八の区画という細かい単位で、その場その場の最大値からスケールを決める。外れ値の影響がその区画の中に閉じ込められる。もう一つは、累積の精度だ。演算装置の内部で八ビットの積を足し込むと、桁が浅く、最大で二パーセント近い相対誤差が溜まる。DeepSeekは百二十八要素ごとに部分和を三十二ビットのレジスタへ引き上げて足し込み、掛け算の速さは八ビットで得つつ、合計の精度は三十二ビット相当に保った(arXiv:2412.19437, 2024年12月)。埋め込みや注意、正規化といった数値に敏感な部分は八ビット化せず十六ビットで残す。八ビットの恩恵は、大きな線形層の掛け算に集中させた。

数千の演算装置で一つのモデルを学習するとき、装置と装置のあいだの通信が計算を待たせて遊びを生む。DeepSeekはDualPipeという段取りで、順方向と逆方向の処理を対にして重ね、専門家どうしをまたぐ通信を計算の裏に隠した。通信に割く演算装置はわずか二十基で高速回線を飽和でき、残りを計算に回せる(arXiv:2412.19437, 2024年12月)。この結果、V3の事前学習は二千四十八基の演算装置で二か月足らず、延べ約二百七十九万時間で終わった。総パラメータが六千七百億を超える規模でこの数字に収まったのは、一トークンの計算が三百七十億で済むMoEと、八ビット学習と、通信隠しの三つが噛み合った結果だ。「小さなチームのモデルが巨大資本に並ぶ」と驚かれた背景には、資本ではなく、この一連の設計がある。

正解の解き方を教えない

言葉を上手に続けるだけでは、難しい問題は解けない。事前学習を終えたモデルに推論の力を持たせる段が要る。ここ数年で最も注目された手法が、検証可能な報酬による強化学習だ。

普通の強化学習では、良し悪しを判定する別のモデル(報酬モデル)を用意する。だがそれは近似にすぎず、モデルはその近似の穴を突いて、見かけの点数だけ上げる抜け道を見つけてしまう。DeepSeek-R1は判定を近似に頼らず、答えの正誤を機械的に検証する。数学なら最終解を規則で照合し、コードならテストが通るかで判定する(arXiv:2501.12948, 2025年1月)。正解に基づく決定論的な判定なので、抜け道が原理的にない。加えて、思考の過程を所定のタグの中に書かせる形式報酬を与える。

強化学習の手続きにも工夫がある。従来のPPOという手法は、各場面の価値を見積もる批評家ネットワークを、本体と同規模でもう一つ学習・保持する必要があった。DeepSeekのGRPOはこの批評家を捨てる。同じ問題に対して本体から複数の答えを生成し、その集団の平均点を基準線に使い、各答えが平均よりどれだけ良かったかで学習する(DeepSeekMath, arXiv:2402.03300, 2024年2月)。本体と同じ大きさのモデルを一つ丸ごと不要にできるので、大規模な推論学習の費用が大きく下がる。

事前学習から教師あり微調整、検証可能報酬による強化学習、そして小型モデルへの蒸留までの学習パイプラインと、各段の計算費の偏り。
事前学習から教師あり微調整、検証可能報酬による強化学習、そして小型モデルへの蒸留までの学習パイプラインと、各段の計算費の偏り。

この手法の衝撃は、教師あり微調整を一切かけずに強化学習だけを回したR1-Zeroで現れた。正誤と形式の報酬だけを与え続けると、モデルは誰にも教わらないのに、自分の答えを検証し、途中で立ち止まって考え直し、思考の連鎖を長く伸ばす振る舞いを自分から獲得した。学習が進むにつれ応答は自発的に長くなり、数学競技の一問正解率は十五・六パーセントから七十一・〇パーセントへ伸びた(arXiv:2501.12948, 2025年1月)。論文はモデルが途中で「待て、ここが転機だ、順を追って見直そう」と書き出す場面を記録している。この立ち止まりは明示的にはプログラムされていない。「正解の解き方を教えなくても、正誤の報酬だけで、モデルが自力で解き方を発見する」ことが公開された形で示された意味は大きい。ただし、この創発の解釈には別の研究からの異論もあり、そうした振る舞いの芽は元のモデルに潜在していて強化学習が表に引き出しただけだ、という見方も出ている。本稿はこの論点を未決着として併記しておく。

獲得した推論の力は、小さなモデルへ移せる。大きな教師モデルに解かせた約八十万件の思考の跡を使い、小型のモデルを教師あり微調整するだけで、強化学習をかけずに推論力が乗り移る(arXiv:2501.12948, 2025年1月)。同じ大きさの土台で比べると、蒸留した三十二億パラメータ級のモデルは、その土台に直接大規模な強化学習をかけたものより、数学競技で四十七・〇パーセント対七十二・六パーセントと大きく上回った。推論の力は、大きなモデルで発見して小さなモデルへ配る——この段取りが効率的だと、対照実験が示している。

学習全体の費用がどこに集中するかも、数字で見ておく価値がある。DeepSeek-V3の内訳では、事前学習が延べ二百六十六万時間、文脈長の拡張が十一・九万時間、微調整と選好の調整はわずか五千時間だった(arXiv:2412.19437, 2024年12月)。全体の九割五分は事前学習に費やされ、後段の調整は一パーセントにも満たない。土台を作る計算が圧倒的に重く、味付けは軽い。ただし、R1のような大規模な推論強化学習は別枠の費用で、その内訳は論文に明示がない。

行列積を焼き付ける

ここまでの計算は、どれも半導体の中で物理的に焼かれている。深層学習の計算時間は、その七割から九割が行列の掛け算に費やされる。演算装置がAIで速いのは、この掛け算を専用の回路で一気に片づけるからだ。掛け算の核心は「掛けて足す」を膨大に繰り返すことにあり、同じ数を何度も使い回せる。汎用の計算回路は一回ごとに数をメモリから出し入れするので、この使い回しを活かしきれず、掛け算そのものより数の運搬で時間を食う。そこで、掛けて足す小さな回路を格子状に敷き詰め、数を格子の中で隣へ流していく。掛けた結果を外に出さず隣へ渡し、また掛けて足す。この「流して溜める」構造が、メモリの出し入れを最小にして掛け算の密度を上げる。層をまたいで現れた「一トークンあたり2N回の積和」は、最終的にこの格子の中で焼かれている。

同じ思想でも、各社の実装は形が違う。NVIDIAのテンソルコアは、四かける四の小さな行列の積和を一単位とし、三十二本の処理の束でこれをまとめ、十六かける十六の掛け算に組み上げる(NVIDIA Hopperアーキテクチャ資料, 2022年)。汎用の計算回路と同居させ、柔軟さを優先した作りだ。GoogleのTPUは、百二十八かける百二十八、新世代では二百五十六かける二百五十六の格子そのものを主役に据える。六万五千個あまりの掛けて足す回路が並び、重みを一度置いたら固定して、入力だけを心臓の拍動のように流し込む。途中結果を一切メモリに書き戻さないので、大きな行列ではほぼ理論限界に近い効率を出す。NVIDIAの汎用寄りの作りが六割未満の効率にとどまる場面でも、この格子は百パーセント近くを引き出す。代わりに、扱える計算の自由度は狭い。HuaweiAscendは、十六かける十六かける十六の立方状の演算器を一単位に据え、十六かける十六の行列の掛け算を一拍で片づける(Da Vinciアーキテクチャ資料)。三者は「格子で流して溜める」という一点を共有しながら、柔軟さと効率のどちらに軸足を置くかで枝分かれしている。

演算装置の生の計算力は近年跳ね上がった。だが先に見たとおり、生成の速さを縛るのは計算力ではなくメモリの帯域だ。だから半導体の競争は、演算回路の数と同じくらい、その回路に数をどれだけ速く供給できるかで決まる。

メモリの壁と、配線の物理

演算回路に数を供給するのが、高帯域メモリ(HBM)だ。演算装置の脇に何段も積み上げたメモリを、極太の配線で結ぶ。世代ごとに帯域は伸び、HBM3を積んだH100で毎秒約三・三五テラバイト、HBM3Eを積んだH200で毎秒四・八テラバイト、次のB200で毎秒七・七テラバイト級に達する(NVIDIA公式ページ, 2024年)。この帯域の伸びが、そのままメモリの壁を押し下げる。生成AIの速さは、演算装置の型番よりも、載っているメモリの世代で決まると言ってよい。

高帯域メモリを作れるかどうかが、いま半導体競争の隠れた分水嶺になっている。この積層メモリは、韓国と米国の三社がほぼ独占する。中国の長鑫(CXMT)はまだ二世代前のHBM3の八段品ですら安定量産に苦しみ、最新のHBM3Eは量産の段階にない。先端勢との差はおおむね三年から四年で、量産の本格化は早くて二〇二七年とみられる(SemiAnalysis, 2025年)。演算回路をいくら作っても、供給するメモリがなければ性能は出ない。中国のAIハードが抱える最大の律速は、演算装置そのものよりこのメモリにある。

演算装置を何百も束ねて一つの巨大な計算機にするとき、装置どうしをつなぐ配線が次の壁になる。NVIDIAのGB200 NVL72は、七十二基の演算装置を一つのラックに詰め、装置間を毎秒一・八テラバイトの高速回線で全対全につなぐ。この配線を、あえて光ではなく銅で引く。ラック内の距離は一、二メートルと短く、その距離なら銅で信号が保つ。光にすると変換部が余計に電力を食い、故障点も増えるからだ。結果、システム全体の消費電力はおよそ百二十から百四十五キロワットに収まる(SemiAnalysis, 2025年)。

NVIDIA が短距離を銅で結んで効率を取り、<a href=Huawei が長距離を光で結んで物量を取る——二つの相互接続の設計思想の対比。" loading="lazy" decoding="async" style="max-width:100%; height:auto; border-radius:10px; border:1px solid var(--border-subtle); background:#fff;">
NVIDIA が短距離を銅で結んで効率を取り、Huawei が長距離を光で結んで物量を取る——二つの相互接続の設計思想の対比。

HuaweiのCloudMatrix 384は、逆の選択をした。三百八十四基のAscend 910Cを十六のラックにまたいで全対全につなぐため、距離が伸びて銅では保たない。そこで六千九百十二本もの光の配線で全体を結ぶ。システムの総演算はGB200 NVL72のほぼ二倍に達し、総メモリ帯域は二・一倍、容量は三・六倍に届く。だが代償が重い。消費電力は約五百五十九キロワットで、NVIDIAの約四・一倍。演算あたりの電力効率は二・五倍悪い(SemiAnalysis, 2025年)。単体では三分の一の力しかない演算装置を、五倍以上の数と大量の電力で束ねて、総量で上回る。これは技術の勝利というより、電力の豊富さを前提にした物量の設計だ。NVIDIAが「少数の強い装置を短い銅で効率よく」束ねるのに対し、Huaweiは「多数の弱い装置を長い光と大電力で」束ねる。同じ問いに対する、制約の違いが生んだ二つの答えになっている。

電力という天井

AIの規模を最後に縛るのは、半導体でも配線でもなく、電力だ。一つの短い問い合わせに答えるとき、対話サービスが使う電力はおよそ〇・三ワット時と見積もられている(Epoch AI, 2025年)。数百語を返す程度なら小さな数字だが、これは条件で大きく動く。入力が十万トークンに膨らめば四十ワット時へ、桁が二つ上がる。じっくり筋道を立てる推論型のモデルは、答えるまでに何倍ものトークンを内部で生成するので、消費もそれだけ増える。「一問あたり何ワット時」という単一の代表値は存在しない。分母と条件を添えずに引く数字は、たいてい誤解を生む。

規模が上がると、桁は跳ねる。演算装置を十万基束ねたクラスターは、およそ百五十メガワットの電力を連続で食う(SemiAnalysis, 2025年)。中規模の街の消費に匹敵する量だ。世界のデータセンター全体の電力消費は二〇二五年に前年から大きく伸び、二〇三〇年へ向けてほぼ倍増する見通しにある(IEA, 2025年)。ここで効くのは、演算装置を買えるかどうかではなく、その装置に給電し冷却できるかどうかだ。送電網の増設が需要の伸びに追いつかず、系統への接続待ちが長引く。国際エネルギー機関は、規模を最後に律速するのは半導体ではなく送電網の容量になりうる、と指摘した。計算の壁は、いつのまにか電力の壁に置き換わっている。

この一点が、先に見たCloudMatrixの物量設計を裏で支えている。演算あたりの電力効率で二倍以上劣っても、その電力が十分に安く、十分にあれば、非効率は経済で相殺できる。中国は二〇二五年の一年だけで風力と太陽光を四百三十ギガワット超も積み増し、総発電容量を三・八九テラワットへ伸ばした(中国国家能源局, 2025年)。米国が同年に足す全電源の合計を、風力と太陽光の増設分だけで数倍上回る規模だ。産業用の電力は資源地帯を中心に安く、一部の地方では補助を受けてさらに下がる。米国が「一施設に何メガワット引けるか」で足踏みするあいだ、中国は発電容量を年に数百ギガワット単位で足し、安い電力を演算へ注ぐ。効率で負けても電力単価で取り返す——この非対称が、効率の悪い国産ハードを物量で押し切れる背景にある。効率の良し悪しだけで中国の戦略を測ると、この構造を読み違える。

露光機のない微細化

演算装置の性能は、半導体をどれだけ細かく作れるかに依る。微細さは露光に使う光の波長で決まる。波長十三・五ナノメートルの極端紫外線(EUV)を使えば、七ナノメートル級の細い配線を一度の露光で描ける。だが中国はこのEUV露光機を輸出規制で入手できない。そこで波長百九十三ナノメートルの深紫外線(DUV)で代替するが、この光では七ナノメートルを直接は描けない。一つの層を何度も露光と加工に分けて重ねる「マルチパターニング」で無理やり細くする。一度の露光で済むところを、複数回の露光と、そのたびの成膜・加工・研磨を積み重ねる。露光の回数だけでも数倍、付随する工程まで数えると一桁の作業が数十に膨らむ。重ねるたびに位置合わせの誤差が溜まり、歩留まりが落ちる。

中国のSMICはこのDUVマルチパターニングで七ナノメートル級に到達したが、歩留まりは二割から四割程度で、台湾TSMCの同等品には遠く及ばないと報じられている(TechInsights, 2023年ほか)。工程が多い分だけコストも高く、TSMC比で四割から五割の割高になるとの報道もある。より細い五ナノメートルへ進むには露光回数がさらに増え、歩留まりとコストが商用に耐えなくなる。EUVを国産化できない限り、「七ナノメートルで高コスト・低歩留まりの足踏み」が構造として続く。

先端の演算装置は、一枚のダイに全てを詰めるのではなく、複数のダイと高帯域メモリを一つの土台に載せる先端実装で作られる。TSMCのCoWoSは、演算ダイと積層メモリをシリコンの中継板の上に横並びに載せ、数千本の極細配線で結ぶ。この中継板の配線の細かさが、有機基板では出せない広帯域を生む。いま世界のAIハードで最も逼迫しているのは、実は演算装置そのものではなく、この先端実装の生産枠だ。需要は二〇二四年の約三十七万枚から二〇二六年の約百万枚へと二年で三倍近くに膨らみ、生産枠は完全に埋まって、注文から入手まで一年以上かかる状態が続く(SemiAnalysis, 2025年)。演算・メモリ・実装の三重の制約のうち、いまは実装が全体の首を絞めている。

日本でほとんど報じられないが、Huaweiの最新演算装置には、規制の網をかいくぐって備蓄した台湾製のダイがかなり混じっていることが、分解調査で確認されている。ある解析では、殻の中に二〇二〇年製の台湾ファウンドリのダイと韓国製の高帯域メモリが見つかった。仲介役の企業を通じて約五億ドル分のウェハが買われ、そこから約二百九十万個のダイがHuaweiへ渡ったとされる。この備蓄は「ダイの銀行」と呼ばれ、いま国産演算装置が動いている本当の理由は、SMICの歩留まりが上がったからというより、この在庫を食い潰しているからだ、という見立てがある(SemiAnalysis, 2025年)。高帯域メモリも同じ構図で、規制の発効直前に韓国製を千三百万段ぶんも買い溜めたと分析されている。「国産の先端半導体」という看板の裏には、外国製部品の在庫という賞味期限が隠れている。この在庫が尽きたとき、供給を国産だけで支えられるかは、まだ答えが出ていない。ここに、報道の見出しと実態のずれがある。中国の巨大システムがNVIDIAを「超えた」と伝わるとき、超えたのはシステムの総量であって、演算装置単体の効率でも、部品供給の自立でもない。この区別を落とすと、規制の効き目も国産化の進み具合も見誤る。

二十年分の堀

半導体がどれほど速くても、それを使いこなすソフトウェアの層がなければ宝の持ち腐れになる。NVIDIAの本当の強みは、演算装置そのものよりも、その上に二〇〇六年から積み上げたソフトウェアの厚みにある。線形代数の基本を担う部品、注意や正規化を最適化した深層学習用の部品、開発者が自分で高速な計算核を組むための骨組み、そして数千の装置を同期させる集団通信の部品——これらが層をなし、二十年ぶん噛み合って動く。世界の研究と製品の大半がこの上で書かれ、公開モデルの置き場に並ぶ何十万ものモデルも、ほとんどがこの体系で学習・調整されている。四百万人ともいわれる開発者がこの作法に慣れている。乗り換えるには、道具の書き直しだけでなく、この人と蓄積の全部を相手取ることになる。これが「二十年分の堀」の正体だ。

Huaweiは自社のAscendにCANNというソフトウェアの体系を用意し、NVIDIAの各部品に一対一で対応する層を並べた。集団通信の部品も、深層学習用の演算も、計算核を書く言語も、写像としては揃っている。二〇二五年にはこれを公開して開発者を集めにかかった。だが現場からは、まだ不安定で、文書も周辺の道具も薄く、落とし穴が多いという声が続く。技術的な傷も残る。Ascendの演算器は十六ビットと整数の掛け算を主に想定した作りで、三十二ビットの高精度な行列積は、十六ビットの掛け算を重ねて近似し精度を補う回り道が要る。演算装置の性能差は数字で見えるが、ソフトウェアの成熟は年月でしか埋まらない。ハードの壁より、このソフトの壁のほうが根深いと、現場の技術者は口を揃える。

推論を捌く技術

学習し終えたモデルを、多数の利用者へ同時に安く届けるには、生成の局面で見たメモリの壁を運用の工夫で押し返す必要がある。近年の推論基盤は、この一点に知恵を集めてきた。

第一が、KVキャッシュの管理だ。従来は一人ぶんのキャッシュを、出力の最大長を見込んで連続した領域にまとめて確保していた。出力の長さは生成してみるまで分からないので、確保したのに使わない無駄が大量に出る。vLLMのPagedAttentionは、計算機の仮想メモリの発想をそのまま持ち込み、キャッシュを小さなページに分けて、必要になった分だけ飛び飛びの場所に割り当てる。無駄がほぼ消え、同じ待ち時間のまま処理量が二倍から四倍に伸びた(Kwon ほか, arXiv:2309.06180, 2023年9月)。

第二が、バッチの組み方だ。従来はバッチ内の全員の生成が終わるまで待ったため、早く終わった席の演算装置が遊ぶ。連続バッチングは、一トークン生成するたびにバッチを組み直し、終わった席へ待ち行列の新しい依頼を即座に差し込む。ある計測では、静的なバッチに対して処理量が最大二十三倍に伸び、しかも応答は速くなった(Anyscale, 2024年)。第三に、演算律速のprefillとメモリ律速のdecodeを別の装置群に分ける方式がある。性質が正反対の二局面を同じ装置に同居させると互いを妨げるので、別の機械に切り分けて各々を最適化する。第四に、小さなモデルが数語を先読みし、本命が一度にまとめて検証する投機的デコードがある。DeepSeekは、学習のときに「次の次の語」まで予測させて教師信号を濃くする仕組みを持ち、それを推論では先読み役に転用した。二番目の語の的中率は八割から九割に達し、生成の速さがおよそ一・八倍になったと報告している(DeepSeek-V3技術報告, 2024年12月)。局面ごとの性質の違いを突いたこれらの手法は互いに補い合い、同じ半導体から引き出せる実効の処理量を何倍にも押し上げてきた。ハードの制約を、ソフトの設計で押し返す最前線がここにある。

誰がどの層を持つか

六つの層を、誰が、どこまで自前で持つか。この構図は各社の戦略をそのまま映す。ある層だけを担う専業と、複数の層を垂直に統合する形とに分かれる。中国では、DeepSeekや智譜(Zhipu)が基盤モデル層に専念し、演算装置は他社の国産チップに頼る専業型だ。一方でアリババByteDanceは、自社チップからクラウド、モデルまでを縦に貫く。米国ではGoogleが自社TPUからモデルまでを最も深く垂直統合し、対してOpenAIやAnthropicはモデルに専念する専業に見える。ただしこの区分は動いている。二〇二六年には、専業に見えたOpenAIが独自の演算チップの計画を明かし、専業と垂直の境界は溶けはじめた。どの層を自前化するかは、供給の途絶や規制への備えという物理の要請から決まっていく。

基盤モデル層では、もう一つの戦略の分岐がある。モデルの重みを公開するか否かだ。DeepSeekやアリババのQwenは、モデルの重みを広く公開し、世界中の開発者に改良と応用を委ねた。Qwenの派生モデルは十万種を超え、累計の取得回数は三億を上回る。重みを公開すると、世界の開発がその上に積み上がり、標準と人材がそこに集まる。演算装置を規制で絞られても、効率のよいアルゴリズムと公開配布で影響力を確保できる。この「開いた重み」の広がりは、性能の頂点を握る動きとは別の軸で、AIの土台を書き換えつつある。

最上段のアプリケーション層では、モデルが端末の中で直接動く時代が始まっている。AIを積んだ眼鏡や録音機、玩具や音響機器が中国から次々に登場し、この普及の勢いを示す数字がよく引かれる。「AI眼鏡は三百七十八人に一人が使う」といった具合だ。ただし、こうした数字は読み方に注意が要る。三百七十八人に一人は普及率にすればおよそ〇・二六パーセントで、新しもの好きが触り始めた段階を指す。しかも、この種の推計は購買層の母数を労働人口全体で取ることが多いが、実際の買い手はガジェット愛好層や翻訳の必要な層に偏る。母数を濃い層に絞れば普及率は跳ね上がり、電気街のような場所では四割を超えるという声もある。同じ製品でも、母数の取り方ひとつで像がまるで変わる。技術の数字を読むときは、分子より先に分母を疑うのが要る。端末で動くモデルの背後には、これまで見てきた圧縮や量子化の技術がある。大きなモデルを蒸留し、注意機構を畳み、八ビットに落とす一連の工夫が、眼鏡や玩具のような小さな器の中でモデルを走らせる下地を作っている。六層は、いちばん上といちばん下で、こうしてつながっている。

出典と、この解説の検証可能性

本稿の技術記述は、主に基盤モデルを開発した各チームの一次資料に依った。トークンあたりの計算量とprefill・decodeの区別は Pope ほか(arXiv:2211.05102, 2022年11月)と vLLM論文(arXiv:2309.06180, 2023年9月)。MLAとMoEの定式化・具体次元は DeepSeek-V2arXiv:2405.04434, 2024年5月)、DeepSeekMoE(arXiv:2401.06066, 2024年1月)、補助損失フリーの負荷分散(arXiv:2408.15664, 2024年8月)、DeepSeek-V3技術報告(arXiv:2412.19437, 2024年12月)。FP8の形式は Micikevicius ほか(arXiv:2209.05433, 2022年9月)。GRPOと検証可能報酬、蒸留は DeepSeekMath(arXiv:2402.03300, 2024年2月)と DeepSeek-R1arXiv:2501.12948, 2025年1月)。演算器の構造は NVIDIA と Google の公式アーキテクチャ資料、Da Vinci の技術資料に依った。電力とデータセンターの数値は Epoch AI(2025年)、IEA「Energy and AI」(2025年)、中国国家能源局の統計に依った。半導体とメモリ、相互接続、先端実装、迂回ダイ、消費電力の分析は SemiAnalysis と TechInsights の一連の報告に依った。

なお、本稿はChinapostの独自分析チームが上記の一次資料を突き合わせて再構成したもので、特定のプレゼン資料の図をそのまま引き写したものではない。図が示す六層の枠組みは出発点として借りたが、各層の機構・数式・具体値は原典に当たって検証し直している。

いくつかの数値には検証の限界がある。「露光工程がEUVで一桁、DUVで数十」というオーダーは複数の技術資料で裏づけられるが、厳密な工程数の原典は特定できなかった。SMICの歩留まり二割から四割は第三者の推定で、四半期や製品で変動する。CloudMatrixの光配線の本数と規格、消費電力の倍率は資料により表記が割れる部分がある。R1-Zeroの推論創発をどう解釈するかは、なお学界で決着していない。これらは断定を避け、出典と併記した。本稿の記述は、ここに挙げた原典に当たれば誰でも追跡・反証できる。技術の解説は、権威ではなく、一次資料への経路で担保されるべきものだ。