AIの計算がNVIDIAのGPU一強から二刀流へ。2027年に専用チップ(ASIC/XPU)の出荷台数がGPUを上回る。TPUとBlackwellの設計思想、自前では作れない物理の難所、価値を握る少数の設計会社を技術から解く。

AIの計算といえば、長くNVIDIAのGPU一色だった。学習も推論も、まずGPUを並べる――その前提が崩れ始めている。クラウドの巨人たちが、自分のモデルとソフトに合わせた専用チップ(XPU)を相次いで作り、定常的な推論をそちらへ移している。J.P. Morganの予測では、2027年に専用チップの出荷台数がはじめてGPUを上回る。だが、これは「NVIDIAを別のGPUが倒す」という話ではない。専用チップは誰でも作れるわけではなく、その心臓部――超高速の信号伝送、広帯域メモリとの接続、チップを束ねる実装、2nm級の物理設計――は、十年来この道を歩んできたごく少数の設計会社にしか握れない。計算の覇権がGPUから離れる先で、価値は静かにその少数派へ移っている。本稿は、AIの頭脳がGPU一強から二刀流へ動く構図を、技術の側からたどる。

出荷台数が逆転する2027年

J.P. Morganの2026年6月のレポートは、AIアクセラレータの出荷台数で、専用チップ(ASIC/XPU)が2027年にGPUを初めて上回ると見込んだ。GPUが1,090万個、専用チップが1,250万個。専用チップの比率は2023年の約45%からいったん3割台に下がり、2027年に約53%へ反転する。GPUの台数も伸び続けるが、専用チップの伸びがそれを上回る。

GPUとASIC/XPUの出荷台数予測と2027年の逆転
GPUとASIC/XPUの出荷台数予測と2027年の逆転

台数だけではない。市場分析では、2026年が「カスタムASICの出荷の伸びが商用GPUを初めて上回る年」とされ、成長率でおよそ44.6%対16.1%という差が示されている(SemiAnalysis、TrendForce)。NVIDIAのデータセンター向け計算シェアは、2025年後半に約9割から約75%へ下がったと報じられる。GPU一強という前提が、台数でも成長率でも崩れ始めている。

なぜクラウド大手は自前のチップを欲しがるのか

GPUの強みは、何でもこなす汎用性と、CUDAという分厚いソフトの蓄積にある。新しいモデルや研究には、この柔軟性が効く。だが弱みもある。汎用ゆえに電力とコストが高く、特定の処理だけを見れば無駄が多い。そして、クラウド各社が自分のモデルやソフトの作りに合わせて深く最適化することが難しい。

各社を自前チップへ向かわせる理由は、四つに整理できる。第一に、汎用GPUに払う高い利幅分のコストを、自社専用の設計で圧縮できること。第二に、自社のモデルとソフト(GoogleのJAX、AmazonのNeuronなど)に回路を合わせ込めること。第三に、2023〜24年にGPUの割り当て制約で何か月も待たされた教訓――供給を他社の都合に握られない体制づくり。第四に、電力網が逼迫するなかで「同じ電力でより多く処理する」ことが死活問題になっていること(FinancialContent、Introl)。汎用の便利さと、専用の効率。どちらを取るかではなく、両方を使い分ける動きが進んでいる。

汎用のGPUと、専用のASIC ― 設計思想の違い

GPUと専用ASICの違いは、突き詰めれば柔軟性と効率の取り合いだ。GPUは数千の書き換え可能なコアで、学習も推論も科学計算もこなす。命令のたびにデータをレジスタと演算器の間で往復させる、汎用の作りである。これに対して専用ASICの代表的な心臓部が、行列乗算ユニット(MXU)に使われるシストリックアレイだ。

汎用GPUと専用ASICの設計思想の違い
汎用GPUと専用ASICの設計思想の違い

シストリックアレイは、積和を計算する小さな演算器を格子状に並べ、入力のデータを格子の中で「波」のように流す。各演算器は一拍で積和を実行し、結果を隣の演算器へ直接渡す。入力は一度メモリから読めば格子の中で使い回され、いちいちレジスタへ書き戻さない。このデータ移動の削減が、電力あたりの演算密度を押し上げる。GoogleのMXUは256×256、つまり6万5千個の積和器の格子で、TPUはキャッシュや分岐予測といった汎用回路を削り、制御の回路をダイ面積の数%に抑えて行列演算に尽くす。

専用化の見返りは大きい。推論用の専用チップは、ワークロードによってはGPU比で電力あたりの処理を数倍から十数倍に高め、長期運用の総コストで四〜六割の優位を生むという推計がある(SemiAnalysis、Bernstein、いずれもワークロード依存)。Transformerという構造が定着し、FP8といった低精度のデータ形式が標準になったことで、回路に固定すべき要件が「凍った」のが、量産化を後押しした。代償は、モデルの構造が変わると追従しにくいことにある。

TPUとBlackwell、二つの設計図

同じ「多数のチップを束ねて巨大な計算機にする」目標を、専用と汎用は別の設計図で解く。GoogleのTPU第7世代Ironwoodと、NVIDIAのBlackwellを並べると、その違いがはっきりする。

TPU Ironwood(ASIC)とBlackwell(GPU)のアーキテクチャ比較
TPU Ironwood(ASIC)とBlackwell(GPU)のアーキテクチャ比較

Ironwoodは、推論の時代に向けてGoogleが初めて推論を主眼に設計したTPUとされる。チップあたりFP8で約4.6ペタフロップス、HBM3Eを192ギガバイト・毎秒7.4テラバイトで積む。二つの計算ダイをチップレットとしてつなぎ、チップ同士はICIという独自の接続で3次元のトーラス状に結ぶ。ラックの中は銅、ラックをまたぐと光に切り替え、光回線交換機(OCS)で9,216個のチップを一つの巨大なアクセラレータとして扱う。その規模はFP8で約42.5エクサフロップスに達する(Google、SemiAnalysis)。

Blackwellは汎用GPUの最新世代だ。レチクル限界に達した二つのダイを毎秒10テラバイトで直結し、一つのGPUとして振る舞う。第5世代のTensorコアはNVFP4という新しい4ビットの形式に対応し、上位のB300では密な演算で約15ペタフロップス。HBM3Eを288ギガバイト積み、GPU同士はNVLink 5で毎秒1.8テラバイト、スイッチの中で集約計算までこなすSHARPを備える。GraceというCPUとはNVLink-C2Cで毎秒900ギガバイトの一貫した接続を持つ。ラックのNVL72は、72個のGPUと36個のCPUを液冷で束ねる(NVIDIA)。専用に尽くすか、汎用で広く構えるか――同じ部品を、二つの思想が別々に編んでいる。

自前では作りきれない ― 物理の難所

クラウド各社は、モデルもソフトもシステムも自前で持つ。それでも、チップの物理的な核までは自力で作りきれない。難所がいくつも重なるからだ。

まず、チップやダイの間をつなぐ超高速の信号伝送(SerDes)。一本あたり毎秒224ギガビットの世代では、一つの信号の時間幅が半分になり、揺らぎ(ジッタ)の許容が二倍厳しくなる。揺らぎを半分にするには四倍の電力が要るとされ、世代が上がるたびに消費電力の予算が破綻しかける(Synopsys、ISSCC 2024)。ケーブルや基板での信号の減衰は40〜50デシベルに達し、それを補う等化やデジタルの受信機を作り込まねばならない。

続いて、広帯域メモリ(HBM)との接続だ。HBM3Eは1,024本、次のHBM4は2,048本のデータ線を使い、合わせて約二千本もの信号を、2.5次元の土台の上で短く高密度に引き回す。さらに、チップレットの分割、先端実装(CoWoS)での反りと熱膨張差の管理――NVIDIAのBlackwellでさえ実装で苦労したと報じられる――、2nm級の物理設計での電圧降下や新しいトランジスタ構造、数百ワットから一キロワット級の電力供給と熱、そして量産前の最終確認(テープアウト)。先端ノードのマスク一式は莫大な費用がかかり、やり直しのたびに巨額の損失と数か月の遅れを生む。

これらは、それぞれが独立に深い専門の蓄積を要し、しかも互いに連動する。ある設計会社は十年前に高速SerDesを先導し、六世代にわたって維持してきた(Tom's Hardware)。後から一足飛びに追いつくのが難しいのは、この積み上げのためだ。

価値はどこへ流れるか ― 設計を担う少数派

だから、ほぼすべてのクラウド向け専用チップは、外部の設計会社との共同で作られる。クラウド大手が要件とアーキテクチャ、ソフトを定義し、設計会社が高速SerDesやメモリの接続、チップレット、先端実装、先端ノードの物理設計、そして量産管理までを担う、という分業だ。

クラウド大手・設計会社・製造の価値連鎖と参入障壁
クラウド大手・設計会社・製造の価値連鎖と参入障壁

この設計サービスの市場は、ごく少数に集中している。最大手はカスタムAIアクセラレータの設計サービスで約7割を占め、GoogleのTPUやOpenAIのチップを共同設計する。第二極はAmazonのTrainiumやMicrosoftのMaiaを担う。二社で、クラウド大手の専用AIシリコンの八割超を可能にしているという(Tom's Hardware、NextPlatform)。その下に、3nmや2nmの量産確認や物理設計で、台湾の設計会社(Alchip、GUC、MediaTek)が連なる。

ここに、日本で見落とされがちな構図がある。NVIDIAの計算シェアが下がっても、その受け皿は「もう一つのGPUメーカー」ではない。価値は、要件を物理に落とせる少数の設計会社へ流れている。覇権がGPUから離れる先にあるのは、別の巨大ブランドではなく、表に出にくい設計と実装の層なのだ。

各社の自前チップ ― 何のために作るのか

各社の専用チップは、目的がそれぞれ違う。Googleは検索やGeminiの推論に向けてTPUを磨き、ソフトのJAX/XLAやネットワークと一体で設計する。AmazonはTrainiumとInferentiaを学習と推論で使い分け、独自のソフト基盤Neuronに合わせる。MicrosoftはMaiaをAzureのOpenAI向けに最適化し、設計上は700ワットの枠を実運用では500ワットで回す。

Metaの割り切りは鋭い。最新のMTIAでは、あえて高価なHBMを使わず、大容量のSRAMと汎用のメモリで構成し、広告や推薦のランキング推論にコストと電力を最適化した。長年回してきた自社のモデルに、ハードを寄せた形だ。OpenAIは設計会社と組んで初代を推論向けに作り、3nmで2026年後半の量産を目指す。Anthropicは自前のチップを持たず、GoogleのTPU、AmazonのTrainium、NVIDIAのGPUの三つを、学習・推論・研究で使い分ける――最も明快な二刀流の実例だ(各社発表、Data Center Frontier)。

日本に近いところでは、ソフトバンク傘下のArmが専用チップの構想を進めるとされ、OpenAI向けのカスタムCPUを設計するとの報道もある。ただし規模や時期は流動的で、確定した話は多くない。

二刀流の時代に何が起きるか

GPUが消えるわけではない。最新モデルの学習や研究、頻繁に変わるソフトには、汎用GPUの柔軟性がこれからも要る。一方で、構造が安定した大量の推論は、専用チップへ流れていく。学習はGPU、定常の推論はASIC――この役割分担が、AIの計算基盤の標準的な姿になりつつある。

台数の逆転は、その移行を映す一つの目盛りにすぎない。記者の見るところ、本当の見どころは、覇権がGPUから離れる先で価値がどこに溜まるかにある。要件を描けるクラウド大手の下で、超高速の信号、メモリとの接続、チップを束ねる実装、先端ノードの物理設計という物理の核を握る少数の設計会社が、静かに要の位置を占めていく。前の世代でNVIDIAがソフトと汎用性で築いた一強の構図は、次の世代では、より見えにくい設計と実装の蓄積をめぐる競争へと、姿を変えていく。