なぜTransformerはGoogleで生まれ、ChatGPTはOpenAIが世に出したのか

GoogleがTransformerを発明し、ChatGPTを世に出したのはOpenAI。自己注意機構・TPU・スケーリング則・RLHFを型番と数値で解き、発明と実装を分けた垂直統合とデータセンター設計の核心に迫る技術解説。

ある技術を最初に論文にした組織と、その技術を世界が触れる製品に変えた組織が、別であること。グーグル最高経営責任者(CEO)のサンダー・ピチャイがポッドキャスト番組『Cheeky Pint』(ジョン・コリソン、イーラッド・ギルが司会)で語ったこの分岐は、生成AIをめぐる十年で最も誤解されている事実を突く。Transformerという神経回路網の骨格を2017年に発表したのはGoogleの研究陣であり、その骨格を会話サービスとして一般に開放したのはOpenAIだった。発明者と普及者のずれは偶然でも怠慢でもない。半導体の物理的制約、数値計算の効率、データセンターの設計、そして「世に出す」という別種の能力が連鎖して初めて、研究室の試作が日常の道具になる。本稿は、その連鎖の各環をスペックと動作原理まで分解する。出発点は、論文の華やかさではなく、推論費用という即物的な壁である。

音声検索が突きつけた「電力と推論費用の壁」

物語は対話AIではなく、音声認識から始まる。2010年代半ば、Googleは深層学習による音声認識を実用水準まで仕上げていた。問題は精度ではなく経済性だった。当時のGoogleが社内で弾いた試算は単純で厳しい。利用者が一日に数分ずつ音声検索を使うだけで、ニューラルネットワークの推論処理が既存データセンターの規模を倍増させかねない――この見通しが、専用半導体の開発を強制した(Jouppi et al., 2017)。

なぜ汎用プロセッサでは足りないのか。鍵は演算そのものではなく、データの移動が消費する電力にある。スタンフォード大のマーク・ホロウィッツがISSCC 2014で示した計測値は、半導体設計者の間で繰り返し引用される基準だ。45nm世代で、32ビット浮動小数点の加算が消費するのは約0.9ピコジュール、乗算で約3.7ピコジュール。ところが、その演算対象を外部のDRAMから読み出す動作は約640ピコジュールを要する。計算より、計算するデータを運ぶ行為のほうが数百倍高くつく。この非対称性は「メモリの壁」と呼ばれ、AI半導体の設計思想すべての根底を成す。汎用CPUは命令を逐次解釈し、レジスタとメモリの間でデータを往復させる構造ゆえに、行列演算の塊である深層学習では、この移動コストに押し潰される。

「すべての位置を同時に見る」自己注意機構の仕組み

音声や言語のような系列データを、従来はRNN(再帰型神経回路網)やLSTMが処理していた。これらは語を一つずつ順番に読む。文の3番目の語を計算するには2番目の計算結果が要り、2番目には1番目が要る。この逐次依存が二つの致命傷を生んだ。第一に、系列が長くなるほど勾配が消失し、離れた語の関係を学習しにくい。第二に、計算が直列でしか進まず、並列処理を本領とする加速器(GPU・TPU)の演算ユニットを埋められない。

2017年の論文「Attention Is All You Need」(Vaswani et al., NeurIPS 2017)は、この逐次性を自己注意機構(セルフアテンション)で置き換えた。各語を三つのベクトル――問い合わせ(Query)、鍵(Key)、値(Value)――に射影し、ある語のQueryと文中すべての語のKeyとの内積で関連度を測る。式で書けば、注意の出力は softmax(QKᵀ/√dₖ)V となる。√dₖで割るのは、次元が大きいと内積が膨らんでsoftmaxが飽和するのを防ぐ正規化だ。語と語の関係を、間の距離に関係なく一段の行列演算で同時に算出する。原論文の構成は、モデル次元512、注意の並列ヘッド8本(各64次元)、符号化器・復号化器を各6層、内部の全結合層は2048次元。機械翻訳の標準指標WMT 2014英独でBLEU 28.4を記録し、当時の最高値を、訓練計算量を大きく削って更新した。

ここに、対談でピチャイが「計算効率を一桁押し上げた」と要約した現象の正体がある。自己注意の一層あたり計算量は系列長nの二乗に比例する(O(n²·d))一方、逐次的な処理経路の長さはO(1)に縮む。RNNが系列長に比例した直列ステップ(O(n))を要したのと対照的だ。重要なのは数式の優美さではない。自己注意の本体が巨大な行列同士の積(GEMM)であり、それは加速器が最も得意とする演算形式そのものだという一点である。Transformerは、より賢いだけでなく、半導体に対して桁違いに行儀が良かった。日本の解説は自己注意を純粋なアルゴリズムの発明として語りがちだが、産業を動かしたのは、この半導体との相性の良さだった。RNNの逐次依存が加速器の数万個の演算器を遊ばせるのに対し、Transformerは密行列積に還元できるため同じ演算器を飽和させられる。アーキテクチャは、半導体の経済性を見据えて選ばれた。発明と半導体は同時に最適化された――この共設計(コ・デザイン)が、生成AIの競争全体の背骨を成す。

シストリックアレイ ― TPUが汎用チップを置き換えた物理的理由

Transformerが半導体に行儀よく振る舞うなら、その振る舞いに最適化した半導体を作れば効率はさらに跳ねる。それがTPU(Tensor Processing Unit)だ。第1世代TPUは2015年に社内稼働し、2016年のGoogle I/Oで公表された。中核は256×256のシストリックアレイ、すなわち65,536個の積和演算器(MAC)を格子状に並べた行列乗算専用回路で、8ビット整数演算でピーク92 TOPSを叩き出す推論専用設計だった。

シストリックアレイの巧妙さは、前節の「メモリの壁」への直接的な回答にある。重み係数を演算器の格子に固定し(weight-stationary)、入力データを格子の端から流し込む。各演算器は積和を一度実行し、結果を隣の演算器へ手渡す。データは心臓の拍動(systole)のように格子内を伝播し、その間メモリへの読み書きをほとんど発生させない。640ピコジュールの移動コストを、演算のたびに払わずに済む。汎用GPUが演算器ごとにレジスタとデータをやり取りするのとは設計思想が根本から異なる。

数値表現にも工夫がある。GoogleはBrain研究陣が考案したbfloat16という形式を採用した。指数部8ビット・仮数部7ビットで、32ビット浮動小数点と同じ指数範囲(ダイナミックレンジ)を保ちながらビット幅を半分にする。仮数の精度を削っても、訓練時に問題になるのは桁あふれ・桁落ちであって有効数字の細かさではない、という割り切りだ。bfloat16は今やArm・Intel・NVIDIAも採用する業界標準になっており、Googleの数値設計が外部で果たした影響は日本では過小評価されている。

世代を追うと共設計の積み重ねが見える。第2世代(2017年)で訓練に対応しbfloat16とHBMを搭載、第3世代(2018年)は発熱増に液冷で応じ、第4世代(2021年)はチップ間を光回路交換機(OCS)で結び、3次元トーラス網のトポロジーを動的に組み替え可能にした。そして第7世代Ironwood(2025年11月)は、推論時代に照準を合わせた現行最上位だ。1チップでFP8の密行列演算4.6ペタFLOPS、192ギガバイトのHBM3eを毎秒7.4テラバイトの帯域で接続する。9,216チップを一つの「スーパーポッド」に束ね、チップ間接続9.6テラビット毎秒で結べば、ポッド全体で42.5エクサFLOPS(FP8)、共有HBMは1.77ペタバイトに達する。比較対象として、NVIDIAのB200は1基あたりFP8で約4.5ペタFLOPS。単体性能でIronwoodがわずかに上回る水準まで、専用設計が汎用GPUに追いついた。

BERTが検索にもたらした「言葉の前後関係」の理解

TPUとTransformerが揃った瞬間、Googleはそれを論文の余興ではなく事業価値に変えた。2018年のBERT(Bidirectional Encoder Representations from Transformers)である。BERTはTransformerのうち符号化器だけを使う「理解専用」のモデルだ。訓練では入力文の約15%の語を伏せ、前後両方の文脈からその語を当てさせる(マスク言語モデリング)。一語ずつ左から右へ読む従来手法と違い、語を左右同時に見て文脈を構成する点が「双方向」の核心だ。基本版で1.1億パラメータ(12層・隠れ次元768・注意ヘッド12)、大型版で3.4億パラメータ(24層・1024次元・16ヘッド)。

Googleは2019年、BERTを検索に投入し「過去5年で最大、検索史上でも有数の前進」と自ら位置づけた。英語圏の検索の10件に1件で、語の前後関係の解釈が改善した。前置詞一つで意味が反転する問い合わせ――たとえば「アメリカへ渡航する旅行者」と「アメリカからの旅行者」――を、機械が初めて取り違えなくなった。2021年にはBERTの1,000倍の規模とされるMUM(Multitask Unified Model)が続き、テキストに加え画像・動画を、言語の壁を越えて横断的に扱う方向へ進んだ。

技術的に整理すると、Transformer系は三つの系統に分かれる。理解に特化した符号化器型(BERT)、生成に特化した復号化器型(GPT・LaMDA)、両者を繋ぐ符号化器・復号化器型(原論文やT5)。検索の品質改善は符号化器型が担い、対話の自然さは復号化器型が担う。この分岐が、次の「なぜGoogleではなくOpenAIが対話AIを出したか」を理解する補助線になる。

LaMDAを抱えて出さなかったGoogleと、出したOpenAI ― RLHFという最後の一手

Googleの内部に、ChatGPTに比肩する対話モデルが既に存在した。2021年のI/Oで公表されたLaMDAは、復号化器型で最大137億パラメータ、1.56兆語の対話データで訓練されていた。Googleはこれを一般公開しなかった。事実性の担保、有害発言の抑制、誤情報のリスク――数十億人が使う検索を抱える企業として、対話AIが平然と嘘をつく状態を世に出す決断ができなかった。2022年6月、社内技術者が「LaMDAには意識がある」と主張して解雇された一件は、その慎重さの裏返しでもあった。

通説はここで止まりがちだが、技術的な核心はその先にある。OpenAIが2022年11月に公開したChatGPTの土台は、当時最先端だったわけではないGPT-3.5だ。決定打は基盤モデルの大きさではなく、RLHF(人間のフィードバックによる強化学習)という調整工程だった。同年のInstructGPT論文(Ouyang et al., 2022)が示した三段構成――まず人間が書いた模範応答で教師あり微調整(SFT)し、次に複数の応答に人間が優劣をつけて報酬モデルを作り、最後にその報酬を最大化するようPPO(近接方策最適化)で方策を磨く――が、生煮えの言語モデルを「指示に従い、対話として成立する」道具に変えた。基盤能力でGoogleが劣っていたわけではない。差は二つ、人間の好みに合わせる後工程を製品化したことと、もっともらしい嘘(ハルシネーション)のリスクを抱えたまま世に出す決断をしたことにある。技術と度胸は別の資源であり、両方が揃って初めて製品になる。

そしてピチャイが挙げる消費者向けインターネットの常態――Google VideoがありながらYouTubeを買収し、Facebookが写真機能を持ちながらInstagramを買収した――は、敗北の記録ではなく、規模を持つ企業が「予期せぬ突出」を後追いで取り込む構造の反復だ。誰かが車庫から最良のYouTubeや最良のAIを生むことはあっても、その後の規模化は別の資源を要する。

モデル単体では完成しない ― 計算則が描く「曲線」

ピチャイは計算資源への投入拡大を「賭けではなく曲線を見切ったもの」と表現した。この「曲線」は比喩ではない。経験則として観測された計算則(スケーリング則)を指す。OpenAIのKaplanらは2020年、言語モデルの損失が計算量・データ量・パラメータ数に対してべき乗則で滑らかに低下することを示した。さらにDeepMindのChinchilla研究(Hoffmann et al., 2022)が、与えられた計算予算に対する最適配分を明らかにした。パラメータを増やすだけでは非効率で、パラメータ1につき約20トークンの割合でデータも同時に増やすのが最適――この修正に従い、700億パラメータのChinchillaが、過剰に大きいだけの2,800億パラメータのGopherを上回った。

計算則が示すのは、計算資源を積めば性能が予測可能に伸びるという、工学的に珍しいほど素直な関係だ。計算資源の拡大は、この曲線への賭けである。同時に、計算を際限なく増やせない以上、効率化の研究も並走する。その代表が混合エキスパート(MoE)だ。GoogleのGShard(2020年)やSwitch Transformer(2021年、1.6兆パラメータ)は、入力ごとに膨大なパラメータの一部だけを起動する疎な構造を採り、総パラメータを増やしても演算量を比例させずに済ませる。「計算効率を一桁上げる」という冒頭の主題は、Transformer登場時点の一度きりの出来事ではなく、量子化・疎活性化・共設計として現在も続く連続的な営みだ。

垂直統合という参入障壁 ― モデル・チップ・データセンター・製品の連鎖

垂直統合、参入障壁、てこ――この三語が、Googleの優位を分解する鍵になる。中身は四つの環の連鎖である。優れたモデルがあっても、推論費用を支える専用チップがなければ規模に乗らない。チップがあっても、それを数千基束ねるデータセンターがなければ規模が出ない。データセンターがあっても、利用を吸収する製品群がなければ収益が追いつかない。どれか一つの単点工学ではなく、全環をひとつの方向に揃えるシステム全体の設計が要る。

Googleの場合、この連鎖は二重の意味で噛み合っている。技術面では、TPU向けのコンパイラ基盤(XLA)と数値計算フレームワーク(JAX・TensorFlow)が、モデルの計算グラフをTPUのシストリックアレイ向けに最適化する。演算子を融合し、データ移動を最小化する――個別最適ではなく層をまたいだ共設計だ。事業面では、検索・YouTube・Cloud・Waymo・Androidという複数の製品に、同一のAI基盤を横展開できる。一つのモデル系統(Gemini)を磨けば、全製品の品質が同時に上がる。これが「てこ」であり、性能の単純な積み上げとは異なる。

データセンター自体を一台の計算機として設計する思想は、Googleが長く磨いてきた領域だ。チップ間を光回路交換機で結び、液冷で熱密度を上げ、ギガワット級の電力を引き込む。この物理層の積み上げこそ、モデルの数式と同じ重みを持つ。日本企業がしばしば「AIモデルの優劣」に議論を集中させる一方で、実際の律速は電力・冷却・送電網・用地・規制を含むデータセンター全体にある、という現実は、もっと正面から語られてよい。半導体製造装置や先端材料で世界的な地歩を持つ日本にとって、上流の強みを基盤層の構築力にどう接続するかが問われている――これは記者の見立てだ。

検索が「エージェント管理画面」になる日 ― Antigravityが示す実装

検索の未来像は、「キーワードを入れて青い10本のリンクを待つ」体験から、「複数のエージェントを束ねて管理する」体験へ移る。これは構想にとどまらない。2025年11月18日、GoogleはGemini 3と同時に、エージェント先行型の開発基盤Google Antigravityを公開した。Visual Studio Codeを基にしつつ、複数の自律エージェントを生成・統率・観察する専用画面――その名も「マネージャー・サーフェス」を備える。エージェントは編集器・ターミナル・ブラウザに直接アクセスし、計画立案から実行、自己検証までを非同期でこなす。数分で終わるものも、数日走り続けるものもある。

ピチャイがポッドキャストで述べた「検索はエージェントの管理者になる」という比喩は、Antigravityの「マネージャー・サーフェス」という具体的な製品面として既に立ち上がっている。利用者が指示するのは個別の検索語ではなく、達成したい仕事だ。エージェント群が非同期にそれを分解し、長時間かけて完了させる。入出力の形態(音声、マルチモーダル、装置)が10年後に変わっても、「答えを見つけ、仕事を終わらせる」という機能の本質は動かない。ピチャイのこの観察は、技術の実装状況と整合している。

人材の系譜も、この基盤の厚みを傍証する。ハサビス、ディーン、サツキーバー、アモデイ――生成AIの中核を担う研究者の多くが、ある時期Googleに在籍した。発明の震源地でありながら普及で後れを取り、人材を外部に供給しながら基盤で巻き返す。この往復構造そのものが、消費者向けインターネットの常態にほかならない。

衛星・通信・計算基盤をめぐる陣営の地図

AIの基盤は、半導体とデータセンターだけでは閉じない。膨大な推論を末端の利用者へ届ける通信網、そしてそれを建設する資本連合の地図が、同じ「垂直統合」の論理で描かれつつある。ここでは技術と陣営の構図を整理する。

通信層では、低軌道衛星による接続が地上網と競合し始めた。スターリンクは2022年10月、アジアで最初に日本へ参入した。国内の提携先はKDDIで、衛星から携帯電話へ直接電波を届ける「au Starlink Direct」を展開する。物理的な要点は高度にある。静止衛星が約3万6千キロ上空から通信するのに対し、低軌道衛星は約550キロ。往復遅延が一桁以上小さく、手のひらの端末へ直接届く電波設計(リンクバジェット)が成立する。これに対しNTTはスペースコンパスや成層圏プラットフォーム(HAPS)で、ソフトバンクはワンウェブ(低軌道の競合網)や独自のHAPSで、別経路の非地上系ネットワークを構える。スターリンクの日本展開はKDDIを味方につける一方、NTTとソフトバンクには「衛星から携帯へ直接」の層で正面から対峙する構図になる。

計算基盤の建設をめぐる資本連合では、ソフトバンクの孫正義氏の立ち位置がはっきりしている。同氏はオープンエーアイ、オラクルと組んだ大規模データセンター建設計画(スターゲート)の中核に入り、傘下のArmはAIデータセンター向けCPUの設計資産を供給する。孫氏はサム・アルトマン氏のオープンエーアイ陣営に深く組み込まれている。一方のイーロン・マスク氏は2015年にオープンエーアイを共同創業しながら2018年に離脱、2024年には同社を提訴し、自らはxAI(対話AI「Grok」)と、メンフィスに築いた大規模計算機「コロッサス」で対抗する。

この対立軸の上に孫氏を置けば、答えは構造から導ける。孫氏はアルトマン氏側の最大級の建設パートナーであり、マスク氏のxAIとは計算基盤をめぐって反対側の陣営にいる。過去にも孫氏とマスク氏の出資交渉は不発に終わった経緯がある。したがって、孫氏がマスク氏の企業へ改めて資本を投じる展開は、オープンエーアイ陣営との整合性から見て起こりにくい――これは現時点の陣営図から読み取れる記者の観察だ。マスク・アルトマンの対抗の中で、孫氏は中立の調停者ではなく、明確にアルトマン側の基盤建設者として位置している。

技術の発明、それを支える半導体、束ねるデータセンター、届ける通信網、建設する資本――生成AIの競争は、どれか一点の勝敗ではなく、この連鎖を誰が一つの方向へ揃えられるかに移った。計画の時間軸が5年・10年先の青写真から、6カ月・1年・2年先へと縮んだのも、曲線の傾きが急になったからだ。スターリンクが地上網を脅かしながら市場を広げ、新たな対話AIが検索を侵食しながら検索を進化させる。これはゼロサムの奪い合いではなく、できることの価値が膨張していく局面だ――その認識こそ、ピチャイが対談の最後に置いた論点であり、本稿がたどった連鎖の全体像と重なる。