AIの基盤を、2017年に登場したTransformerから分解。自己注意・FFN・KVキャッシュの動作、学習/推論/分散計算/評価の運用エコシステム、スケーリング則、そしてブロックチェーンとの融合可能性まで、教育・学術向けに体系解説する。

  • AIの基盤となる仕組み — Transformerアーキテクチャ、運用エコシステム、およびブロックチェーンとの技術的関連性に関する体系的解析

技術レポート / Technical Report

要旨

現代の人工知能、とりわけ大規模言語モデル(LLM)は、2017年に提案されたTransformerアーキテクチャを中核に、学習・推論・最適化・分散計算・評価という複数の機能層が連携した一つのエコシステムとして動作する。本稿は、内部構造を構成要素へ分解し、各要素の役割と入出力、直列・並列両面の処理フロー、そしてシステム全体の運用構造を順に解説する。最後に、AIネットワークとブロックチェーンネットワークを、価値創出・信頼形成・ネットワーク効果・分散性の観点から比較し、検証可能性や来歴管理を軸とした融合可能性を技術的に考察する。

1. 序論 — 「層の積み重ね」としてのAI

ニューラル言語モデルは、入力された記号列から次の記号の確率分布を推定する条件付き確率モデルとして定式化される。長さ t の系列 x₁,…,xt に対し、モデルは P(x{t+1} | x₁,…,x_t) を出力し、これを逐次적に連ねて生成を行う。Transformerは、この条件付き確率を、注意機構を主役とする深い合成関数として近似する点に本質がある。再帰型(RNN)が系列を時刻方向に逐次処理して長距離依存と並列化に難を抱えたのに対し、Transformerは系列全体を一括して相互参照させ、学習時の並列性と長距離依存の捕捉を同時に実現した(Vaswani et al., 2017)。

本稿では、まず内部構造(第2章)、次に処理の連携(第3章)、続いて運用エコシステム(第4章)、最後にブロックチェーンとの比較(第5章)という順で、抽象から具体、そして対比へと議論を進める。

2. 内部構造の構成要素分解

Transformer(復号器専用型を基準とする)は、以下の要素の合成として記述できる。

構成要素役割入力 → 出力主なパラメータ
トークン化生テキストを離散記号(整数ID)へ分割文字列 → 整数列語彙(5万〜20万程度)
埋め込み層整数IDを密ベクトルへ射影整数列 → ベクトル列埋め込み行列 V×d_model
位置符号化順序情報を付与ベクトル列 → ベクトル列sinusoidal / 学習 / RoPE
多頭自己注意トークン間の依存関係を捕捉ベクトル列 → ベクトル列W^Q,W^K,W^V,W^O
前方伝播層(FFN)位置ごとの非線形変換ベクトル列 → ベクトル列W₁(d→4d),W₂(4d→d)
正規化・残差学習の安定化と勾配伝播ベクトル列 → ベクトル列LayerNorm/RMSNorm 係数
出力層(逆埋め込み)隠れ状態を語彙上の確率へベクトル → 確率分布W_U(d×V、埋め込みと結合可)

2.1 トークン化と埋め込み

生テキストはまずトークンへ分割される。現代の主流はサブワード分割(Byte-Pair Encoding やその一族)で、頻出語は1トークン、希少語は複数トークンに割り当てることで、語彙爆発と未知語問題を同時に抑える。各トークンID i は、埋め込み行列の第 i 行を引くことで dmodel 次元(典型的に512〜4096以上)の密ベクトル ei に写される。ここで「語の意味」は学習を通じてベクトル空間上の位置として獲得される。

自己注意は集合演算であり、そのままでは語順を区別できない。そこで位置符号化を加える。原論文は周期の異なる正弦・余弦関数による固定符号化を用いたが、近年は相対位置を回転行列で表す回転位置埋め込み(RoPE; Su et al., 2021)が主流で、長文への外挿性に優れる。入力は最終的に「埋め込み + 位置情報」を持つベクトル列 X ∈ ℝ^{n×d} となる。

2.2 多頭自己注意機構(MHSA)

注意機構の中核は、scaled dot-product attention である。

Attention(Q, K, V) = softmax( Q·Kᵀ / √d_k ) · V

各トークンのベクトルを、学習行列で問い合わせ Q、鍵 K、値 V に線形射影する。Q と K の内積はトークン間の類似度(関連度)を与え、softmax で正規化した重みで V を加重和する——すなわち「各トークンが、関連する他トークンの情報をどれだけ取り込むか」を動的に決める。内積を √dk で割るのは、dk が大きいほど内積の分散が増えて softmax が一点に飽和し、勾配が消失するのを防ぐためである。

単一の注意では捉えられる関係が一種類に限られるため、射影を h 組用意して並列に計算し(各ヘッドの次元は dk = dmodel/h)、結果を連結して出力射影 W^O にかける。これが多頭(multi-head)である。復号器では、未来のトークンを参照しないよう、注意重み行列の上三角を −∞ にする因果マスク(causal mask)を適用する。これにより自己回帰的な言語モデルの「過去のみから次を予測する」性質が保証される。計算量は系列長 n に対し O(n²·d) で、この二乗依存が長文処理の本質的ボトルネックになる。

2.3 前方伝播層・正規化・残差

注意層の後段には、位置ごとに独立に作用する2層の全結合層(FFN)が置かれる。

FFN(x) = W₂ · activation(W₁ · x + b₁) + b₂      (中間次元は通常 4·d_model)

活性化は初期の ReLU/GELU から、ゲート機構を備えた SwiGLU(PaLM・Llama系)へと移った。注意層が「トークン間で情報を混ぜる」のに対し、FFNは「各位置の表現を非線形に深める」役割を担う。

各副層は残差接続で囲まれ、出力は x + Sublayer(x) として書かれる。これは恒等写像の経路を残して勾配の通り道を確保し、深い層でも学習を可能にする。正規化は当初は副層の後(Post-LN)に置かれたが、学習安定性のため副層の前に置く Pre-LN 構成が主流となり、平均減算を省いた RMSNorm が広く採用される。数十〜数百層を積み重ね、最終層の隠れ状態 ht を逆埋め込み行列 WU にかけて語彙上のロジットを得て、softmax で次トークン確率 P(x{t+1} | x{≤t}) に変換する。

2.4 アーキテクチャの類型

同じTransformer骨格でも、注意のかけ方で三類型に分かれる。復号器専用型(GPT系)は因果マスク付きで生成タスクに最適。符号化器専用型(BERT系)は双方向注意で文の理解・分類に強い。符号化器・復号器型(T5系)は入力を双方向に符号化し、出力を自己回帰的に復号する翻訳・要約向けの構成である。生成AIの主流は復号器専用型であり、本稿の以降の議論もこれを基準とする。

3. コンポーネントの連携 — 直列処理と並列処理

3.1 順伝播のデータフロー

推論時の1ステップを、データの流れとして示す。

[生テキスト]
   │ トークン化
   ▼
[整数ID列] ──埋め込み+位置符号化──▶ [X ∈ ℝ^{n×d}]
   │
   ▼  ┌─────────── Transformer ブロック × L ───────────┐
   │  │  X ─▶ LayerNorm ─▶ 多頭自己注意 ─▶(+残差)      │
   │  │    ─▶ LayerNorm ─▶ FFN ─▶(+残差)─▶ X'         │
   │  └────────────────────────────────────────────────┘
   ▼
[最終隠れ状態 h_t] ──逆埋め込み W_U──▶ [ロジット] ──softmax──▶ [次トークン確率]

隠れ状態は層から層へ受け渡され、残差経路により各層は「前の表現への差分」を学習する。最終トークン位置の表現だけが次トークン予測に使われる。

3.2 並列性 — 学習を高速化する軸

Transformerの最大の工学的利点は、計算が高度に並列化できる点にある。注意の重み計算とFFNは、バッチ内の各系列、系列内の各位置、注意の各ヘッドについて独立に走り、GPUの行列演算器(テンソルコア)を埋め尽くせる。学習時は系列全体を一度に与え、因果マスクのもとで「各位置が次の位置を予測する」損失を全位置同時に計算できる(teacher forcing)。これがRNNに対する決定的な学習速度の優位である。

3.3 直列性 — 生成に残る逐次依存

一方、層の積み重ねは下から上への直列依存であり、生成は一語ずつ進む自己回帰のため逐次的である。t 番目の語を出すには 1…t−1 の結果が要る。この逐次コストを抑えるのが KVキャッシュで、過去のトークンについて計算済みの K・V を保持し、新トークンの分だけ追加計算する。これにより1トークンあたりの計算は系列全体の再計算(O(n²))から増分計算(O(n))へと下がる。長文では KVキャッシュがGPUメモリを圧迫するため、後述の PagedAttention などメモリ管理が重要になる。

3.4 学習時の逆伝播と最適化

学習は順伝播・逆伝播・パラメータ更新の反復である。自己教師あり事前学習では、次トークン予測の交差エントロピー損失

L = − Σ_t  log P(x_t | x_{<t})

を最小化する。逆伝播で全パラメータの勾配を求め、AdamW(モーメントと二次モーメントを保持し、重み減衰を分離した適応的最適化)で更新する。学習率は初期に線形ウォームアップ後、余弦的に減衰させ、勾配クリッピングで発散を防ぐ。事前学習の後、指示追従のための教師ありファインチューニング(SFT)、人間の選好を反映する RLHF(報酬モデル + 方策最適化)や、それを簡略化した DPO(直接選好最適化; Rafailov et al., 2023)で整合(alignment)を行う。

4. AIシステムのエコシステム

AIは単一のモデルではなく、データから評価までを循環する装置として運用される。全体像を流れで示す。

[データパイプライン] → [学習フェーズ(事前学習→事後学習)] → [モデル最適化]
        ▲                                                       │
        │                                                       ▼
[評価・監視] ←───────────── [推論サービング] ←──────────── [配備モデル]
        └──(フィードバック/嗜好データ)──▶ 次の学習へ

4.1 学習フェーズと分散コンピューティング

事前学習は数兆トークン規模のコーパスを、多数のGPU/アクセラレータからなるクラスタで処理する。単一の加速器に収まらないため、複数の並列化を組み合わせる。

並列化分割対象主な通信代表実装
データ並列バッチを分割、モデルは複製勾配の AllReducePyTorch DDP
テンソル並列層内の行列積を分割層内の AllReduceMegatron-LM
パイプライン並列層を区間に分割区間境界の点対点GPipe / PipeDream
完全シャーディングパラメータ・勾配・最適化状態を分割AllGather / ReduceScatterZeRO(DeepSpeed)/FSDP

メモリ占有は、パラメータ本体に加え、勾配、そして Adam が保持する一次・二次モーメント(パラメータの約2倍)、さらに逆伝播用の活性化が支配的である。ZeRO はこれらを段階的に各加速器へ分散保持し、見かけ上のメモリ上限を引き上げる(Rajbhandari et al., 2020)。数値表現は、指数部が広く損失スケーリング不要な BF16 や、より低ビットの FP8 を用いる混合精度が標準で、メモリと帯域を節約する。加速器間は高帯域・低遅延の相互接続(ノード内は高速リンク、ノード間は高速ファブリック)で結ばれ、集合通信ライブラリが AllReduce 等を最適化する。注意計算自体も、n×n の重み行列を顕在化させずタイル分割で処理する IO 効率的手法(FlashAttention; Dao et al., 2022)により、メモリ律速を緩和する。

4.2 推論フェーズ

推論は低遅延・高スループットの工学である。生成は逐次的で、KVキャッシュの管理が性能を左右する。PagedAttention(Kwon et al., 2023)は、KVキャッシュを仮想記憶のページのように非連続管理し、断片化を抑えて同時実行数を引き上げる。複数リクエストを動的に合流させる連続バッチング、下書きモデルが複数トークンを先読みし本体モデルが一括検証する投機的デコーディング(Leviathan et al., 2023)も、逐次性に由来する待ち時間を縮める。

4.3 モデル最適化フェーズ

配備に向けては、精度を保ちつつ計算・メモリを削る各種手法を適用する。

手法原理効果と代償
量子化重み・活性化を低ビット化(INT8/INT4 等)メモリ・帯域減、僅かな精度低下
枝刈り寄与の小さい重み/構造を除去疎化で高速化、再学習を要することも
蒸留大モデルの出力で小モデルを学習小型化、上限は教師に依存
LoRA/PEFT低ランク行列のみ追加学習微調整コスト激減、本体は凍結
混合専門家(MoE)入力ごとに一部の専門家のみ活性化総パラメータを増やしつつ実計算を一定に保つ

MoE は、ルータが各トークンを上位 k 個の専門家に振り分ける疎活性化により、容量(総パラメータ)と推論コスト(活性パラメータ)を分離する設計思想であり(Shazeer et al., 2017 に起源)、近年の大規模モデルで広く採用される。

4.4 データパイプラインとスケーリング則

性能を支配するのは計算量だけでなくデータの質と量である。パイプラインは、収集・重複除去・有害/低品質除去・トークン化・サンプリング比の調整からなり、ここでの品質がモデル能力の上限を決める。計算予算 C(おおむね C ≈ 6·N·D、N はパラメータ数、D は学習トークン数)を固定したときの最適配分を示すのがスケーリング則である。Kaplan ら(2020)は損失がパラメータ数に対しべき乗則 L ∝ N^{−α} で減ると示し、Hoffmann ら(2022、Chinchilla)は、固定計算下では N と D をほぼ等比で増やすのが最適で、目安はパラメータ1個あたり約20トークン(例:700億パラメータに対し約1兆4,000億トークン)とした。これは「大きいだけでデータ不足」のモデルが計算非効率であることを示し、データ中心の設計へと舵を切らせた。

4.5 モデル評価システム

評価は静的指標と動的監視の二層からなる。静的には、保留データでの困惑度(perplexity)、知識・推論・コード生成などの標準ベンチマーク(MMLU、GSM8K、HumanEval 等)、人間または対戦形式による選好評価を用いる。さらに、有害出力や脱獄を探す敵対的検査(レッドチーミング)、事実性・幻覚の測定を行う。配備後は入力分布の変化(ドリフト)や出力品質の劣化を継続監視し、得られた嗜好データを次の学習へ戻すことで、エコシステムは閉ループとして回り続ける。

5. AIネットワークとブロックチェーンネットワークの比較分析

両者はともに「多数のノードが連携して価値を生むネットワーク」であるが、価値の源泉と信頼の作り方が根本的に異なる。

観点AIネットワークブロックチェーンネットワーク
価値創出予測・生成による情報の付加価値改ざん不能な記録による信頼・所有・調整コスト削減
計算の性質確率的・近似的(同入力でも揺らぐ)決定論的・厳密(全ノードが同一結果)
信頼形成統計的・経験的(検証は困難、内部は不透明)暗号学的(ハッシュ連鎖・署名で誰でも検証可)
合意不要(中央が学習・配備)必須(PoW/PoS 等で状態を一致)
ネットワーク効果データとユーザーの好循環(使うほど改善)参加ノード・流動性・開発者(メトカーフ的)
分散性学習は集中(大規模計算)、推論は分散可設計上分散(単一障害点を排除)
スケーラビリティ並列計算で拡張(計算・メモリが律速)スループットが律速(L2・シャーディング・ZKで緩和)

5.1 価値創出と信頼形成の構造的差異

AIは、大量データから統計的規則を抽出し、新しい入力に対する予測・生成という形で価値を生む。その出力は確率的であり、正しさは経験的なベンチマークや人間評価で間接的に裏づけるしかない——内部は本質的にブラックボックスである。対してブロックチェーンは、取引の正しさを暗号学的・決定論的に保証する。ハッシュの連鎖と電子署名、合意機構により、第三者を信頼せずとも台帳の整合性を誰もが検証できる。AIが「賢いが検証しにくい」のに対し、ブロックチェーンは「賢くはないが検証できる」。この非対称が、両者を補完関係に置く。

5.2 分散性とネットワーク効果

AIのネットワーク効果はデータの好循環にある。利用が増えるほど嗜好データと事例が集まり、モデルが改善され、さらに利用を呼ぶ。ただし学習に要する計算が巨大なため、能力は少数の計算保有主体へ集中しやすい。ブロックチェーンのネットワーク効果は、参加ノード・流動性・開発者コミュニティの拡大にあり、分散していること自体が改ざん耐性という価値を生む。両者は「効果の源泉」(片や情報、片や合意)と「集中・分散の方向」が対照的である。

5.3 将来的な融合可能性

技術的な接合点は複数ある。

融合技術内容解決する課題
zkML(ゼロ知識機械学習)推論が正しく実行されたことをゼロ知識証明で立証ブラックボックス推論の検証可能性
連合・分散学習データを集約せず勾配/モデルを共有し協調学習プライバシー、データ主権
来歴記録(provenance)学習データ・モデル・生成物の出所を不変台帳に記録改ざん検知、生成物の真贋・同意管理
分散計算市場遊休計算資源を暗号インセンティブで集約計算の中央集権の緩和
自律分散統治(DAO)モデルの方針・更新を分散的に決定ガバナンスの透明化

最大の技術的障壁は、ブロックチェーンが全ノードの厳密一致(決定論)を要するのに対し、GPU上の浮動小数点演算が非決定的で、AI推論をオンチェーンで直接再実行できない点にある。これを回避するのが、計算結果の正しさだけを軽量に検証する zkML や、まず信用し異議があれば検証する楽観的検証である。連合学習は、医療など集約困難な機微データでの協調を可能にし、来歴記録は生成物の真贋証明や学習データの同意・著作権管理に資する。

5.4 ブロックチェーンがAIの設計思想に与えた示唆

ブロックチェーンがAIの内部アルゴリズムを直接変えたわけではない。影響はむしろ設計思想の次元に現れている。第一に、検証可能性の重視である。「賢いが信用しにくい」AIに対し、暗号学的に裏づけられる出力という発想が、来歴記録や証明可能な推論の研究を後押しした。第二に、来歴と同意の記録という規範で、学習データの出所や利用許諾を追跡可能にする思想が広がった。第三に、計算の中央集権へのアンチテーゼとしての分散思想であり、少数主体による計算独占に対し、インセンティブで分散資源を束ねる試みを促した。もっとも、計算コストと遅延、規制の壁は高く、両技術の融合は研究と初期実装の段階にあり、相互補完的に並行進化していく過程にあると見られる。

6. おわりに — 設計思想としての含意

Transformerは、注意機構という単一の演算を軸に、並列学習・長距離依存・自己回帰生成を一つの枠組みに統合した。その能力は、内部アーキテクチャの巧拙だけでなく、データパイプライン、分散学習、推論最適化、評価という運用エコシステム全体の設計に支えられている。スケーリング則が示すように、性能は計算とデータの均衡で決まり、設計の焦点は「どれだけ大きくするか」から「何を、どう検証可能に学ばせるか」へ移りつつある。ブロックチェーンが体現する検証可能性・来歴・分散性の規範は、確率的で不透明になりがちなAIに対する補完原理として、今後の信頼あるAI設計の重要な参照軸になる。