AIエージェントの性能7割はモデル外、Harness設計の全貌

LangChainが2026年3月に公開した「Agent=Model+Harness」を解剖。性能の約7割はモデル外で決まり、Context Rot(Chroma 18モデル実測)とContext Anxietyを、Filesystem退避・圧縮・Subagent隔離で吸収する設計と、日本企業の出遅れを深掘りする。

生成AIを実務で動かす鍵は、賢いモデルそのものより、それを取り囲む「ハーネス」の設計に移った。米LangChainが2026年3月10日に公開したブログ記事「The Anatomy of an Agent Harness」(Vivek Trivedy執筆)は、「エージェント＝モデル＋ハーネス」と定義し、性能の約7割がモデルの外側に宿ると整理する。長い文脈で精度が落ちるContext Rotや、上限間際に作業を急ぐContext Anxietyを、ファイルへの退避・要約・サブエージェント隔離で吸収する——モデル性能の話に偏りがちな日本の議論が見落とす運用設計の全体像を、一次資料から解く。

┌──────────────────────────────────────────────┐
│   AGENT  =  MODEL  +  HARNESS                 │
├──────────────────────────────────────────────┤
│ [MODEL：推論コア・凍結]                        │
│   ・状態を持たない                              │
│   ・コードを実行できない                        │
│   ・学習後の新情報に触れられない                 │
│              ＋                                │
│ [HARNESS：モデルでない全て]                     │
│   Filesystem★(最も基礎的) / Sandbox / Skills   │
│   Subagent / System Prompt / Hooks            │
│              ↓                                 │
│ [AGENT：状態・ツール実行・検証・制約を獲得]       │
└──────────────────────────────────────────────┘

ハーネス設計の四層マップ(各層の要素と検証)

層	主題	含まれる要素(漏れなく)	検証・一次出典
① 基盤	ハーネスとは何か	Agent=Model+Harness／Model(状態なし・コード実行不可・学習後情報なし)／Filesystem★(最も基礎的)／Sandbox／Skills／Subagent／System Prompt／Hooks	✓ LangChain「The Anatomy of an Agent Harness」(2026-03-10)
② 課題	2つのコンテキスト問題	Context Rot(入力長↑で推論精度↓)／Context Anxiety(上限間際で作業を早く畳む)／ハーネス側で吸収すべき設計問題	✓ Context Rot＝Chroma実測(2025・18モデル)／Context Anxiety＝Cognition(Devin)観測
③ 打ち手	文脈を軽く保つ三手	Compaction(その場要約)／Context Reset(clear→要約引継ぎ)／Tool call offloading(出力本体をFilesystemへ)	✓ Anthropic 文脈編集(+29%)・メモリー併用(+39%)／Manus退避
④ 並走	能力分割と隔離	Skills(Progressive Disclosure・必要時のみロード)／Subagent(隔離コンテキスト・圧縮結果返却)	✓ Anthropic Agent Skills 3段階／Subagent +90.2% vs 単一Opus 4・要約1,000-2,000トークン

なぜモデルは単体で動かないのか

LangChainの定義は単純だが射程が広い。ハーネスとは、モデル本体でないコード・設定・実行ロジックのすべてを指す。素のモデルはエージェントではなく、状態、ツール実行、フィードバック閉ループ、強制可能な制約をハーネスが与えて初めてエージェントになる、というのが中心命題だ。Vivek Trivedy氏は「モデルでなければ、ハーネスである」と言い切り、性能の約7割がモデルの外で決まると整理する。

モデル側の制約は三つに集約される。状態を持たないこと、コードを実行できないこと、学習後の新情報に触れられないことである。いずれもTransformerの自己回帰的なトークン予測と、事前学習で固定された静的パラメータという仕組みに由来する。だからこそFilesystem(ファイルシステム)を「最も基礎的なプリミティブ」と置く。永続的な状態とツール出力をモデルの外に逃がし、限りあるコンテキストウィンドウを推論そのものに使わせる発想だ。OpenAIが2025年8月からの約5カ月、3〜7人のチームで人手のコードをほぼ書かずに100万行超を生成した実験は、優れたハーネスが小チームを大組織に勝たせ得ることを実証した。境界の引き方こそが、エージェントの実力を決める。

ハーネスを構成する6要素

ハーネスは、モデルの外側を六つの部品で構成する。役割を分けて見ると、責任の所在が明快になる。

要素	役割	解決する問題
Filesystem★	永続状態とツール出力の退避先	文脈を推論に専念させる
Sandbox	実行環境の隔離	モデルに実行権を与えず安全に走らせる
Skills	能力のモジュール化	必要な能力だけを随時ロード
Subagent	処理の委譲と隔離	主の文脈を汚さず並列化
System Prompt	制御の起点	振る舞いの方針を固定
Hooks	拡張の差し込み点	外部監視・ガードを挿入

この分担が効くのは、モデルが賢くなるほど、外側の設計の巧拙が成果を左右するからだ。LangChainの派生解説やMongoDBの技術ブログは「LLMはエージェント系で最も小さな部品」とまで表現する。SandboxとFilesystemを組み合わせれば、モデルにコード実行権を渡さずに検証付きの自律実行が成立し、Hooksで外部監視やガードを差し込める。部品単位で責任を切り分ける設計は、障害の切り分けと再現性の確保にも直結する。エージェントの信頼性は、モデルの賢さではなく、この六要素の組み合わせ精度で測られる領域に入った。

Context RotとContext Anxietyの実測

ハーネスが吸収すべき課題は、モデル内部の欠陥ではなく、有限のコンテキストウィンドウと長時間タスクから生じる運用上の制約である。二つの現象を、まず形で示す。

■ Context Rot：入力長が増えるほど推論精度が落ちる
   精度
    |＼
    |  ＼＿＿
    |       ＼＿＿＿▶ 入力長
   （20万トークン窓でも5万で顕著に劣化 ／ Chroma 2025・18モデル実測）

■ Context Anxiety：残量が上限に近づくと作業を早く畳む
   残量
    |￣￣＼
    |      ＼＿▶ 経過（近道・要約の粗雑化）
   （Devin を Claude Sonnet 4.5 で再構築した際に観測）

第一のContext Rotは、AIデータベースのChromaが2025年に公表した実測研究が裏づける。GPT-4.1、Claude 4、Gemini 2.5、Qwen3を含む18のモデルを検証し、入力長が増えるほど全モデルの精度が落ちることを示した。20万トークンの窓を持つモデルでも、5万トークンの時点で顕著な劣化が現れる。注意機構が長い文脈の中間情報を相対的に軽視し、ノイズが蓄積するためで、コーディングエージェントでは主要な失敗モードになっている。第二のContext Anxietyは、残コンテキストが上限に近づくとモデルが作業を早く畳もうとして近道を取る挙動だ。コーディング支援のCognition AIが自社のDevinをClaude Sonnet 4.5で作り直した際、モデルが文脈残量を察知し、空き容量が尽きると判断すると要約を粗くしたり中間結果を切り捨てたりすることを観測した。いずれもモデル単体の改良では根治せず、ハーネス側の文脈管理で抑える必要がある。

コンテキストを軽く保つ3つの打ち手

文脈の膨張をその場で抑え、履歴の価値を保ったまま外へ逃がす三手がある。

① Compaction      : 長い履歴 ──[その場で要約]──▶ 要約版で新ウィンドウ再開
② Context Reset   : Round1 ──[clear]──▶ Round2（要約だけ引き継ぐ）
③ Tool offloading : ツール出力の本体 ──[退避]──▶ Filesystem
                    （文脈内には参照トークン／短い要約のみ残す）

効果：文脈編集 +29% ／ メモリーツール併用 +39%（Anthropic 内部評価）

Compaction(圧縮)は、履歴が上限に近づいた時点で要約し、その要約で新しいウィンドウを開き直す。Context Resetは、ラウンドごとに文脈を明示的にクリアし、要約だけを次へ引き継いで累積ノイズを断つ。Tool call offloadingは、ツール出力の本体をFilesystemへ退避させ、文脈内には参照トークンや短い要約のみを残す。自律エージェント「Manus」は古いツール出力をファイルへ書き出し、退避の効きが鈍ったときだけ要約する運用で知られる。

効果は数字で裏付けられている。アンドレイ・カルパシー氏が2025年6月に「コンテキストエンジニアリング」と名付けたこの領域で、Anthropicは同年9月に文脈編集(context editing)とメモリーツールという二つの基盤機能を公開した。同社の内部評価では、文脈編集だけで性能が29%、メモリーツールと併用すると39%向上した。三手は単独でなく連鎖して働き、文脈の「重さ」と「全体量」を制御しながら、必要な情報を外部の永続層へ移す。モデルを賢くするのではなく、見せる情報を設計し直すことで精度を取り戻す発想である。

SkillsとSubagentで並走させる

文脈を汚さずに処理を委ねる二つの設計が、ハーネスの到達点を示す。

● Skills（Progressive Disclosure：3段階で必要な分だけ開く）
   ①Discovery   ▶ 起動時は各スキルの「名前＋説明」だけ読む
   ②Activation  ▶ タスクが一致したら SKILL.md 本体を文脈へ展開
   ③Execution   ▶ 実行時に必要なコード／参照ファイルを随時ロード

● Subagent（Isolated Context：隔離した文脈に委任）
   Main Agent ──[委任]──▶ Sub Agent（独立した文脈で処理）
   Sub Agent  ──[圧縮要約 1,000〜2,000トークン]──▶ Main へ返却
   効果：単一の Claude Opus 4 を社内評価で +90.2%（Anthropic）

Skillsは「段階的開示(Progressive Disclosure)」で動く。Anthropicの実装では三段階を踏み、起動時はスキルの名前と説明だけを読み込み、タスクが説明に一致したときに本体のSKILL.mdを文脈へ展開し、実行時に必要なコードや参照ファイルを随時読む。能力の説明を常時抱えないため、文脈の肥大を防ぎながら大量の機能を扱える。目次から章、付録へと必要な分だけ開く、整理された手引きに近い。

Subagentは「隔離コンテキスト」で並走する。主エージェントが独立した文脈を持つ副エージェントに作業を委任し、副は処理結果を圧縮して返す。Anthropicの多エージェント研究システムでは、各副エージェントが1,000〜2,000トークンに凝縮した要約を主に返し、この構成が単一のClaude Opus 4を社内の調査評価で90.2%上回った。主の文脈を汚さないだけでなく、複数の副を同時に走らせて全体の処理量も上げられる。能力の分割と状態の隔離を同時に実現する点に、この設計の価値がある。

なぜ日本企業はハーネスで出遅れるか

日本のAI議論は、モデル性能とデータセンターの電力・GPU調達に偏ってきた。主要4社の2026年のAI設備投資が前年比約77%増の約7,250億ドルに達する見通しのなか、注目はハードに集まり、ソフト側の「信頼できる実行基盤」の議論が薄い。Context Rotを抑える文脈衛生、本番級の可観測性、生成と評価を分ける独立評価、記憶の更新といったハーネス層の実装は、国内では実証実験どまりが多いのが実情だ。

差を埋める道具はすでに開かれている。LangChainやLangGraphの上に、圧縮・退避・段階的開示・サブエージェント隔離を比較的低コストで載せられる。評価の物差しを、出力の見栄えから、介入率・回復成功率・逸脱検知率というハーネスの信頼性へ移せるかが分かれ目になる。日本の製造・金融で磨かれた品質保証(QA)と完璧主義は、サンドボックスと検証の文化として、むしろハーネス構築の強みに転じうると見られる。モデルの改良を待つのではなく、外側の設計で即座に効く領域に、人と評価指標を割り当てられるかが問われている。

孫正義とAIインフラ戦争での立ち位置

ハーネスが競争の堀になるなら、モデルは相対的にコモディティ化し、勝敗はエージェントの信頼性で決まる。この層を主導するのがAnthropicだ。Agent SkillsやPlanner・Generator・Evaluatorの多エージェント設計、文脈編集とメモリーツールの基盤化で先行し、法人の新規採用では直接比較の約7割を制したとの調査もある。OpenAIはCodexのハーネス実験で対抗し、孫正義氏のソフトバンクグループが総額5,000億ドルのStargateで支えるOpenAIは売上で首位を保つが、法人ではAnthropic、消費者ではグーグルのGeminiに侵食されている。

孫氏が、OpenAIと法廷でも争うイーロン・マスク氏のxAIへ資金を移す芽は乏しい。利益相反が大きく、両者は通信でも競うからだ。スターリンクは日本でKDDIが「au Starlink Direct」で先行し、ソフトバンクはNTTドコモ・スカパーJSATのスペース・コンパスや自前の非地上系網で対抗する。傘下で半導体設計を握る英アーム・ホールディングス(ソフトバンクが約9割保有)は、ハーネスが普及してエージェント実行が増えるほど計算需要の恩恵を受ける。6月12日のSpaceX上場は、孫氏がマスク経済圏へ間接的に触れる数少ない窓口になり得るが、AIの主軸はあくまでアルトマン氏側に置いたままだと見られる。

日本企業が直面する選択

この転換は、日本の企業と投資家に好機と試練を同時に差し出す。好機の一つは、ハーネスの優位が資本規模でなく設計力で決まる点だ。少人数でも圧縮・隔離・検証を組めば、大組織に伍せる。製造・金融で培ったQA文化は、サンドボックスと独立評価の文化として強みに転じうる。もう一つは計算需要への波及で、エージェント実行が増えるほど、SiCパワー半導体やデータセンター、検査装置といった日本が強い計算基盤の周辺に資金が向かう。

試練も二つある。第一は依存だ。LangChainやAnthropic、OpenAIのハーネス規約に深く乗るほど、設計の主導権と切り替え余地を失う。第二は人材と速度である。文脈衛生や可観測性を設計できる人材は国内で乏しく、人間が毎回レビューする前提のままでは、ハーネスの長所が打ち消される。モデルの賢さを待つのか、外側の設計で先に成果を取りにいくのか。評価指標をハーネスの信頼性へ移し、既存フレームワーク上で最小実装に踏み出せるかどうかが、日本がAIエージェントの利用者にとどまるか、設計者へ回れるかを分けると見られる。