OpenAIが3〜7人・約5カ月で100万行超を生成した内部実験を起点に、Prompt→Context→Harness Engineeringの三段階進化を解説。検証閉ループと独立Evaluator、Anthropicの計画者・生成者・評価者型ハーネス、孫正義のAI投資への含意まで投資家視点で読み解く。

生成AIの競争軸が、モデルの性能から、モデルを囲む制御枠組み(ハーネス)の設計へ移りつつある。OpenAIのフロンティア製品探索チームは2025年8月からの約5カ月で、人手のコードをほぼ書かずに100万行超の本番ソフトを生成し、3人で始めたチームは7人に増えても1人あたり1日3.5件のプルリクエストを回した。プロンプトの工夫から文脈設計、そして実行環境全体の制御へ——この三段階のどこで戦うかが、2026年以降の生産性と、孫正義氏らが投じる巨額AI投資の成否を左右する。

指示の最適化が行き詰まる仕組み

大規模言語モデル(LLM)は、直前までの単語列から次の一語を確率で選ぶ自己回帰型の予測器にすぎない。プロンプトエンジニアリングは、指示や少数の例、思考の連鎖(Chain-of-Thought、推論過程を文章で展開する手法)を入力に足し、この確率分布を望ましい方向へ寄せる技術として2022〜24年に広まった。出力の質は確かに上がるが、構造的な限界が三つ残る。

第一に、モデルは状態を持たない。対話のたびに文脈の窓が実質リセットされ、長く複雑な作業ほど一貫性が崩れる。第二に、根拠付け(grounding)が弱く、外部の実行結果と結合しないため、事実と異なる生成(hallucination)を原理的に抑えられない。第三に、注意機構は入力が長くなるほど計算量が二乗で増え、文章の中間に置かれた情報への重みが下がる「Lost in the Middle」(2023年の研究で報告)が顕在化する。プロンプトをいくら磨いても、検証も記憶も実行環境も外部に存在しないため、自律エージェントを長時間走らせると誤差が累積し、自らの出力を楽観視する偏りが現れる。指示の言い回しを競う段階は、ここで上限に達した。

なぜ文脈設計が次の主戦場か

2025年、焦点は「どう言うか」から「モデルに何を見せるか」へ移った。アンドレイ・カルパシー氏が同年12月に「コンテキストエンジニアリング」と名付けたこの段階は、モデルを毎回ブリーフィングし直す健忘症の助手と見なし、文脈の窓に入れる情報そのものを設計する。中核は検索拡張生成(RAG)である。質問をベクトル化して類似文書を引き、BM25などの語彙検索と併用し、上位を再順位付けして必要な情報だけを渡す。仮想文書を生成して検索精度を上げるHyDEや、多段検索といった高度化も進む。

長文の中間が無視される位置バイアスには、重要情報を文頭か文末に置く配置の工夫、重要度を採点して冗長を削る抽出圧縮、詳細から超要約までを多層に持つ階層要約が効く。実装報告では、重要度に基づくトークン剪定で4〜6割の削減が可能とされる。さらに、仕様や意思決定、修正履歴をGitリポジトリ一カ所に集約する「単一の正典(Single Source of Truth)」が、どの情報が最新かをモデルに判断させる負担を消す。SlackやメールやPDFに散らばった決定こそが、自律エージェント最大の隠れた敵である。それでも実行時の検証と回復の仕組みは依然欠けたままだ。

OpenAIが示したHarnessの破壊力

2026年2月11日、OpenAIのライアン・ロポポロ氏が一本の記事で、この次の段階に「ハーネスエンジニアリング」という名を与えた。ハーネス(馬具)とは、エージェントを取り囲む足場・制約・フィードバックの総体——リポジトリ構造、CI設定、整形規則、パッケージ管理、プロジェクト指示、外部ツール連携、リンターのすべてを指す。エージェントとは「モデル+ハーネス」であり、性能差はもはやモデル単体ではなく、この囲いの設計で決まるという主張である。

主張は内部実験で裏打ちされた。同チームは2025年8月から約5カ月、人手でコードをほぼ書かずにCodexエージェントだけで社内向けElectronアプリを構築し、数千件のプルリクエストを通じて100万行超を生成した。3人で始めたチームは7人に増え、約1,500件のPRをこなし、1人あたり1日3.5件を維持——人数を増やしても速度がむしろ上がり、手作業比でおよそ10倍速いと報告された。鍵は三つある。リポジトリを「システムの記録」として全決定をGitに集約したこと、巨大な文脈を避けて索引と動的読み込みに切り替えたこと、そして検証の閉ループと技術的負債の自動清掃(命名・体裁・文書を定期スキャンで修正)を徹底したことだ。モデルがコモディティ化するほど、この囲いの巧拙が小チームを大組織に勝たせる。

独立Evaluatorはなぜ自己採点に勝つか

自律エージェントの最大の弱点は、自分の仕事を甘く採点することだ。Anthropicは2026年の「長時間アプリ開発のためのハーネス設計」で、単独エージェントと、計画者(Planner)・生成者(Generator)・評価者(Evaluator)に役割を分けた三体制を、2Dレトロゲームエンジンの構築で競わせた。Plannerが曖昧な依頼を、範囲・例外・受け入れ基準まで含む詳細仕様へ展開し、Generatorがコードとテスト、CI、文書を量産する。要点はEvaluatorを別モデル・別文脈で独立させたことだ。生成と評価を分離すると、自己評価より明確に成績が上がる。エージェントは自作を甘く見るからである。完了の定義を着手前に交わす「スプリント契約」も同じ発想に立つ。

検証は二層で回す。リンターや型検査、自動テスト、サンドボックス実行といった決定的で高速な層と、規範を与えてLLMに批評させる意味的な層だ。状態は人でなくファイルが持つ。計画はprd.json、作業記録はprogress.txt、運用規則はAGENTS.mdに置き、健忘症のエージェントが毎回ディスクから状況を読み直す。これで「完了したと言い張る」段階から「検証済みで完了」へ移る。敵対的生成ネットワーク(GAN)のように生成役と評価役を競わせる構図が、長時間の自律実行を破綻から守る。

孫正義の賭けはモデルかHarnessか

この「囲いが堀になる」論は、巨額投資の前提を揺さぶる。ソフトバンクグループの孫正義氏は、サム・アルトマン氏のOpenAIと組み、総額5000億ドルのStargateで地上に計算基盤を築く。主要4社の2026年のAI設備投資は前年比約77%増の約7,250億ドルに達する見通しで(2026年第1四半期決算ベース)、資本はモデルとインフラに注がれている。だが優位の源泉がハーネスへ移るなら、勝敗を分けるのは資本量より、検証と記憶と制御の設計力という、3〜7人のチームでも積める無形資産になる。傘下で半導体設計を握る英アーム・ホールディングス(ソフトバンクが約9割保有)は、地上でも宇宙でも計算が増えれば恩恵を受ける一方、ソフト側の制御層では存在感が薄い。

孫氏が、OpenAIと対立するイーロン・マスク氏のxAIへ資金を移す芽は乏しい。アルトマン氏に深く肩入れした立場で、Grokを擁する競合へ賭けるのは整合しないからだ。マスク氏との競合は通信にも及ぶ。スターリンクは2025年時点で7,000基超の低軌道衛星を運用し(高度約550キロメートル)、日本ではKDDIが「au Starlink Direct」で先行、NTTドコモと孫氏のソフトバンクが非地上系で対抗する。AIではアルトマン氏と組み、通信ではマスク氏と競う——孫氏は二正面の関係を保ったまま、ハーネス層という新しい競争軸への備えを問われると見られる。

日本企業が直面する選択

三段階の進化は、日本企業に好機と試練を同時に差し出す。好機の一つは、ハーネスの優位が資本規模でなく設計力で決まる点だ。少人数でも検証閉ループと独立評価を組めば、大組織に伍せる。製造・自動車・金融で磨いてきた品質保証(QA)と完璧主義は、サンドボックスと検証の文化として、むしろ強みに転じうる。もう一つは、計算需要そのものへの波及だ。エヌビディアの「GB200 NVL72」や液冷データセンターへの投資はすでに活発で、関連する電力・部材の国内銘柄に資金が向かう。

試練も二つある。第一はソフト側の空白だ。GPUと液冷への投資は進む半面、本番級の可観測性、適応的な記憶更新、独立した評価者といった「信頼できる実行基盤」は実証実験止まりが多い。第二は文化だ。人間が毎回レビューする前提が、ハーネスの長所を打ち消す。評価指標を出力品質から、介入率・回復成功率・逸脱検知率というハーネスの信頼性へ移せるか。プロンプト職人への依存を脱し、文脈の一元化と最小のハーネス実装に踏み出せるかどうかが、既存のAI投資を生産性へ変える分岐点になると見られる。

出典確認

  • 一次/公式準拠:OpenAI harness engineering記事と実験数値(2026/2/11)、Anthropicハーネス設計レポート(2026)、カルパシー氏の命名時期、Lost in the Middle(2023年研究)、Stargate($500B)、アーム約9割保有、スターリンク/KDDI

参考