Meta、AIエージェントManus買収の全貌 Llama 3基盤でAGI競争加速

米Metaが、自律型AIエージェントを開発する新興企業Manusの買収で最終合意したことが分かった。買収額は数十億ドル規模と見られ、Metaの基盤モデル「Llama 3」とManusの自律実行技術を統合し、汎用人工知能（AGI）開発を加速する。この動きは、OpenAIやGoogleとの開発競争を新たな段階に進めると同時に、AIの社会実装を支える半導体や部材を供給する日本企業にも、新たな事業機会と構造変化への対応を迫る。

「Llama 3」の次、自律実行への一手

今回の買収は、MetaのAI戦略が新たな局面に入ったことを示す。同社はこれまで、大規模言語モデル（LLM）「Llama」シリーズをオープンソースで公開し、開発者コミュニティーの拡大を優先してきた。しかし、ザッカーバーグ最高経営責任者（CEO）は2024年4月の業績発表会で「知能の次のフロンティアは、世界を理解し、タスクを実行する能力だ」と明言。単なる対話能力を超え、実世界で機能するAIエージェントの開発に軸足を移す姿勢を鮮明にしていた。Manusの買収は、この戦略を具体化する決定的な一手と位置づけられる。

Manusは、自然言語による曖昧な指示を具体的な実行計画に分解し、ウェブブラウザー操作や外部アプリケーション連携（APIコール）を自律的にこなす技術を持つ。その中核は、LLMの推論能力と、目標達成のために試行錯誤を繰り返す強化学習（RL）を組み合わせた独自のアルゴリズムにあると見られる。特に、ゼネラルモーターズ（GM）向けに設計・製造工程の自動化で実績を上げており、仮想空間だけでなく物理世界での応用力も評価された模様だ。Metaは2024年の設備投資額を最大400億ドルと計画しており、その大半がAI向けとされる（Meta 2024年第1四半期決算）。この巨額投資が、Manusのような先端技術の獲得にも振り向けられている実態が浮かび上がる。

AIエージェントはなぜ自律的に動けるのか

AIエージェントが自律的にタスクを遂行できる背景には、複数の計算論的原理の組み合わせがある。第一に、中核となるLLM、例えばMetaの「Llama 3」が持つ世界知識と文脈理解能力だ。ユーザーの「来週の東京出張を予約して」といった高次の指示を解釈する起点となる。第二に、この指示を具体的なサブタスク群、例えば「①航空券の検索」「②ホテルの予約」「③スケジュールの登録」などに分解するプランニング能力。これには、AI研究分野で長年培われてきた階層的タスクネットワーク（HTN）などの手法が応用される。第三に、各サブタスクを実行するための「ツール使用」能力だ。AIは、航空会社の予約サイトや社内システムといった外部ツールをAPI経由で操作する方法を学習する。このプロセスは、ソフトウェアが他のソフトウェアの機能を呼び出す仕組みそのものである。

最も重要なのが、第四の「自己修正能力」だ。予約サイトの仕様変更でエラーが出た場合、AIはエラーメッセージを読み解き、別の操作手順を試す。この試行錯誤の過程で性能を高めるのが、AlphaGoにも用いられた強化学習の一種である「人間からのフィードバックを伴う強化学習（RLHF）」や、より新しい「DPO（Direct Preference Optimization）」といった技術だ。これらにより、エージェントは失敗から学び、タスク達成率を向上させる。Cognition AIが開発したソフトウェア開発エージェント「Devin」は、業界標準のベンチマーク「SWE-bench」で13.86%のタスクを完全に自動で解決したと報告しており（Cognition AI 2024年3月公表）、これが現時点での技術水準の一つの指標となる。

覇権を争う「Devin」と「Project Astra」

MetaによるManus買収は、激化するAIエージェント開発競争の一断面に過ぎない。市場では、複数の有力企業が覇権を争う構図が明確になっている。代表格が、新興企業Cognition AIが開発した「Devin」だ。ソフトウェア開発に特化し、単一の指示からウェブサイトやゲームを数分で構築する能力を実演し、業界に衝撃を与えた。同社はベンチャーキャピタルから2100万ドルの資金を調達（Founders Fund発表）、企業価値は20億ドルに達すると報じられている。その性能は、前述のベンチマーク「SWE-bench」において、先行するAIモデルの達成率1.96%を大幅に上回る13.86%を記録した点に裏付けられる。

一方、巨大IT企業も追随する。Googleは2024年5月の開発者会議「Google I/O」で、次世代AIアシスタント「Project Astra」を発表した。スマートフォンのカメラで捉えた映像をリアルタイムで理解し、「私の眼鏡はどこ？」といった質問に「机の上のリンゴの横です」と音声で応答する。これは、複数の情報（映像、音声、位置情報）を統合処理するマルチモーダル技術と、状況を記憶・推論するエージェント能力の融合であり、日常生活へのAI浸透を狙うGoogleの戦略を象徴する。Microsoftも、自社の「Copilot」に同様のエージェント機能を組み込む計画を明らかにしており、各社が「OS」や「検索」に次ぐ新たなプラットフォームとしてAIエージェントを位置付けていることが見て取れる。

競争の土台、NVIDIA製半導体の需給

AIエージェント開発競争の趨勢を決める隠れた主役が、AIの学習と推論に不可欠な半導体だ。特に米NVIDIA製の画像処理半導体（GPU）は、市場の約8割を占有する（Omdia 2023年調査）。Metaは2024年末までに、同社の最新鋭GPU「H100」を35万基相当まで増強する計画を公表している。1基あたりの価格が約3万ドルから4万ドルとされるH100を35万基揃えるだけで、単純計算で100億ドルを超える投資規模となる。これは、Manusの買収額が霞むほどの巨額な先行投資が、AI開発の前提条件であることを物語っている。

この熾烈なGPU獲得競争は、半導体製造のサプライチェーン全体に波及する。H100に用いられる最先端のパッケージング技術「CoWoS（Chip on Wafer on Substrate）」は、台湾のTSMCがほぼ独占的に供給している。TSMCのCoWoS生産能力は、2024年末に月産3万枚を超えると予測されるが、それでも巨大IT企業の需要には追い付いていない（TrendForce 2024年3月予測）。この生産能力の制約が、AI開発の物理的なボトルネックとなっている。結果として、NVIDIAのジェンスン・フアンCEOが顧客のAI投資計画を直接査定し、GPUの割り当てを判断する状況が生まれている。AIエージェントという最先端ソフトウェアの競争が、半導体という物理的な部材の需給に強く規定されるという構図だ。

日本企業が直面する選択

一連の動きは、日本の産業界に二つの側面から影響を及ぼす。一つは、AIの頭脳である半導体とその製造装置・材料における日本の役割だ。NVIDIAのGPUやTSMCの生産ラインは、東京エレクトロンの成膜・エッチング装置、ディスコのダイシングソー、アドバンテストの検査装置なしには成り立たない。EUVリソグラフィーに不可欠なフォトレジストはJSRや信越化学工業など日本勢が世界市場の約9割を握り、シリコンウエハーも信越化学とSUMCOで世界シェアの約6割を占める（SEMI統計等に基づく記者集計）。Metaのような巨大IT企業のAI投資が活発化するほど、これらの基盤技術を供給する日本企業の商機は拡大する。サプライチェーンにおける日本の重要性は、米国の対中半導体規制下でむしろ高まっている。

もう一つの側面は、AIの利用者としての課題だ。Manusのような高度なAIエージェントが実用化されれば、設計、製造、事務といったあらゆる業務の自動化が飛躍的に進む。これを導入できるか否かが、企業の生産性を大きく左右する時代が目前に迫る。しかし、MetaやGoogleが提供する汎用的なAIエージェントは、日本の特定の商習慣や複雑な業務プロセスに完全には適合しない可能性がある。この「隙間」に、日本企業独自の活路が見出せる。例えば、特定の産業領域に特化した「垂直統合型AI（バーティカルAI）」の開発だ。精密機械の保守点検、特殊な素材開発、あるいは介護現場の記録業務など、日本が強みを持つ領域の知見を組み込んだAIエージェントには、国際競争力が生まれ得る。汎用AIの基盤は海外勢に依存しつつ、その上でいかに付加価値の高い応用分野を切り拓くか。日本の産業界は、今まさにその戦略的な選択を迫られている。