OpenAI元CTO、新会社で「脱チャット」AI開発へ

米OpenAIの元最高技術責任者（CTO）で、GPT-4oなどの開発を主導したミラ・ムラティ氏が設立した新興企業「Thinking Machines Lab」が、AIとの対話形式の常識を覆す可能性を秘めた新たな研究プレビューを公開した。現在の主流であるチャット形式の「ターン制」対話から脱却し、人間とAIがより自然でリアルタイムに協業できる「常時在場（presence）」の実現を目指す。この動きは、AI業界のインタラクション・モデルにおける次世代の標準化競争の始まりを示唆している。

事実の整理

2024年、OpenAIの元CTOであるミラ・ムラティ氏は、新たなAI企業「Thinking Machines Lab」を設立した。同社は公式ブログで『インタラクションモデル：人間と機械の協調に向けたスケーラブルなアプローチ』と題した記事を公開し、新技術の構想を発表した。

中核となる主張は、現在の主になAIが採用する、ユーザーが入力しAIが応答を待つ「ターン制」の対話モデルには根本的な限界があるという点だ。これに代わるものとして、人間とAIが同じ状況を共有し、リアルタイムで継続的に協業できる「常時在場」という概念と、それを実現するための「インタラクションモデル」という新アーキテクチャを提唱している。

表層的原因と直接的仕組み

Thinking Machines Labが指摘する「ターン制」の限界は、その非効率性にある。同社のブログ記事によると、多くのAI企業はモデルが自律的にタスクを完了する能力を重視するあまり、人間が対話の途中で継続的に介入し、微調整整を加える余地がほとんどないと分析している。同社はこれを「緊急の意見対立を、直接対話せずメールの往復で解決しようとするようなものだ」と比喩し、高品質な成果物が求められる実際の共同作業には不向きだと指摘する。

この課題を克服するため、同社はリアルタイム対話をネイティブにサポートするシステムをゼロから開発した。この「インタラクションモデル」は、時間を認識するフロントエンドと、深層推論を担うバックエンドのモデルが協調して動作する。200ミリ秒単位の「マイクロターン」で処理を行い、ユーザーの沈黙や話の割り込みさえも重要な情報として活用する。これにより、AIは話を聞きながら考え、同時ににウェブ検索やツールの呼び出しといった並行作業が可能になるとしている。

深層的原因と構造的背景

この動きの背景には、AI技術の急速な進化と、それに伴う人間と機械のインタラクションに対する期待の変化がある。2022年のChatGPT登場以降、チャット形式のUI（ユーザーインターフェース）はAIとの対話のデファクトスタンダードとなった。しかし、その後のマルチモーダル化の進展とともに、より複雑でリアルタイム性が求められるタスクにおいて、ターン制の限界が明らかになってきた。

技術的には、人間の会話における応答遅延は約200ミリ秒であるのに対し、現在の音声AIのレイテンシ（入力から出力までの遅延）は、最先端のGPT-4oでも平均320ミリ秒、多くは500ミリ秒を超える。このギャップが、自然な対話感を損なう大きな要因となっている。Thinking Machines Labの挑戦は、このレイテンシの壁をアーキテクチャレベルで解決しようとする試みだ。

市場の観点からは、Humane AI PinやRabbit R1といった「ポスト・スマートフォン」を目指したデバイスが期待されたほどの成功を収められなかったことも関連している。これらの失敗は、単なるハードウェアの問題ではなく、AIとのインタラクション・モデルそのものに根本的な課題があったことを示唆しており、市場が新たなUIパラダイムを模索していることを浮き彫りにした。

構造分析と政策・産業のメタパターン

ムラティ氏の新会社の動きは、AI業界における「インタラクション・レイヤー」の標準化競争の始まりと分析できる。これは、PCにおけるGUI（グラフィカル・ユーザー・インターフェース）、スマートフォンにおけるタッチ操作のように、各技術世代で支配的なインタラクション・モデルが確立されてきた歴史的パターンに連なるものだ。

現在のAIアプリケーションの多くは、OpenAIのAPIが提供するチャット形式を前提に構築されており、一種のエコシステムが形成されている。Thinking Machines Labが提唱する「インタラクションモデル」は、この既存の構造に対する挑戦であり、次世代のAIアプリケーションの基盤となる新たな対話プロトコルとアーキテクチャの主導権を握ろうとする戦略的な動きと見ることができる。

興味深いのは、ムラティ氏自身がOpenAI在籍中に、より自然な会話を目指した「GPT-4o」の音声モード開発を主導した本人である点だ。これは、既存の大規模言語モデル（LLM）アーキテクチャの延長線上では真のリアルタイム協業は達成困難であるという、開発当事者ならではの深い洞察に基づいた動きであると推察される。大手AI企業が既存モデルの改良を進める一方で、スタートアップがアーキテクチャの根本的な再設計からアプローチするのは、技術革新期によく見られる産業ダイナミクスである。

日本の関連性

OpenAIの元CTOであるミラ・ムラティ氏が設立したThinking Machines Labの新たな研究プレビューは、AIとの対話形式の常識を覆す可能性を秘めている。現在の主流であるチャット形式の「ターン制」対話から脱却し、人間とAIがより自然でリアルタイムに協業できる「常時在場」の実現を目指す。この動きは、AI業界のインタラクション・モデルにおける次世代の標準化競争の始まりを示している。日本企業としては、Thinking Machines Labの「インタラクションモデル」がもたらす200ミリ秒単位のリアルタイム応答の可能性に注目する必要がある。特に、GPT-4oなどの高性能AIモデルが平均320ミリ秒、多くは500ミリ秒を超えるレイテンシを抱える中で、Thinking Machines Labのアプローチは日本のAI開発企業にとって大きな機会となる。さらに、Humane AI PinやRabbit R1などの「ポスト・スマートフォン」デバイスの登場も、日本の企業が新たなインタラクション・モデルに適応する必要性を高めている。日本企業は、Thinking Machines Labの新技術を取り入れることで、リアルタイム協業の新パラダイムを生み出すことができ、国際競争力の向上につながる可能性がある。

情報信頼性評価

本稿で分析した情報の主な情報源は、Thinking Machines Labが公開した公式ブログ記事である。これは一次情報として価値が高い一方で、自社のビジョンを提示するポジショントークが含まれている点に留意が必要だ。

現時点では、この「インタラクションモデル」は研究プレビューの段階にあり、技術的な実現可能性やスケーラビリティ、具体的な性能指標（ベンチマーク）は公開されていない。また、同社の資金調達状況や、バックエンドで利用する推論モデルの仕様、他社LLMとの互換性といった商用化に向けた具体的な計画も不明瞭である。今後の技術デモの公開や、学術論文での詳細な評価、初期の提携パートナー企業の発表などが、この構想の実現性を判断する上で重要なポイントとなる。