中国の北京智源人工知能研究院 (BAAI) が開発したマルチモーダル大規模AIモデル「悟界・Emu」に関する論文が、イギリスの科学誌『ネイチャー』に掲載された。Emuは「次のトークンを予測する」という単一のロジックを用い、テキスト、画像、動画といった異なる種類のデータを統一的に学習する能力を持つ。
単一モデルで多様なタスクを実現
このモデルは、テキストからの画像生成や動画生成、未来予測、視覚的な言語理解、画像とテキストの交互生成など、多様なタスクを単一のアーキテクチャで実行できる点が特徴だ。特定のタスクにおいては、既存の専門モデルと同等レベルの性能を達成したと報告されている。
シンプルな構造で開発コストを低減
Emuのシンプルなアーキテクチャは、大規模モデル開発の参入障壁とコストを大幅に引き下げる可能性がある。BAAIは、この成果が産業界での応用を加速させるものと期待している。このアプローチは、AI開発における効率性とスケーラビリティを両立させる新たな方向性を示すものとして注目を集めている。
日本企業への示唆
中国BAAIが開発した「悟界・Emu」のネイチャー掲載は、日本のAI戦略に具体的な影響を及ぼす。第一に、Emuが「次のトークンを予測する」単一ロジックで多様なタスクをこなす点は、日本企業がマルチモーダルAI開発で特定の専門モデルに固執するリスクを浮き彫りにする。例えば、日本の製造業が画像認識AIと自然言語処理AIを別々に開発している場合、Emuのような統合モデルの登場は、開発リソースの分散や互換性の問題を引き起こす可能性がある。
第二に、Emuのシンプルなアーキテクチャが開発コストを大幅に引き下げる可能性は、日本のAIスタートアップにとって脅威と機会の両面を持つ。中国企業が低コストで高性能なAIモデルを市場投入すれば、日本のAI関連製品やサービスの価格競争力が低下する恐れがある。一方で、Emuの技術的知見を応用し、日本企業も同様のシンプルかつ効率的なAI開発手法を取り入れることで、国際競争力を高める余地が生まれる。特に、中小企業が多い日本のソフトウェア開発分野では、BAAIが示すような「参入障壁の低減」は、新たなAIサービスの創出を促す契機となり得る。
第三に、Emuが特定のタスクで既存の専門モデルと同等レベルの性能を達成したという報告は、日本が強みを持つ特定分野のAI技術の優位性を相対化する可能性がある。例えば、医療画像診断AIや自動運転AIなど、日本が先行する分野においても、汎用モデルが同等の性能を発揮することで、日本の専門技術の市場価値が再評価されることになる。これは、日本企業がAI開発において、より汎用性と応用範囲の広い技術への投資を検討する必要性を示唆している。