中国の主にAI企業であるZhipu AI(智譜)AI(Zhipu AI)は、最新のマルチモーダル大規模言語モデル「GLM-5V-Turbo」を発表した。このモデルは、従来のテキスト処理能力に加え、コンピューター画面を直接認識し操作する「AIエージェント」としての機能を大幅に強化している。今回の発表は、AIの主流がテキストベースのチャットボットから、実世界のタスクを自律的に実行するエージェントへと移行する世界的な潮流の中で、中国国内の技術開発競争が新たな局面に入ったことを示すものだ。
なぜ今、重要か
今回の発表は、OpenAIが人間のように対話し、視覚情報を理解する「GPT-4o」を発表した直後というタイミングであり、AIの次なる主戦場が「AIエージェント」であることを明確に印象付けた。AIエージェントは、ソフトウェアの操作、ウェブサイトでの予約、データ入力といった定型業務を自動化するだけでなく、ユーザーの意図を汲み取って複雑なタスクを代行する能力を持つ。これにより、AIは単なる情報生成ツールから、生産性を直接向上させる「デジタル労働力」へと進化する。Zhipu AI(智譜)AIはAlibabaやTencentなどから資金調達し、企業価値は30億ドル(約4,700億円)を超えると推定されており、その動向は市場に大きな影響を与える。
激化する中国のAIエージェント開発競争
これまで大規模言語モデル(LLM)は、主にテキスト生成やプログラミングコードの記述に強みを発揮してきた。しかし、AIの応用範囲を社会全体に広げるには、視覚情報を理解し、グラフィカルユーザーインターフェース(GUI)を操作する能力が不可欠だ。中国ではこの分野の開発競争が激化している。
先行するDeepSeekは、独自の視覚認識モデルのテストを開始しており、ユーザーのPC操作を学習する機能を実装。また、Moonshot AI(月之暗面)(Kimi)やバイドゥ(Baidu)も、それぞれのLLMにマルチモーダル機能を追加し、エージェント化に向けた研究開発を加速させている。36Krの報道によると、これらの企業は、オフィス業務の自動化やスマートカーの車載アシスタントなど、具体的な応用先を見拠えて開発を進めている。Zhipu AI(智譜)AIの参入は、この競争をさらに加速させるものとみられる。
技術解説
「GLM-5V-Turbo」の最大の特徴は、視覚能力を単なる補助機能ではなく、AIの推論、計画、ツール利用、タスク実行の中核に拠えた「ネイティブ・マルチモーダル」アーキテクチャにある。これは、AIエージェントがユーザーのコンピューターを操作する際に、画面上のアイコンやテキストだけでなく、数ピクセル単位の小さなボタンやUI要素まで正確に認識・操作するための設計だ。
- 計算リソースとモデル効率: Zhipu AI(智譜)AIは、独自の視覚エンコーダー「CogViT」を開発。これにより、高解像度のスクリーンショット(例: 1280x720ピクセル以上)を効率的に処理し、見落としがちな細部まで認識できる。さらに、マルチモーダル情報処理に伴う膨大な計算コストを抑制するため、「マルチモーダル・マルチトークン予測(MMTP)」技術を導入。これは、次のアクションを予測する際に、テキストと画像の両方のトークンを同時にに生成することで、推論速度を落とさずに精度を維持する仕組みだ。これにより、推論コストを従来モデル比で最大40%削減したと主張している。
- 訓練データと強化学習: AIエージェントの汎用性を高めるため、Zhipu AI(智譜)AIは30種類以上のタスクを対象とした大規模なマルチモーダル強化学習システムを構築した。ウェブサイトでの航空券予約、表計算ソフトでのデータ整理、デザインツールでの画像編集など、多様なPC操作のログデータを数百万ステップ規模で学習させている。これにより、単一タスクの学習では不安定になりがちなAIの挙動を安定させ、未知のタスクにも対応できる柔軟な思考パターンを獲得させることを目指している。
日本の関連性
Zhipu AI(智譜)AIの「GLM-5V-Turbo」発表は、日本のAI技術開発と産業への応用に大きな影響を与える。特に、視覚AIエージェントの開発競争が激化する中で、日本企業は中国の動きに注目し、自社のAI戦略を再考する必要がある。Zhipu AIの企業価値は30億ドルを超えると推定されており、その技術力と市場影響力は無視できない。
GLM-5V-Turboの特徴である「ネイティブ・マルチモーダル」アーキテクチャは、日本の企業が注目すべき点である。この技術は、AIエージェントがユーザーのコンピューターを操作する際に、画面上のアイコンやテキストだけでなく、数ピクセル単位の小さなボタンやUI要素まで正確に認識・操作するための設計だ。さらに、Zhipu AIの独自の視覚エンコーダー「CogViT」や「マルチモーダル・マルチトークン予測(MMTP)」技術は、計算リソースとモデル効率を大幅に改善する。
日本企業は、Zhipu AIの技術開発と市場動向を注視し、自社のAI戦略を強化する必要がある。具体的には、以下のリスクと機会を考慮する必要がある。
- 日本のAI技術開発が中国に比べて遅れ、競争力が低下するリスク
- 視覚AIエージェントの開発競争が激化し、技術の進化が加速する機会
- 日本企業が中国のAI技術と市場動向を理解し、自社のAI戦略を再考する機会
💬 この記事へのコメント 0
まだコメントはありません
最初のコメントを投稿してみましょう!⚠️ エラーが発生しました