Zhipu AI（智譜）AI、視覚AIエージェント「GLM-5V-Turbo」発表

中国の主にAI企業であるZhipu AI（智譜）AI（Zhipu AI）は、最新のマルチモーダル大規模言語モデル「GLM-5V-Turbo」を発表した。このモデルは、従来のテキスト処理能力に加え、コンピューター画面を直接認識し操作する「AIエージェント」としての機能を大幅に強化している。今回の発表は、AIの主流がテキストベースのチャットボットから、実世界のタスクを自律的に実行するエージェントへと移行する世界的な潮流の中で、中国国内の技術開発競争が新たな局面に入ったことを示すものだ。

なぜ今、重要か

今回の発表は、OpenAIが人間のように対話し、視覚情報を理解する「GPT-4o」を発表した直後というタイミングであり、AIの次なる主戦場が「AIエージェント」であることを明確に印象付けた。AIエージェントは、ソフトウェアの操作、ウェブサイトでの予約、データ入力といった定型業務を自動化するだけでなく、ユーザーの意図を汲み取って複雑なタスクを代行する能力を持つ。これにより、AIは単なる情報生成ツールから、生産性を直接向上させる「デジタル労働力」へと進化する。Zhipu AI（智譜）AIはAlibabaやTencentなどから資金調達し、企業価値は30億ドル（約4,700億円）を超えると推定されており、その動向は市場に大きな影響を与える。

激化する中国のAIエージェント開発競争

これまで大規模言語モデル（LLM）は、主にテキスト生成やプログラミングコードの記述に強みを発揮してきた。しかし、AIの応用範囲を社会全体に広げるには、視覚情報を理解し、グラフィカルユーザーインターフェース（GUI）を操作する能力が不可欠だ。中国ではこの分野の開発競争が激化している。

先行するDeepSeekは、独自の視覚認識モデルのテストを開始しており、ユーザーのPC操作を学習する機能を実装。また、Moonshot AI（月之暗面）（Kimi）やバイドゥ（Baidu）も、それぞれのLLMにマルチモーダル機能を追加し、エージェント化に向けた研究開発を加速させている。36Krの報道によると、これらの企業は、オフィス業務の自動化やスマートカーの車載アシスタントなど、具体的な応用先を見拠えて開発を進めている。Zhipu AI（智譜）AIの参入は、この競争をさらに加速させるものとみられる。

技術解説

「GLM-5V-Turbo」の最大の特徴は、視覚能力を単なる補助機能ではなく、AIの推論、計画、ツール利用、タスク実行の中核に拠えた「ネイティブ・マルチモーダル」アーキテクチャにある。これは、AIエージェントがユーザーのコンピューターを操作する際に、画面上のアイコンやテキストだけでなく、数ピクセル単位の小さなボタンやUI要素まで正確に認識・操作するための設計だ。

計算リソースとモデル効率: Zhipu AI（智譜）AIは、独自の視覚エンコーダー「CogViT」を開発。これにより、高解像度のスクリーンショット（例: 1280x720ピクセル以上）を効率的に処理し、見落としがちな細部まで認識できる。さらに、マルチモーダル情報処理に伴う膨大な計算コストを抑制するため、「マルチモーダル・マルチトークン予測（MMTP）」技術を導入。これは、次のアクションを予測する際に、テキストと画像の両方のトークンを同時にに生成することで、推論速度を落とさずに精度を維持する仕組みだ。これにより、推論コストを従来モデル比で最大40%削減したと主張している。

訓練データと強化学習: AIエージェントの汎用性を高めるため、Zhipu AI（智譜）AIは30種類以上のタスクを対象とした大規模なマルチモーダル強化学習システムを構築した。ウェブサイトでの航空券予約、表計算ソフトでのデータ整理、デザインツールでの画像編集など、多様なPC操作のログデータを数百万ステップ規模で学習させている。これにより、単一タスクの学習では不安定になりがちなAIの挙動を安定させ、未知のタスクにも対応できる柔軟な思考パターンを獲得させることを目指している。

日本の関連性

Zhipu AI（智譜）AIの「GLM-5V-Turbo」発表は、日本のAI技術開発と産業への応用に大きな影響を与える。特に、視覚AIエージェントの開発競争が激化する中で、日本企業は中国の動きに注目し、自社のAI戦略を再考する必要がある。Zhipu AIの企業価値は30億ドルを超えると推定されており、その技術力と市場影響力は無視できない。

GLM-5V-Turboの特徴である「ネイティブ・マルチモーダル」アーキテクチャは、日本の企業が注目すべき点である。この技術は、AIエージェントがユーザーのコンピューターを操作する際に、画面上のアイコンやテキストだけでなく、数ピクセル単位の小さなボタンやUI要素まで正確に認識・操作するための設計だ。さらに、Zhipu AIの独自の視覚エンコーダー「CogViT」や「マルチモーダル・マルチトークン予測（MMTP）」技術は、計算リソースとモデル効率を大幅に改善する。

日本企業は、Zhipu AIの技術開発と市場動向を注視し、自社のAI戦略を強化する必要がある。具体的には、以下のリスクと機会を考慮する必要がある。