DeepSeek、AIに「指し示す」能力を付与新技術で視覚推論を高度化

中国のAIスタートアップDeepSeekは、AIが画像内の特定対象を「指し示す」能力を持つ、新たな視覚マルチモーダル技術に関する報告書を公開した。この技術は、言語指示の曖昧さを克服し、複雑な視覚タスクの精度を向上させるもので、AIの思考過程の可視化にもつながる。

高解像度化の限界と「参照ギャップ」

近年のマルチモーダルAI開発は、OpenAIのGPT-4やGoogleのGeminiに代表されるように、高解像度画像の入力による性能向上を競ってきた。これは「AIが細部まで見ることができれば、視覚的な推論能力も向上する」という前提に基づいていた。しかしDeepSeekは報告書の中で、このアプローチには見過ごされた弱点があると指摘した。

人間が指差しで対象を明確にするのとは対照的に、AIは「左の犬」「上にある線」といった言語表現に依存する。画像が複雑化するにつれ、この言語指示の曖昧さが原因で推論が破綻しやすくなる。同社はこの根本的な問題を「参照ギャップ（Reference Gap）」と名付け、AI開発における新たな課題として提起した。

「指し示す」能力で言語の限界を克服

DeepSeekが提唱する「参照ギャップ」とは、AIが推論の過程で同じ対象を安定して参照し続けることができない問題点を指す。これは単に画像を知覚する「知覚ギャップ（Perception Gap）」とは異なる、より本質的な課題である。具体的には、以下のようなタスクで問題が顕在化する。

多数からの特定: 市場にいる大勢の中から特定の店主を探すなど、言語指示が曖昧になる状況。
計数タスク: 複数の物体を数える際に、どれを数え終えたかを見失ってしまう問題。
空間・位相の理解: 迷路の経路探索など、言語での正確な記述が本質的に困難な位相幾何学的な関係性の把握。

思考を可視化する「視覚プリミティブ」

この「参照ギャップ」を埋めるため、DeepSeekは「視覚プリミティブ（Visual Primitives）」という概念を導入した。これは、コンピュータービジョンで用いられるバウンディングボックス（矩形）やポイント（点）を、AIの思考の最小単位として推論プロセスに直接組み込む技術である。

従来のモデルは最終出力として物体を囲むことはできたが、DeepSeekのモデルは推論の「過程」で対象を特定しながら思考を進める。これにより、AIがどの物体に注目し、どのように結論に至ったのか、その思考プロセスが可視化され、説明可能性（XAI）が大幅に向上する。このアプローチは、自動運転や医療画像診断など、高い精度と安全性が求められる分野への応用が期待される。

日本への影響と示唆

DeepSeekの「参照ギャップ」克服技術は、日本のAI産業に新たな競争軸をもたらす。従来のOpenAIやGoogleが牽引する高解像度化競争に対し、DeepSeekは「言語指示の曖昧さ」という根本課題に切り込んだ。これは、日本企業が強みを持つ精密な製造業や医療分野におけるAI活用において、新たな機会を創出する可能性を秘める。

具体的には、日本の自動車メーカーや医療機器メーカーが開発する自動運転システムや診断支援AIにおいて、DeepSeekの「視覚プリミティブ」技術は極めて重要となる。例えば、自動運転で「特定の歩行者」を安定して追跡したり、医療画像診断で「特定の病変」を計数する際、従来の言語指示では困難だった曖昧さを解消し、AIの判断根拠を明確に可視化できる。これにより、AIの信頼性と安全性が飛躍的に向上し、社会実装へのハードルが下がる。

一方で、日本のAIスタートアップや研究機関は、DeepSeekが提示した「参照ギャップ」という新たな概念に対し、独自の解決策を模索する必要がある。中国のAI企業が基礎研究から応用まで一貫して進める中、日本は特定の産業分野に特化したAI開発で差別化を図るべきだろう。特に、介護ロボットや災害対応ドローンなど、複雑な環境下での精密な物体認識と推論が求められる分野において、この技術は日本の技術優位性を確立する鍵となる。