DeepSeek、画像認識AI「識図モード」発表―複雑な視覚情報から推論

中国のAI企業DeepSeekが、画像認識機能を大幅に強化した新機能「識図モード」を公開しました。これにより、同社のAIモデルは単なる画像認識を超え、複雑な視覚情報から深い洞察や推論を行う「図文インタラクション時代」へと本格的に移行したと評価されています。文化財の特定、難解な論理パズルの解決、さらにはウェブページのコード変換といった多岐にわたる分野で、その高精度な能力が実証されています。

なぜ今、重要か

DeepSeekの「識図モード」発表は、大規模言語モデル（LLM）のマルチモーダル化が加速する中で、特に視覚情報処理における推論能力のブレークスルーを示すものです。従来の画像認識が物体検出や分類に留まっていたのに対し、本機能は画像内の要素間の関係性や文脈を理解し、複雑な問いに答えることを可能にします。これは、自動運転、医療診断、ロボティクスなど、現実世界の複雑な情報をAIが理解し、判断を下す必要がある分野において、AIの応用範囲を飛躍的に拡大する可能性を秘めています。中国のAI企業がこのような基盤技術で世界をリードする動きは、国際的なAI開発競争において、中国の技術力がさらに高まっていることを示唆しています。

「識図モード」の驚くべき能力

「識図モード」は、その汎用性と高精度で注目を集めています。例えば、博物館の不明な文化財の画像をアップロードすると、AIは詳細な質感や素材を分析し、18世紀清朝乾隆時代の「ヘンドゥースタン様式」の玉器であると正確に推測しました。また、空間認識を要する複雑な論理パズルでは、思考モードを深く活用することで、約4分間の処理を経て正解を導き出す能力を示しました。さらに、インターネット上の流行ミームや表情豊かな猫の画像から、人物の正確な識別や感情の読み取り、さらにはネットユーザーの笑いのツボまで理解できる「ネット感覚」の鋭さも確認されています。ビジネス応用では、技術レポートやウェブページのスクリーンショットからテキストを抽出し、インタラクティブなHTMLコードに変換する機能も備え、ウェブ開発の生産性向上に貢献すると期待されています。

「指示のギャップ」を克服する新技術

DeepSeekが発表した技術報告書によると、従来のマルチモーダル大規模モデルは、画像内の密集したシーンを分析する際に「指示のギャップ」という課題を抱えていました。これは、モデルが画像を見ても、「左の大きなもの」といった曖昧な自然言語で論理を構築しようとすると、指示が不正確になり注意が散漫になる問題です。DeepSeekはこの課題に対し、点やバウンディングボックス（対象物の位置を示す四角い枠）といった空間的な視覚要素を直接モデルの推論プロセスに組み込むことで解決を図りました。これにより、視覚要素が「思考の基本的に的な単位」となり、モデルは人間が頭の中で「サイバーな指」を使って目標物を正確に指し示すように、思考と同時にに指示を行うことが可能になりました。この革新的なフレームワークにより、複雑な空間配置における論理的な問題を完璧に解決できるようになったと説明されています。

技術解説

DeepSeekの「識図モード」は、マルチモーダルAIにおける視覚情報処理の新たなアプローチを示しています。従来のモデルが画像全体を一度に処理しようとするのに対し、DeepSeekは空間的な視覚要素（点、バウンディングボックス）を推論プロセスに直接組み込むことで、より精密な指示と理解を可能にしました。これは、AIが画像内の特定のオブジェクトや領域に「注意」を向け、その部分に特化した推論を行うメカニズムを強化したものです。具体的には、画像内のピクセル情報と、それに対応する空間座標を統合し、モデルが「サイバーな指」のように特定の箇所を指し示しながら思考を進めることを可能にします。これにより、例えば「この画像の左上にある赤い物体は何ですか？」といった、より複雑で具体的な指示に対しても、曖昧さを排除した高精度な回答を生成できるようになります。この技術は、特に高密度な情報を含む画像や、空間的な関係性が重要なタスク（例：設計図の解析、複雑な医療画像診断）において、AIの性能を大幅に向上させる可能性があります。

日本への影響

DeepSeekの「識図モード」は、画像認識機能を大幅に強化し、複雑な視覚情報からの深い洞察と推論を可能にします。この技術は、日本の自動運転や医療診断、ロボティクスなどにおけるAIの応用範囲を飛躍的に拡大する可能性を秘めています。例えば、博物館の不明な文化財の画像をアップロードすると、AIは詳細な質感や素材を分析し、18世紀清朝乾隆時代の「ヘンドゥースタン様式」の玉器であると正確に推測します。また、空間認識を要する複雑な論理パズルでは、思考モードを深く活用することで、約4分間の処理を経て正解を導き出す能力を示します。さらに、インターネット上の流行ミームや表情豊かな猫の画像から、人物の正確な識別や感情の読み取り、さらにはネットユーザーの笑いのツボまで理解できる「ネット感覚」の鋭さも確認されています。日本企業は、これらの技術を活用してビジネスモデルを強化し、国際的な競争力を高めることができます。具体的には、技術レポートやウェブページのスクリーンショットからテキストを抽出し、インタラクティブなHTMLコードに変換する機能を利用して、ウェブ開発の生産性向上に貢献することができます。また、ロボティクスや自動運転におけるAIの応用も期待され、日本の技術企業はこれらの分野で中国のAI企業と競争する必要があります。