TikTokを運営する中国のByteDanceは、新たな大規模言語モデル(LLM)「豆包(Doubao)2.0」シリーズを発表した。Pro版は数学や推論能力で世界トップレベルの性能を達成し、Lite版は極めて低いコストでの運用を可能にする。
数学・推論能力で世界トップクラスを達成
「豆包2.0 Pro」は、数学と論理的推論の能力で優れた性能を示した。国際数学オリンピック(IMO)や国際大学対抗プログラミングコンテスト(ICPC)の課題で高いスコアを記録し、パトナム数学コンペティションを基準としたテストでは、OpenAIの「GPT-4o」やGoogleの「Gemini 1.5 Pro」を上回る結果を残したと、同社は主張している。
また、ニッチな専門分野の知識を問うSuperGPQAなどのベンチマークでも優れた成績を収め、科学分野の知識レベルは主にな競合モデルと同等にあるという。
マルチモーダルとエージェント能力も強化
「豆包2.0」は、テキストだけでなく画像や動画も理解するマルチモーダル性能を全面的に強化した。視覚的な推論や空間認識、長文の文脈理解を要するテストで業界最高水準の成績を記録したという。
時系列データと動作認識能力も向上しており、リアルタイムの動画ストリーム分析を通じて、フィットネス指導や介護支援といった実用的な応用が期待される。エージェント能力の面でも、指示追従能力や外部ツール使用能力で高い評価を得ている。
競合の100分の1以下の低価格で提供
「豆包2.0」シリーズは、同社のAIチャットアプリ「豆包」のPC版およびウェブ版で「専門家モード」を選択することで利用できる。また、開発者向けには、ByteDanceのクラウドサービス「Volcengine(火山引擎)」を通じてAPIが提供される。
価格は、「豆包2.0 Pro」(3万2000トークンモデル)の場合、100万トークンあたり入力が3.2元(約70円)、出力が16元(約352円)と、極めて低価格に設定されている。これは、「GPT-4o」など競合モデルの価格と比較して100分の1以下となる場合もあり、大幅なコスト優位性を持つ。
日本への影響
ByteDanceの「豆包2.0」シリーズは、日本企業にとってAI活用における新たな機会とリスクを提示する。まず、Pro版がGPT-4oやGemini 1.5 Proを上回る数学・推論能力を示したことは、日本の研究開発機関や製造業における高度なシミュレーションや最適化プロセスへの応用可能性を示唆する。特に、国際数学オリンピックやICPCの課題で高スコアを記録した事実は、複雑な問題解決を要する分野での活用が期待できる。
次に、価格競争力は日本企業のAI導入を加速させる可能性がある。「豆包2.0 Pro」の100万トークンあたり入力3.2元(約70円)、出力16元(約352円)という価格は、競合の100分の1以下とされ、日本のITサービス企業やスタートアップが、これまでコスト面で導入をためらっていた大規模言語モデルの活用に踏み切る契機となり得る。これにより、AIを活用した新たなサービス開発や業務効率化が促進されるだろう。
一方で、中国企業がAI技術で先行し、低価格で提供する状況は、日本のAI関連産業に競争圧力をもたらす。ByteDanceのような巨大テック企業が、技術力と価格競争力を両方兼ね備えることで、日本国内のAI開発企業は、より差別化された技術やニッチな市場での優位性を確立する必要に迫られる。また、データ主権やセキュリティに関する懸念は依然として存在するため、日本企業がVolcengine経由でAPIを利用する際には、これらのリスクを慎重に評価する必要がある。