米OpenAIが2024年2月に発表した「Sora」が切り開いたAIによる高品質な映像生成市場で、中国の巨大IT企業が猛烈な追い上げを見せている。動画共有アプリ「TikTok」を運営する字節跳動(ByteDance)がSoraに比肩する性能を持つとみられるモデルを発表。競合の快手科技(Kuaishou)も先行してモデルを一般公開し、米中間の技術開発競争は新たな局面に移行した。膨大な計算資源と独自のデータを背景にした開発競争は、映像コンテンツ産業の制作工程を根底から覆す可能性を秘める。その技術的な到達点と、背後にある半導体を巡る地政学的な力学を解き明かす。
ByteDance「Seedance」の技術的射程
字節跳動(ByteDance)が内部で開発を進めるAI映像生成モデル群「Seedance」が、技術的にOpenAIのSoraに肉薄、あるいは一部指標で凌駕する可能性が浮上している。同社が公開した技術報告書によれば、最新版はGoogleが開発したTransformerを拡散モデル(Diffusion Model)に応用した「DiT」アーキテクチャを基盤に、最大で650億パラメータ規模のモデルを構築。これにより、プロンプト(指示文)に対する高い忠実性と、映像内での時間的な一貫性を両立させたとされる。特に、複数のカメラアングルを自動で切り替える「自動運鏡」や、入力された音声のリズムや雰囲気に合わせた映像を生成する「音画同期」といった機能は、既存モデルに対する明確な差別化要因となりうる。
この開発を支えるのが、同社が運営する短編映像プラットフォーム「抖音(Douyin)」および「TikTok」が保有する、1日あたり数億本とも言われる膨大な映像データだ。TrendForceが2023年12月に公表した調査では、中国大陸の短編映像市場において抖音は54%以上の圧倒的な占有率を維持しており、このデータ資産がAIモデルの学習における質の高い教師データとして機能していると見られる。Soraが合成データや既存の映像素材を主に使用していると推測されるのに対し、ByteDanceは現実世界の多様な文脈を持つ映像を直接学習に利用できる点で、長期的な優位性を築く可能性がある。同社のAI研究部門である「字節跳動AI実験室」は、このデータ利活用を前提に、映像生成の物理的整合性を高める研究を加速させている。
先行する快手「Kling」の戦略とは何か?
ByteDanceが技術的な高みを目指す一方、競合の快手科技(Kuaishou)は市場への早期投入で主導権を握る戦略を採る。同社が2024年6月に一般公開したAI映像生成モデル「可霊(Kling)」は、最大2分間、解像度1080pの映像を生成可能であり、これはOpenAIのSoraが当初示した60秒という仕様を上回る。快手は、招待制ながらも一般利用者にモデルを開放することで、多様な利用事例とフィードバックを大規模に収集し、モデルの改良サイクルを加速させる狙いだ。この手法は、AI開発における「データ・ネットワーク効果」を最大化する定石であり、後発ながら実用面での完成度を急速に高める可能性がある。
快手のAI開発への積極姿勢は財務諸表にも表れている。同社が2024年5月に発表した2024年第1四半期決算によれば、研究開発費は28億人民元(約600億円)に達し、売上高に対する比率は9.9%と高水準を維持する。同社CEOの程一笑氏は決算説明会で「自社開発の大規模言語モデルを中核に、AIと事業の融合を推進する」と明言しており、Klingはその中核的応用と位置づけられる。すでに中国国内では、広告制作用途などで法人向け提供が始まっており、映像制作会社や広告代理店との連携を通じて、早期の収益化を目指している。ByteDanceとの技術競争と並行し、実用的な応用例を積み上げることで市場での地歩を固める構えだ。
覇権を左右する「計算資源」という制約
AI映像生成モデルの開発競争の勝敗を分ける最大の変数は、学習と推論に不可欠な「計算資源」、すなわち高性能な半導体(GPU)の確保にある。大規模モデルの学習には、米NVIDIA製の「H100」や「A100」といったGPUが数千から数万基単位で必要となるが、米政府による対中半導体輸出規制が中国企業にとって大きな足かせとなっている。2023年10月に強化された規制では、中国向けに性能を調整した「H800」や「A800」も輸出禁止対象となり、最先端GPUの正規ルートでの調達は事実上不可能になった。
NVIDIAの2025年度第1四半期(2024年2-4月期)決算では、データセンター部門の売上高が前年同期比427%増の226億ドルと急拡大したが、かつて20%前後を占めた中国向け売上は「大幅に減少した」と明記されている。この状況下で、ByteDanceや快手といった中国企業は複数の代替策を講じていると見られる。一つは、規制前に備蓄したGPUの効率的運用。二つ目は、華為技術(Huawei)が開発した「昇騰(Ascend)910B」など、中国製GPUへの切り替え。三つ目は、規制対象外の国にあるデータセンターを介したクラウドサービスの利用だ。しかし、いずれも性能や供給量、通信遅延の面で課題を抱える。特に国産GPUは、NVIDIA製に比べて演算性能で2〜3世代の遅れがあるとされ、ソフトウェアエコシステムの未成熟も普及を妨げている。計算資源の制約が、今後のモデル高度化の速度を規定する最大の不確定要素である。
なぜ物理法則の再現が重要なのか?
現在のAI映像生成技術における中核的な課題は、生成される映像内での物理法則の正確な再現にある。初期のモデルでは、物が不自然に浮遊したり、液体が固体のように振る舞ったり、光の反射や影の動きに一貫性がなかったりする例が散見された。これは、モデルが膨大な映像データを統計的に学習し「それらしく見える」パターンを模倣しているだけで、現実世界を支配する物理法則を真に理解していないことに起因する。この問題を克服しない限り、生成AIの用途は短い娯楽映像や抽象的な表現に限定され、映画制作や科学的シミュレーションといった高度な応用には至らない。
OpenAIのSoraが衝撃を与えたのは、この物理的整合性を従来モデルより高い水準で達成した点にある。例えば、車が走行する場面ではタイヤの回転と車体の移動速度が同期し、波が岸壁にぶつかれば自然なしぶきが上がる。これは、モデルが3次元空間の構造や物体の相互作用を、データから暗黙的に学習し始めていることを示唆する。ByteDanceのSeedanceや快手のKlingも、この物理シミュレーション能力の向上を最優先課題としており、技術報告書では剛体の運動や流体力学の再現性を高めるためのアーキテクチャ改良に言及している。米調査会社ガートナーは、2027年までに大規模な映像制作の80%以上が何らかの形で生成AIを利用すると予測するが、その実現はAIが物理世界をどれだけ忠実に模倣できるかにかかっている。
日本企業が直面する選択
米中のAI映像生成を巡る覇権争いは、日本のコンテンツ産業やIT企業にとっても対岸の火事ではない。むしろ、新たな事業機会と深刻な競争環境への適応という二重の課題を突きつけている。映像制作の現場では、背景制作やVFX(視覚効果)といった工程でAIの活用が急速に進むとみられ、制作コストの劇的な低減と期間短縮が期待される。これにより、従来は予算的に不可能だった表現が可能になる一方、単純作業を担ってきた専門職の需要は減少する可能性がある。アニメ制作会社やゲーム開発会社は、これらのAIツールを創造性を高めるための道具としていかに使いこなすか、早期の技術検証と制作工程の見直しが急務となる。
他方で、AIモデルの開発競争に日本企業が直接参入するハードルは極めて高い。モデル学習に必要な計算資源の確保、大規模なデータセットの構築、そして最先端の研究者を惹きつける魅力のいずれにおいても、米中の巨大IT企業に大きく水をあけられているのが実情だ。経済産業省が2024年4月に発表したAI戦略では、国内の計算資源基盤の整備に700億円以上の予算を投じる方針が示されたが、NVIDIAのGPUを数万基調達するだけで数千億円を要する現実の前では限定的な効果しか見込めない。日本の活路は、むしろAIの応用分野にあると見られる。特定の産業(例:医療、製造、教育)に特化した高品質なデータを活用し、小規模ながらも付加価値の高い特化型AIモデルを開発することや、生成AIが作り出すコンテンツの著作権や倫理的問題に対応する制度設計で世界を主導すること。あるいは、AIの学習を支える半導体製造装置や特殊材料といった、日本の「お家芸」とも言える基盤技術の優位性を、地政学的な交渉力として活用していく視点が不可欠になるだろう。
💬 この記事へのコメント 0
まだコメントはありません
最初のコメントを投稿してみましょう!⚠️ エラーが発生しました