中国が国家主導で人工知能(AI)学習用の高品質データセット構築を本格化させた。2月下旬、新設の国家データ局が国有・民間企業72社とデータ構築に関する協定を締結。これは米国の高性能半導体輸出規制で計算資源の確保が難しくなる中、AI開発の競争力の源泉をハードウェアから「データ」へと移す国家戦略の転換を鮮明にする動きだ。この取り組みは、中国国内のAI産業基盤を底上げする一方、データという新たな国家資源を巡る米中間の断絶をさらに深める可能性がある。日本の関連企業には、中国のデータ主権確立に向けた新たな事業機会と地政学リスクが同時に突きつけられる。
「データの壁」構築へ、国家の号令
2024年2月27日、北京で開かれた会合が中国のAI戦略の新たな局面を告げた。国家データ局と国務院国有資産監督管理委員会(国資委)が共催し、国内の主要企業72社が「業界高品質データセット構築」の任務を担うことが決まった。国家データ局の劉烈宏局長は席上、AI開発を促進するためにはデータセットの質と量の向上が不可欠だと強調。技術的な支援を強化し、データ作成の自動化を進める方針を示した。
この動きの背景には、2023年3月に国務院の機構改革の一環で新設された国家データ局の存在がある。同局は、国内に分散するデータ資源の調整、共有、開発、利用を統括する司令塔だ。中国情報通信研究院が2023年4月に公表した報告書によれば、中国のデジタル経済の規模は2022年時点で50.2兆元(約1000兆円)に達し、国内総生産(GDP)の41.5%を占める。この巨大な経済活動が生み出すデータを国家管理下に置き、戦略的に活用しようという意図が透ける。今回の対象分野は医療、製造、金融、交通、気象など27分野に及び、社会のあらゆる基盤情報が「高品質データ」として整備されることになる。これは事実上、AI開発における「データの壁」を国内に築き、外部からの影響を遮断しつつ国内産業の育成を図る両面作戦と見て取れる。
なぜ今、データの内製化を急ぐのか?
中国がデータセットの内製化を急ぐ最大の直接要因は、米国による高性能半導体の輸出規制だ。米商務省産業安全保障局(BIS)は2023年10月、NVIDIAが中国市場向けに性能を調整したAI用半導体「A800」や「H800」の輸出を新たに禁止した。これにより、中国企業が最先端AIモデルの開発に必要な計算資源を確保する道は事実上閉ざされた。NVIDIAの決算報告によれば、規制強化前には同社のデータセンター向け売上高の20〜25%を中国が占めており、今回の措置が中国のAI開発能力に与える打撃は大きい。
AIモデルの性能は、利用可能な「計算量」、学習に使う「データセットの規模と質」、そして「モデルのパラメータ数」という3つの要素の積で決まるとされる。このうち計算資源の調達が困難になった中国にとって、自国の裁量で拡大できるのはデータセットである。つまり、ハードウェアの劣勢をソフトウェア、すなわちデータの量と質で補うという戦略転換だ。スタンフォード大学が発行する「AI Index Report 2024」によると、2023年に発表された主要なAIモデルの数は米国が61件だったのに対し、中国は15件にとどまった。この差を埋めるため、計算効率の高いモデル開発と、その基盤となる高品質な独自データセットの構築が国家的な急務となったのである。
国産半導体では埋まらぬ計算力の溝
米国の規制に対し、中国は国産AI半導体の開発で対抗を試みている。その筆頭がファーウェイ(華為技術)の「Ascend(昇騰)910B」だ。複数の分析によれば、その性能はNVIDIAが3年前に発売した「A100」に匹敵するとされる。しかし、世界のAI開発の現場で標準となっているNVIDIAの最新製品「H100」や次世代機「B200」との性能差は大きい。特に、複数の半導体を高速に連携させて大規模モデルを学習させる際の相互接続技術や、開発者が使い慣れたソフトウェア基盤「CUDA」の存在がNVIDIAの圧倒的な優位性を支えている。ファーウェイも独自のソフトウェア基盤「CANN」を整備するが、15年以上にわたり蓄積されたCUDAのエコシステムに一朝一夕で追いつくのは難しい。
この計算力の溝は、半導体の製造技術の差に起因する。Ascend 910Bは、中国の半導体受託製造最大手、中芯国際集成電路製造(SMIC)が7ナノメートル(nm)の製造技術で生産していると見られる。これは、台湾積体電路製造(TSMC)がAppleのiPhone向けに同技術を量産化した2018年から約5年遅れている水準だ。一方、TSMCはすでに3nm技術を量産中で、2025年には2nm技術の導入を計画する。半導体の微細化は、同じ面積のシリコンウエハーにより多くのトランジスタを搭載し、性能向上と消費電力低減を両立させるための生命線であり、この世代差がAIの計算能力の差に直結する。中国が国家主導でデータ整備に踏み切ったのは、この埋めがたいハードウェアの差を認識した上での現実的な選択と言える。
「質の低いデータ」というアキレス腱
中国がAI開発で直面するもう一つの課題は、データの「質」の問題だ。これまで中国のAI企業は、インターネットから大量に収集したデータを用いてモデルを学習させてきた。しかし、こうしたデータには著作権情報が不明確なものや、誤情報、偏見を含む内容が多数含まれる。特に生成AIでは、学習データの質が出力の正確性や信頼性を直接左右するため、質の低いデータはAIの「アキレス腱」となりかねない。例えば、米OpenAIの「GPT-4」が学習したデータには、厳選された書籍や学術論文、質の高いウェブサイトが大きな割合を占めるとされる。これに対し、中国語のデジタル化された高品質データは英語圏に比べて量が限られており、AIの能力向上を妨げる一因と指摘されてきた。
国家データ局が主導する今回のプロジェクトは、この課題への正面からの回答である。医療分野では電子カルテやゲノム情報、製造業では工場のセンサーデータや設計図、金融分野では取引記録といった、これまで各組織内に閉じていた「生きたデータ」を、国家の管理下で標準化し、AI学習用に加工・提供することを目指す。これは、単なるデータ収集ではなく、国の産業競争力に直結する戦略的資産を創出する試みだ。市場調査会社TrendForceの2023年12月の予測によれば、世界の生成AI関連の市場規模は2027年に1511億ドルに達する見込みで、その中核をなす高品質データの価値は今後ますます高まる。中国の取り組みは、この巨大市場の主導権を握るための布石である。
日本企業が直面する選択
中国のデータ国家戦略は、日本の産業界に複雑な問いを投げかける。まず、中国で事業を展開する日本企業は、自社が持つデータの取り扱いについて新たな判断を迫られる。2021年に施行されたデータ安全法や個人情報保護法に加え、今回の国家主導のデータセット構築は、中国国内のデータを「準公共財」と見なす流れを加速させる可能性がある。製造業の生産データや消費者の購買データなど、企業の競争力の源泉である情報が、中国政府の管理下に置かれるリスクを再評価する必要があるだろう。
一方で、この動きは新たな事業機会も生み出す。高品質データセットの構築には、データの誤りを修正するクレンジングや、AIが学習しやすいように情報を付与するアノテーションといった地道な作業が不可欠だ。こうしたデータ処理技術や、関連するソフトウェア、人材育成サービスなどを持つ日本企業にとっては、中国市場への新たな参入機会となりうる。特に、特定の産業分野に特化した高精度なデータ加工技術は、中国国内でも需要が高いと見られる。
米中の技術覇権争いは、半導体というハードウェアから、データという無形の資産へと主戦場を移しつつある。日本企業は、この大きな潮流の中で、自社の技術やデータをどのように位置づけ、保護し、活用していくのか。中国のデータ主権確立の動きを単なるリスクとして遠ざけるだけでなく、その構造を深く理解し、したたかな戦略を構築することが求められている。その選択が、今後の企業の国際競争力を左右することになるだろう。