Meta、次期LLM「Llama 4」でスコア操作かルカン氏が内部問題を指摘

Meta（メタ）が開発中とされる次期大規模言語モデル（LLM）「Llama 4」のベンチマークスコアを操作したとの疑惑が浮上した。同社の首席AI科学者ヤン・ルカン氏が、マーク・ザッカーバーグCEOからの圧力でチームが結果を「調整」したと認める発言をしたと、一部海外テックメディアが報じている。

ベンチマークスコア操作疑惑の経緯

今回の疑惑は、AIモデルの性能を測るベンチマークテストにおいて、Metaが意図的に高いスコアを出すための操作、いわゆる「スコア操作」を行った可能性を指摘するものだ。ルカン氏の発言によると、開発チームはザッカーバーグCEOを満足させるため、複数のモデルバージョンでテストを繰り返し、最良の結果を出すよう努めたという。

さらに、ベンチマークテストに用いられた「Llama 4」は、一般公開が想定されるモデルとは異なる非公開の特別仕様版であった可能性も浮上している。この特別版は、標準版に比べて回答が冗長で、絵文字を多用するなどの特徴があり、特定のベンチマークで高得点を出しやすいように調整されていたとみられる。

CEOの圧力と開発チームの内部対立

一連の動きの背景には、Meta社内の厳しい開発環境があるとされる。ルカン氏は、ザッカーバーグCEOが「Llama 4」の初期性能に失望し、開発チームにかなりな圧力をかけたことを示唆した。この結果、チームはCEOの期待に応えるため、スコアの見栄えを良くする方向へと動かざるを得なかったという。

また、この一件により、ザッカーバーグCEOがAI開発チームへの信頼を失い、チームが社内で疎外され、開発の主流から外されたとの見方も出ている。巨大テック企業におけるLLM開発競争の激化が、研究開発の現場に歪みを生じさせている実態が浮き彫りになった形だ。

日本にとっての意味

Metaの「Llama 4」スコア操作疑惑は、日本のAI開発企業や関連産業に複数の影響を及ぼす可能性がある。

第一に、ベンチマークテストの信頼性に対する不信感は、日本のLLM開発競争に悪影響を及ぼす。現在、国内ではNTTやソフトバンクなどが大規模な日本語LLM開発を進めているが、性能評価の基準が揺らぐことで、公正な比較が困難となり、技術開発の方向性を見誤るリスクが高まる。特に「非公開の特別仕様版」で高スコアを狙ったという疑惑は、公開モデルの性能と乖離する可能性を示唆し、日本の企業が海外のベンチマーク結果を過信することへの警鐘となる。

第二に、ザッカーバーグCEOからの「かなりな圧力」が開発チームをスコア操作に駆り立てたという事実は、日本のテック企業における経営層と研究開発部門の関係性を見直す契機となる。短期的な成果や株価への影響を重視するあまり、研究の健全性が損なわれる事例は日本企業でも起こり得る。特に、AIのような先端技術開発においては、長期的な視点と研究者の独立性を尊重する企業文化の醸成が不可欠である。

第三に、今回の騒動がMeta社内のAI開発チームの「疎外」につながったという見方は、海外の巨大テック企業における人材流動性や技術者の待遇に関する示唆を与える。日本のAI人材は限られており、海外企業への流出も懸念される中、研究開発の現場に過度なプレッシャーがかかることで、優秀な人材が定着しにくくなる可能性も考慮すべきだ。これは、日本のAI研究開発力強化に向けた人材戦略にも影響を与える。