中国のAI研究チームが新しい基準を発表

大語言モデルが上下文から新しい知識を学習できるかを評価する

上下文学習の重要性

人工知能の分野では、大語言モデルが上下文から新しい知識を学習できるかが重要な課題です。現代の大語言モデルは、予備訓練段階で学習した静的な記憶に頼ることが多く、上下文から新しい知識を学習する能力が不足しています。

CL-benchの特徴

CL-benchは、上下文から新しい知識を学習できる大語言モデルを評価するための基準です。CL-benchには、500個の複雑な上下文、1899個のタスク、31607個の検証基準が含まれています。モデルは、上下文から新しい知識を学習し、正しく適用することが求められます。

評価結果

研究チームは、CL-benchを使用して10個の大語言モデルを評価しました。結果は、モデルが上下文から新しい知識を学習する能力が不足していることを示しました。平均して、モデルは17.2%のタスクのみを解決できました。GPT-5.1(High)は、23.7%のタスクを解決しましたが、まだ十分にな能力ではありませんでした。

CL-benchは、大語言モデルの上下文学習能力を評価するための重要なツールとなります。将来的には、上下文学習能力の向上により、大語言モデルがより実用的なタスクを解決できるようになることが期待されます。

ソース情報

元記事公開日
翻訳・編集
最終更新

本記事は上記ソースを基に翻訳・編集したものです。 内容の正確性については元記事をご確認ください。

コメント 0

0/2000
コメントを読み込み中...
半導体の記事一覧へ戻る