OpenClawの登場
OpenClawは、AIの新潮流であると言える技術です。最近、テンセント旗下的Qclaw(龙虾)が内測を開始し、バイトダンスのArkClaw(龙虾)も正式に上線しました。また、阿里云は同類の製品CoPawを早くも推出しました。工信部は、関連する安全リスクについて警告したを発しました。
PinchBenchの特徴
PinchBenchは、Kilo.aiによって開発された開源基準テストツールです。OpenClawの評価に特化したツールであり、すべてのユーザーがOpenClawの能力を客観的に評価できるように設計されています。PinchBenchの公式サイトはhttps://pinchbench.com/で、GitHubプロジェクトのアドレスはhttps://github.com/pinchbench/skillです。
PinchBenchの評価方法
PinchBenchは、OpenClawの評価に自動化、LLM評価、混合の3つのレベルの評価メカニズムを使用しています。Python関数は、ファイルの作成やキーワードのマッチングなどの客観的な指標を自動的に検証します。一方、Claude Opusなどのトップモデルは、コンテンツの品質や分析の深さなどの主観的な指標を評価します。
PinchBenchの評価タスクは、23の標準化されたタスクで構成されています。これらのタスクには、日程の調整、コードの作成、市場調査などが含まれています。評価の結果は、MarkdownファイルとYAMLメタデータの形式でGitHubのpinchbench/skillリポジトリに公開されています。
評価の例として、OpenClawの報告書の理解タスクを取り上げます。このタスクでは、大語言モデルはOpenClawを駆動して、研究報告書を読み込み、8つの質問に答える必要があります。評価の結果は、Pythonスクリプトによって自動的に評価されます。
PinchBenchの評価タスクは、23の標準化されたタスクで構成されています。これらのタスクには、日程の調整、コードの作成、市場調査などが含まれています。評価の結果は、MarkdownファイルとYAMLメタデータの形式でGitHubのpinchbench/skillリポジトリに公開されています。
評価の例として、OpenClawの報告書の理解タスクを取り上げます。このタスクでは、大語言モデルはOpenClawを駆動して、研究報告書を読み込み、8つの質問に答える必要があります。評価の結果は、Pythonスクリプトによって自動的に評価されます。
コメント 0
まだコメントはありません
最初のコメントを投稿してみましょう!⚠️ エラーが発生しました