AIの新潮流

OpenClawとPinchBenchの登場

OpenClawの登場

OpenClawは、AIの新潮流であると言える技術です。最近、テンセント旗下的Qclaw(龙虾)が内測を開始し、バイトダンスのArkClaw(龙虾)も正式に上線しました。また、阿里云は同類の製品CoPawを早くも推出しました。工信部は、関連する安全リスクについて警告したを発しました。

PinchBenchの特徴

PinchBenchは、Kilo.aiによって開発された開源基準テストツールです。OpenClawの評価に特化したツールであり、すべてのユーザーがOpenClawの能力を客観的に評価できるように設計されています。PinchBenchの公式サイトはhttps://pinchbench.com/で、GitHubプロジェクトのアドレスはhttps://github.com/pinchbench/skillです。

PinchBenchの評価方法

PinchBenchは、OpenClawの評価に自動化、LLM評価、混合の3つのレベルの評価メカニズムを使用しています。Python関数は、ファイルの作成やキーワードのマッチングなどの客観的な指標を自動的に検証します。一方、Claude Opusなどのトップモデルは、コンテンツの品質や分析の深さなどの主観的な指標を評価します。

PinchBenchの評価タスクは、23の標準化されたタスクで構成されています。これらのタスクには、日程の調整、コードの作成、市場調査などが含まれています。評価の結果は、MarkdownファイルとYAMLメタデータの形式でGitHubのpinchbench/skillリポジトリに公開されています。

評価の例として、OpenClawの報告書の理解タスクを取り上げます。このタスクでは、大語言モデルはOpenClawを駆動して、研究報告書を読み込み、8つの質問に答える必要があります。評価の結果は、Pythonスクリプトによって自動的に評価されます。

ソース情報

元記事公開日
翻訳・編集
最終更新

本記事は上記ソースを基に翻訳・編集したものです。 内容の正確性については元記事をご確認ください。

コメント 0

0/2000
コメントを読み込み中...
半導体の記事一覧へ戻る