overview
WolfBenchとは?
WolfBenchは、Wolfram Ravenwolfによって開発されたオープンソースのAIエージェント評価フレームワークであり、AI開発者、研究者、評価者がAIエージェントの一貫性と信頼性を厳密に評価することを可能にします。特に複雑な実世界の「エージェント的」タスクにおいて、AIモデルとエージェントの包括的かつ現実的な評価を提供します。このフレームワークは、89種類の多様な実世界タスクで構成されるTerminal-Bench 2.0というベンチマークでAIエージェントを評価します。これらのタスクは、単純なコーディングパズルを超え、システム管理、DevOpsとインフラストラクチャ、およびセキュリティの課題を含みます。WolfBenchの主な目的は、AIエージェントのパフォーマンスと信頼性について微妙なニュアンスを理解することであり、単一の平均スコアを超えて、どのモデル、ハーネス、設定が実際に最も一貫した結果をもたらすかをユーザーが判断するのに役立ちます。