overview
Qu'est-ce que WolfBench ?
WolfBench est un cadre d'évaluation d'agents d'IA open source développé par Wolfram Ravenwolf qui permet aux développeurs, chercheurs et évaluateurs d'IA d'évaluer rigoureusement la cohérence et la fiabilité des agents d'IA. Il fournit une évaluation complète et réaliste des modèles et agents d'IA, en particulier pour les tâches complexes et réelles dites « agentiques ». Le cadre évalue les agents d'IA sur un benchmark appelé Terminal-Bench 2.0, qui comprend 89 tâches diverses du monde réel. Ces tâches vont au-delà des simples puzzles de codage pour inclure l'administration système, le DevOps & infrastructure et les défis de sécurité. L'objectif principal de WolfBench est d'offrir une compréhension nuancée des performances et de la fiabilité d'un agent d'IA, allant au-delà d'un simple score moyen pour aider les utilisateurs à déterminer quels modèles, harnais et paramètres offrent les résultats les plus cohérents en pratique.