overview
¿Qué es WolfBench?
WolfBench es un marco de evaluación de agentes de IA de código abierto desarrollado por Wolfram Ravenwolf que permite a desarrolladores, investigadores y evaluadores de IA evaluar rigurosamente la consistencia y confiabilidad de los agentes de IA. Proporciona una evaluación completa y realista de los modelos y agentes de IA, particularmente para tareas "agénticas" complejas y del mundo real. El marco evalúa a los agentes de IA en un benchmark llamado Terminal-Bench 2.0, que comprende 89 diversas tareas del mundo real. Estas tareas van más allá de simples rompecabezas de codificación para incluir administración de sistemas, DevOps e infraestructura, y desafíos de seguridad. El objetivo principal de WolfBench es ofrecer una comprensión matizada del rendimiento y la confiabilidad de un agente de IA, yendo más allá de una única puntuación promedio para ayudar a los usuarios a determinar qué modelos, arneses y configuraciones ofrecen los resultados más consistentes en la práctica.