overview
O que é o WolfBench?
WolfBench é um framework de avaliação de agentes de IA de código aberto desenvolvido por Wolfram Ravenwolf que permite a desenvolvedores, pesquisadores e avaliadores de IA avaliar rigorosamente a consistência e a confiabilidade de agentes de IA. Ele fornece uma avaliação abrangente e realista de modelos e agentes de IA, particularmente para tarefas "agênticas" complexas e do mundo real. O framework avalia agentes de IA em um benchmark chamado Terminal-Bench 2.0, que compreende 89 diversas tarefas do mundo real. Essas tarefas vão além de simples quebra-cabeças de codificação para incluir administração de sistemas, DevOps & infraestrutura e desafios de segurança. O objetivo principal do WolfBench é oferecer uma compreensão diferenciada do desempenho e da confiabilidade de um agente de IA, indo além de uma única pontuação média para ajudar os usuários a determinar quais modelos, estruturas e configurações entregam os resultados mais consistentes na prática.