overview
Что такое WolfBench?
WolfBench — это платформа для оценки AI-агентов с открытым исходным кодом, разработанная Wolfram Ravenwolf, которая позволяет разработчикам, исследователям и оценщикам AI строго оценивать согласованность и надежность AI-агентов. Она обеспечивает всестороннюю и реалистичную оценку AI-моделей и агентов, особенно для сложных, реальных «агентных» задач. Платформа оценивает AI-агентов на бенчмарке под названием Terminal-Bench 2.0, который включает 89 разнообразных реальных задач. Эти задачи выходят за рамки простых головоломок по кодированию и включают системное администрирование, DevOps и инфраструктуру, а также задачи безопасности. Основная цель WolfBench — предложить тонкое понимание производительности и надежности AI-агента, выходя за рамки одной средней оценки, чтобы помочь пользователям определить, какие модели, инструменты и настройки обеспечивают наиболее стабильные результаты на практике.