overview
Qu'est-ce qu'Agent Arena ?
Agent Arena est une plateforme d'évaluation et de comparaison de modèles d'IA développée par Arena.ai qui permet aux chercheurs, développeurs et organisations d'IA d'évaluer et de comparer des modèles d'IA de pointe (LLMs, image, code, vidéo, vision, document, recherche) grâce à des comparaisons côte à côte anonymes et au vote humain. Elle façonne les classements publics des modèles d'IA basés sur les retours humains réels, offrant un environnement dynamique pour comprendre les performances de l'IA au-delà des benchmarks synthétiques. L''Agent Mode' de la plateforme, lancé le 4 juin 2026, se concentre spécifiquement sur l'évaluation d'agents LLM autonomes s'attaquant à des tâches complexes et multi-étapes dans un environnement de bac à sable.