Outil d'IA

Examen du mode Agent d'Arena

Arena Agent Mode est une plateforme communautaire d'évaluation et de classement de modèles d'IA en conditions réelles, permettant aux utilisateurs de discuter, comparer et voter pour des modèles d'IA.

shipped 5 juin 2026aifreemium

aiproduct-hunt

Pourquoi c'est important

1Lancement d'Agent Mode et du classement Agent Arena le 4 juin 2026, pour évaluer les performances de l'IA agentique.

2Propose un modèle de tarification freemium, avec un forfait Pro Tier disponible à 20 $ par mois.

3Évalue des modèles d'IA de pointe tels que GPT-5.5, Claude Opus 4.7 et Gemini 3.1 Pro sur des tâches complexes et multi-étapes.

4A obtenu 250 millions de dollars de financement auprès d'investisseurs, dont Initialized Capital, atteignant le statut de licorne.

À propos de Arena Agent Mode

Modèle économique

Freemium SaaS

Siège social

San Francisco, USA

Fondée

2022

Taille de l’équipe

51-100

Financement

Unicorn

Total levé

$250 million

Plateformes

Web, Mobile

Public cible

AI researchers, developers, and businesses

Formules tarifaires

Free Tier

Free

• Access to basic features
• Limited model comparisons

Pro Tier

$20/mo

• Unlimited model comparisons
• Advanced analytics
• Priority support

Direction

Amit KumarCo-FounderLinkedIn

Michael SiebelCo-FounderLinkedIn

Paul O'ConnorCo-FounderLinkedIn

Investisseurs

Initialized Capital, Felicis Ventures, Founders Fund

overview

Qu'est-ce qu'Arena Agent Mode ?

Arena Agent Mode est un outil de plateforme d'évaluation d'IA développé par Arena (anciennement LMArena) qui permet aux passionnés d'IA, aux chercheurs et aux entreprises d'évaluer les performances des modèles de langage de grande taille (LLMs) de pointe sur des tâches complexes et multi-étapes. Il facilite l'évaluation en conditions réelles et le classement communautaire des modèles d'IA à travers diverses modalités, y compris la génération de texte, de code et d'images. Lancé le 4 juin 2026, Agent Mode mesure spécifiquement les performances agentiques en permettant aux modèles d'utiliser des outils comme la recherche web, le système de fichiers (filesystem), bash et la génération d'images dans des millions de sessions en direct. Arena AI adhère à une politique d'IA responsable (Responsible AI Policy), appliquant les principes de transparence, de sécurité et de supervision humaine, en accord avec les réglementations en évolution telles que l'EU AI Act et le Data Act. Les données des clients sont protégées, non utilisées pour l'entraînement de modèles en dehors de l'instance du client, et les entrées/sorties des requêtes d'IA sont enregistrées uniquement à des fins d'audit et d'optimisation des performances.

features

Fonctionnalités clés d'Arena Agent Mode

Arena Agent Mode offre une suite complète de fonctionnalités conçues pour l'évaluation et la comparaison rigoureuses des modèles d'IA, en mettant l'accent sur les performances en conditions réelles et la contribution de la communauté. Les capacités de la plateforme vont au-delà des simples interfaces de chat pour inclure des analyses comparatives avancées et des informations basées sur les données.

Évaluation de modèles d'IA en conditions réelles sur des tâches complexes et multi-étapes.
Classements communautaires qui façonnent les classements publics (leaderboards) pour les LLMs, les modèles d'image et de code.
Comparaisons côte à côte de modèles d'IA via des batailles aveugles pour réduire les biais.
Évaluation à travers plusieurs modalités, y compris le texte, le code, l'image, la vidéo, la vision, le document et la recherche.
Mesure des performances agentiques à l'aide d'outils comme la recherche web, le système de fichiers (filesystem), bash et la génération d'images.
Accès au jeu de données Arena Leaderboard Dataset, publié le 2 avril 2026, couvrant les capacités d'IA de pointe.
Services d'évaluation d'IA pour entreprises avec une gouvernance robuste et un examen juridique.
Interface conviviale pour discuter avec les modèles d'IA et voter sur leurs sorties.
Multimodal Max, le routeur de modèles d'Arena alimenté par plus de 5 millions de votes communautaires, introduit le 5 mai 2026.

use cases

Qui devrait utiliser Arena Agent Mode ?

Arena Agent Mode est conçu pour un public diversifié impliqué dans le développement, la recherche et l'application de l'intelligence artificielle, offrant des outils pour l'exploration individuelle et l'évaluation au niveau de l'entreprise.

Passionnés et chercheurs en IA : Pour accéder et contribuer aux classements communautaires (leaderboards) et explorer comment différents modèles raisonnent.
Développeurs et équipes produit : Pour l'évaluation comparative de modèles (benchmarking), l'évaluation des performances des modèles d'IA à travers diverses modalités et la validation des changements critiques.
Entreprises et laboratoires de modèles : Pour l'utilisation de services d'évaluation d'IA basés sur le feedback humain, garantissant la conformité et maximisant l'efficacité agentique.
Fondateurs et Indie Hackers : Pour le brainstorming et l'idéation en comparant plusieurs modèles d'IA afin d'obtenir des solutions indépendantes.
Professionnels de la création : Pour l'évaluation de la génération d'images et d'autres capacités d'IA multimodales.

pricing

Tarification et forfaits d'Arena Agent Mode

Arena Agent Mode fonctionne sur un modèle économique freemium, offrant un forfait gratuit (free tier) pour un accès de base et des forfaits payants pour des fonctionnalités et une utilisation étendues. La structure tarifaire de la plateforme est conçue pour s'adapter aux utilisateurs individuels et aux grandes organisations nécessitant des capacités d'évaluation plus étendues.

Forfait Gratuit (Free Tier) : Gratuit, inclut les fonctionnalités de base, 5 schémas, 3 jeux de données et 1 siège. Aucune carte de crédit requise.
Forfait Pro (Pro Tier) : 20 $/mois, offrant des capacités et des ressources améliorées.
Forfait Starter (LLM Benchmark Plans) : 29 €/mois, inclut 500 crédits/mois, 20 schémas, 10 jeux de données et 5 sièges.
Forfait Professionnel (LLM Benchmark Plans) : 99 €/mois, fournit 2 000 crédits/mois, schémas et jeux de données illimités, sièges illimités et accès API/MCP.
Forfait Entreprise (LLM Benchmark Plans) : 299 €/mois, avec 10 000 crédits/mois, schémas et jeux de données illimités, et sièges illimités.

Outils similaires

Arena Agent Mode vs Concurrents

Arena Agent Mode se distingue dans le paysage concurrentiel des plateformes d'évaluation d'IA par son accent sur l'évaluation en conditions réelles, pilotée par la communauté, et son focus spécifique sur les performances de l'IA agentique. Alors que d'autres plateformes offrent des outils de comparaison, la méthodologie unique de traçage causal d'Arena pour classer les performances agentiques offre un avantage distinct.

Yupp↗

Yupp allows users to compare responses from over 500 AI models side-by-side and aggregates user preferences into a community-driven leaderboard called VIBE.

Similar to Arena Agent Mode, Yupp focuses on community-driven evaluation and side-by-side comparison of various AI models, including LLMs and image generation models, with a public leaderboard reflecting user preferences. Yupp also offers a unique DePIN model where users can receive credits for their feedback.

SEAL Showdown (by Scale AI)↗

SEAL Showdown provides a public leaderboard built on millions of real-world conversations and human preferences from a diverse global user base, offering demographically segmented insights.

Like Arena Agent Mode, SEAL Showdown emphasizes real-world evaluation and community feedback to rank AI models, but it distinguishes itself by focusing on representative rankings from a global user base with demographic segmentation.

CodeLens.AI↗

CodeLens.AI specializes in comparing how multiple top LLMs handle actual code tasks, featuring side-by-side comparisons and community voting on winners to shape its leaderboard.

CodeLens.AI is a direct competitor for the 'code models' aspect of Arena Agent Mode, offering a similar community-driven comparison and voting mechanism specifically tailored for evaluating AI models on coding tasks.

Sneos.com↗

Sneos.com is a multi-chat AI platform that enables instant side-by-side comparisons of responses from various LLMs to a single prompt, with shareable URLs for research and collaboration.

While Sneos.com offers direct side-by-side comparison of AI model outputs similar to Arena Agent Mode, its primary emphasis is on facilitating individual or collaborative research and decision-making through shareable comparisons, rather than a community-voted public leaderboard.

Visiter Arena Agent Mode↗