Herramienta de IA

Revisión de Arena Agent Mode

Arena Agent Mode es una plataforma impulsada por la comunidad para la evaluación y clasificación de modelos de IA en el mundo real, que permite a los usuarios chatear, comparar y votar por modelos de IA.

shipped 5 jun 2026aifreemium

aiproduct-hunt

Por qué importa

1Lanzó Agent Mode y la tabla de clasificación Agent Arena el 4 de junio de 2026, para comparar el rendimiento de la IA agéntica.

2Ofrece un modelo de precios freemium, con un Nivel Pro disponible por $20 al mes.

3Evalúa modelos de IA de vanguardia como GPT-5.5, Claude Opus 4.7 y Gemini 3.1 Pro en tareas complejas y de varios pasos.

4Aseguró $250 millones en financiación de inversores como Initialized Capital, logrando el estatus de Unicornio.

Sobre Arena Agent Mode

Modelo de negocio

Freemium SaaS

Sede

San Francisco, USA

Fundada

2022

Tamaño del equipo

51-100

Financiación

Unicorn

Total recaudado

$250 million

Plataformas

Web, Mobile

Público objetivo

AI researchers, developers, and businesses

Planes de precios

Free Tier

Free

• Access to basic features
• Limited model comparisons

Pro Tier

$20/mo

• Unlimited model comparisons
• Advanced analytics
• Priority support

Liderazgo

Amit KumarCo-FounderLinkedIn

Michael SiebelCo-FounderLinkedIn

Paul O'ConnorCo-FounderLinkedIn

Inversores

Initialized Capital, Felicis Ventures, Founders Fund

overview

¿Qué es Arena Agent Mode?

Arena Agent Mode es una herramienta de plataforma de evaluación de IA desarrollada por Arena (anteriormente LMArena) que permite a entusiastas de la IA, investigadores y empresas comparar el rendimiento de modelos de lenguaje grandes (LLM) de vanguardia en tareas complejas y de varios pasos. Facilita la evaluación en el mundo real y la clasificación impulsada por la comunidad de modelos de IA en diversas modalidades, incluyendo texto, código y generación de imágenes. Lanzado el 4 de junio de 2026, Agent Mode mide específicamente el rendimiento agéntico al permitir que los modelos utilicen herramientas como búsqueda web, sistema de archivos, bash y generación de imágenes en millones de sesiones en vivo. Arena AI se adhiere a una Política de IA Responsable, aplicando principios de transparencia, seguridad y supervisión humana, alineándose con regulaciones en evolución como la EU AI Act y la Data Act. Los datos del cliente están protegidos, no se utilizan para entrenar modelos fuera de la instancia del cliente, y las entradas/salidas para las solicitudes de IA se registran únicamente para auditoría y ajuste de rendimiento.

features

Características Clave de Arena Agent Mode

Arena Agent Mode ofrece un conjunto completo de características diseñadas para la evaluación y comparación rigurosa de modelos de IA, enfatizando el rendimiento en el mundo real y la contribución de la comunidad. Las capacidades de la plataforma se extienden más allá de las simples interfaces de chat para incluir benchmarking avanzado e información basada en datos.

Evaluación de modelos de IA en el mundo real en tareas complejas y de varios pasos.
Clasificaciones impulsadas por la comunidad que configuran tablas de clasificación públicas para LLM, modelos de imagen y código.
Comparaciones de modelos de IA lado a lado a través de batallas ciegas para reducir el sesgo.
Evaluación en múltiples modalidades, incluyendo texto, código, imagen, video, visión, documento y búsqueda.
Medición del rendimiento agéntico utilizando herramientas como búsqueda web, sistema de archivos, bash y generación de imágenes.
Acceso al Arena Leaderboard Dataset, lanzado el 2 de abril de 2026, que cubre capacidades de IA de vanguardia.
Servicios de evaluación de IA empresarial con gobernanza robusta y revisión legal.
Interfaz fácil de usar para chatear y votar sobre las salidas de los modelos de IA.
Multimodal Max, el enrutador de modelos de Arena impulsado por más de 5 millones de votos de la comunidad, presentado el 5 de mayo de 2026.

use cases

¿Quién Debería Usar Arena Agent Mode?

Arena Agent Mode está diseñado para una audiencia diversa involucrada en el desarrollo, investigación y aplicación de la inteligencia artificial, ofreciendo herramientas tanto para la exploración individual como para la evaluación a nivel empresarial.

Entusiastas e Investigadores de IA: Para acceder y contribuir a las tablas de clasificación impulsadas por la comunidad y explorar cómo razonan los diferentes modelos.
Desarrolladores y Equipos de Producto: Para benchmarking de modelos, evaluación del rendimiento de modelos de IA en diversas modalidades y validación de cambios críticos.
Empresas y Laboratorios de Modelos: Para utilizar servicios de evaluación de IA basados en la retroalimentación humana, asegurando el cumplimiento y maximizando la eficacia agéntica.
Fundadores y Desarrolladores Independientes: Para lluvia de ideas e ideación comparando múltiples modelos de IA para obtener soluciones independientes.
Profesionales Creativos: Para evaluar la generación de imágenes y otras capacidades de IA multimodal.

pricing

Precios y Planes de Arena Agent Mode

Arena Agent Mode opera con un modelo de negocio freemium, ofreciendo un nivel gratuito para acceso básico y niveles de pago para características y uso expandidos. La estructura de precios de la plataforma está diseñada para adaptarse a usuarios individuales y organizaciones más grandes que requieren capacidades de evaluación más extensas.

Nivel Gratuito: Gratis, incluye características principales, 5 esquemas, 3 conjuntos de datos y 1 asiento. No se requiere tarjeta de crédito.
Nivel Pro: $20/mes, ofrece capacidades y recursos mejorados.
Nivel Starter (Planes de LLM Benchmark): €29/mes, incluye 500 créditos/mes, 20 esquemas, 10 conjuntos de datos y 5 asientos.
Nivel Profesional (Planes de LLM Benchmark): €99/mes, proporciona 2,000 créditos/mes, esquemas y conjuntos de datos ilimitados, asientos ilimitados y acceso a API/MCP.
Nivel Empresarial (Planes de LLM Benchmark): €299/mes, con 10,000 créditos/mes, esquemas y conjuntos de datos ilimitados, y asientos ilimitados.

Herramientas similares

Arena Agent Mode vs Competidores

Arena Agent Mode se distingue en el panorama competitivo de las plataformas de evaluación de IA por su énfasis en la evaluación en el mundo real, impulsada por la comunidad, y su enfoque específico en el rendimiento de la IA agéntica. Si bien otras plataformas ofrecen herramientas de comparación, la metodología única de trazado causal de Arena para clasificar el rendimiento agéntico proporciona una ventaja distintiva.

Yupp↗

Yupp allows users to compare responses from over 500 AI models side-by-side and aggregates user preferences into a community-driven leaderboard called VIBE.

Similar to Arena Agent Mode, Yupp focuses on community-driven evaluation and side-by-side comparison of various AI models, including LLMs and image generation models, with a public leaderboard reflecting user preferences. Yupp also offers a unique DePIN model where users can receive credits for their feedback.

SEAL Showdown (by Scale AI)↗

SEAL Showdown provides a public leaderboard built on millions of real-world conversations and human preferences from a diverse global user base, offering demographically segmented insights.

Like Arena Agent Mode, SEAL Showdown emphasizes real-world evaluation and community feedback to rank AI models, but it distinguishes itself by focusing on representative rankings from a global user base with demographic segmentation.

CodeLens.AI↗

CodeLens.AI specializes in comparing how multiple top LLMs handle actual code tasks, featuring side-by-side comparisons and community voting on winners to shape its leaderboard.

CodeLens.AI is a direct competitor for the 'code models' aspect of Arena Agent Mode, offering a similar community-driven comparison and voting mechanism specifically tailored for evaluating AI models on coding tasks.

Sneos.com↗

Sneos.com is a multi-chat AI platform that enables instant side-by-side comparisons of responses from various LLMs to a single prompt, with shareable URLs for research and collaboration.

While Sneos.com offers direct side-by-side comparison of AI model outputs similar to Arena Agent Mode, its primary emphasis is on facilitating individual or collaborative research and decision-making through shareable comparisons, rather than a community-voted public leaderboard.

Visitar Arena Agent Mode↗