Skip to content

Anthropic's Fable 5: La IA que Rompió los Benchmarks

Anthropic ha lanzado Claude Fable 5, la versión pública de su legendario modelo 'Mythos'. Ya está dominando todos los benchmarks principales y mostrando una habilidad sin precedentes en tareas complejas de largo horizonte.

Theo Brandt
Hero image for: Anthropic's Fable 5: La IA que Rompió los Benchmarks

Resumen / Puntos clave

  • Anthropic ha lanzado Claude Fable 5, la versión pública de su legendario modelo 'Mythos'.
  • Ya está dominando todos los benchmarks principales y mostrando una habilidad sin precedentes en tareas complejas de largo horizonte.

La Leyenda de Mythos se Hace Realidad

Anthropic acaba de desatar Claude Fable 5, la encarnación pública y protegida del legendario modelo 'Mythos'. Esta IA fue considerada una vez demasiado potente para su lanzamiento general, envuelta en susurros sobre su poder crudo e indomable y el potencial de "destruir el mundo entero".

Mythos se originó en lo más profundo de Project Glasswing, una iniciativa clandestina donde mostró capacidades alarmantes. Demostró "capacidades ofensivas cibernéticas a nivel de estado-nación", descubriendo miles de vulnerabilidades de alta gravedad. Estas incluían una falla de 27 años en OpenBSD y 271 errores en Firefox, una asombrosa cantidad diez veces mayor que su predecesor, Opus 4.6. Esto no era solo un modelo; era un arma digital, lo que hizo necesarios los "guard rails adicionales" que dieron origen a Fable 5.

Ahora, Anthropic juega sus cartas, posicionando a Fable 5 como un desafío directo a la jerarquía de la IA. Su objetivo es eclipsar a los modelos principales de OpenAI, Google, e incluso a su propio antiguo campeón, Claude Opus 4.8. Fable 5 es el primero en superar el 90% en el benchmark de análisis central de Anthropic, lo que representa un salto de 10 puntos sobre los modelos Opus anteriores. Lidera la clasificación verificada de SWE-bench con un 93.9% frente al 88.6% de Claude Opus 4.8, lo que señala la clara intención de Anthropic de apoderarse de la corona de la IA de frontera.

Los Benchmarks No Mienten: Un Nuevo Rey es Coronado

Los números no mienten. Claude Fable 5 de Anthropic acaba de redefinir el estándar para la capacidad de IA de frontera, ofreciendo un rendimiento que define el mercado en benchmarks críticos de la industria. Domina por completo a todos los demás modelos del planeta, incluido Opus 4.8, en evaluaciones como SWE-bench, FrontierCode y GDPval. Este modelo es de última generación en casi todos los benchmarks probados de capacidad de IA, destacando en ingeniería de software, trabajo del conocimiento, visión e investigación científica.

Fable 5 logró un hito significativo, superando el 90% en el benchmark de análisis central de Anthropic para tareas analíticas complejas y de larga duración. Esto representa un salto sin precedentes de 10 puntos sobre los modelos Opus anteriores, lo que señala una nueva era para la capacidad de la IA de manejar problemas intrincados y de múltiples pasos. La competencia del modelo en el trabajo del conocimiento económicamente valioso, evaluada en 44 ocupaciones y 9 sectores principales en GDPval, se acerca a la calidad de un experto humano.

Matthew Berman, un agudo observador del panorama de la IA, no se anduvo con rodeos después de su semana con el modelo, declarándolo el "mejor modelo del planeta". Elogió la destreza de Fable 5, especialmente para tareas de largo horizonte, señalando que "no pudo encontrar tareas que fueran demasiado complejas para él". Berman destacó su entusiasmo por explorar todas las soluciones posibles, incluso si se sentía "lento", produciendo finalmente resultados inigualables como una simulación de dinámica de fluidos. Este modelo no solo pasa pruebas; redefine el techo.

Más Allá de los Números: Dominando la Tarea de Largo Horizonte

Más allá de las puntuaciones brutas de los benchmarks, donde Claude Fable 5 ahora reina, reside su verdadera ventaja estratégica: las tareas de largo horizonte. Estas no son simples preguntas y respuestas; exigen planificación autónoma, ejecución en múltiples pasos y refinamiento iterativo de proyectos complejos sin la intervención humana constante. La arquitectura de Fable 5 está específicamente diseñada para este razonamiento sostenido, un diferenciador crítico que desbloquea nuevos niveles de productividad en aplicaciones del mundo real.

La reseña de Matthew Berman mostró vívidamente esta capacidad, destacando una impresionante simulación de dinámica de fluidos generada por Fable 5. Esto no fue una demostración preestablecida; fue el modelo creando y manipulando autónomamente un sistema complejo en tiempo real, demostrando capacidades generativas y de razonamiento avanzadas mucho más allá de lo que sus predecesores podían lograr. Esto va más allá de la mera resolución de problemas; es gestión de proyectos proactiva.

Su enfoque metódico, a menudo percibido como 'lentitud', es en realidad una característica, no un error, una inversión deliberada en la exhaustividad. Fable 5 explora a fondo cada posible ruta de solución, asegurando resultados óptimos en lugar de resultados rápidos pero subóptimos. Este proceso considerado explica por qué es el primer modelo en superar el 90% en el benchmark de análisis central de Anthropic para tareas complejas y de larga duración, un salto de 10 puntos sobre los modelos Opus anteriores. Para obtener información más detallada sobre los lanzamientos de modelos de Anthropic, consulte Claude Fable 5 and Claude Mythos 5 - Anthropic.

Poder vs. Seguridad: La Estratagema Estratégica de Anthropic

Anthropic no solo está lanzando un nuevo modelo; están ejecutando un lanzamiento dual calculado. Claude Fable 5 llega al público con sólidas salvaguardas, un modelo de "clase Mythos" domesticado para uso general. Mientras tanto, el Claude Mythos 5 de plena potencia —con las salvaguardas cibernéticas levantadas— está reservado para socios Glasswing verificados e investigadores de biología específicos. Esto no es solo una cuestión de capacidad; es una estratagema estratégica que equilibra el poder bruto con un despliegue responsable.

¿Recuerda el Proyecto Glasswing? La vista previa original de Mythos demostró "capacidades ofensivas cibernéticas a nivel de estado-nación", identificando miles de vulnerabilidades de alta gravedad, incluida una falla de 27 años en OpenBSD. Anthropic comprende lo que está en juego: un modelo capaz de tales hazañas exige un lanzamiento cuidadosamente controlado, de ahí el enfoque de dos niveles. Saben lo que tienen.

¿Quiere aprovechar este nuevo estándar? Fable 5 está disponible a través de la API de Claude y plataformas como Bedrock. El precio es agresivo para un modelo de frontera: $10 por 1 millón de tokens de entrada y $50 por 1 millón de tokens de salida. Esto no es simplemente una herramienta más potente; establece un nuevo listón en la industria para desplegar IA de frontera de forma segura, demostrando que la innovación no tiene por qué ser sofocada por la precaución. Anthropic acaba de mostrar a todos cómo se hace.

Preguntas Frecuentes

¿Qué es Claude Fable 5?

Claude Fable 5 es un nuevo modelo de IA de Anthropic, disponible públicamente. Es un modelo de 'clase Mythos' con avanzadas salvaguardas de seguridad, diseñado para tareas complejas y de largo alcance.

¿En qué se diferencia Fable 5 de Mythos 5?

Fable 5 es la versión del modelo Mythos hecha segura para uso general. El modelo completo Claude Mythos 5 tiene menos salvaguardas y está restringido a socios especializados para investigación en seguridad y biología.

¿Qué hace que Claude Fable 5 sea mejor que otros modelos?

Según se informa, Fable 5 domina benchmarks como SWE-bench y GDPval, superando incluso a Claude Opus 4.8. Su principal fortaleza es el manejo de problemas complejos de múltiples pasos que requieren un razonamiento sostenido.

¿Para quién es Claude Fable 5?

Está diseñado para desarrolladores e investigadores que trabajan en problemas ambiciosos y complejos, como ingeniería de software intrincada, investigación científica y tareas analíticas de larga duración que pueden automatizarse.

Found this useful? Share it.

One short daily email of tools worth shipping. No drip funnel.

one email a day · unsubscribe in two clicks · no third-party tracking

🚀Descubre más

Mantente a la vanguardia de la IA

Descubre las mejores herramientas de IA, agentes y servidores MCP seleccionados por Stork.AI.

P.S. ¿Construiste algo que vale la pena usar? Publícalo en Stork