Anthropic Explica Por Qué Claude Se Volvió Más Tonto para los Desarrolladores

💡

Resumen / Puntos clave

Anthropic acaba de confesar que empeoró su modelo de IA, Claude, para los desarrolladores. Descubre los tres errores críticos que cometieron y lo que significa para el futuro de la IA.

La Campaña de Susurros se Convierte en un Rugido

Una ola de quejas de desarrolladores inundó recientemente plataformas de redes sociales como X y Reddit, detallando un marcado declive en las capacidades de codificación de Claude. Los programadores que dependían del asistente de IA informaron una caída notable en la calidad de su producción, lo que provocó una frustración generalizada. Muchos describieron a Claude como repentinamente "más tonto", luchando con tareas que antes manejaba con facilidad.

Este fenómeno no es nuevo; los usuarios a menudo perciben una degradación, o 'nerfeo' de IA, en el rendimiento del modelo mucho antes de los reconocimientos oficiales. Los desarrolladores, íntimamente familiarizados con las complejidades de Claude, sintieron inmediatamente un cambio. Su evidencia anecdótica pintó una imagen consistente de una herramienta que alguna vez fue confiable volviéndose olvidadiza y repetitiva, especialmente durante sesiones de codificación complejas.

Esa inquietud colectiva se transformó en validación cuando Anthropic finalmente publicó un postmortem, confirmando las sospechas generalizadas. La frustración de la comunidad de desarrolladores dio paso a una sensación de "se lo dijimos", ya que la compañía admitió cambios específicos que afectaron el rendimiento de Claude. Esta transparencia, aunque tardía, proporcionó información crucial sobre los problemas subyacentes.

La explicación de Anthropic detalló tres razones principales para la degradación en Claude Code: - Una reducción en el esfuerzo de razonamiento predeterminado de "alto" a "medio" con el objetivo de disminuir la latencia, sacrificando inadvertidamente la capacidad en tareas de codificación más difíciles. - Un error crítico hizo que Claude abandonara su razonamiento previo después de cada sesión inactiva, haciéndolo parecer olvidadizo y repetitivo. - Un 'system prompt' modificado, destinado a reducir la verbosidad, impactó significativamente la calidad del código, obligando a Anthropic a revertir el cambio.

Fundamentalmente, los problemas de rendimiento se originaron en el "harness" – la implementación específica conocida como Claude Code – en lugar del modelo central de Claude en sí. Esta distinción resalta la fragilidad de todo el 'pipeline' de IA, donde ajustes aparentemente menores pueden tener efectos profundos. Los críticos cuestionaron rápidamente los protocolos de prueba de Anthropic, considerándolo "una locura" implementar cambios tan impactantes sin una validación exhaustiva previa al lanzamiento.

La Confesión Sin Precedentes de Anthropic

Anthropic luego publicó 'An update on recent Claude Code quality reports', ofreciendo un nivel de franqueza sin precedentes. Esta publicación de blog abordó directamente el creciente coro de quejas de los desarrolladores, detallando los errores técnicos precisos que realmente degradaron el rendimiento de Claude Code. La admisión pública de la compañía se destacó como un notable caso de estudio en transparencia corporativa dentro de la a menudo opaca industria de la IA, estableciendo un nuevo punto de referencia para la rendición de cuentas.

El postmortem detalló meticulosamente tres razones principales detrás del declive observado en la capacidad de codificación: - Anthropic confesó haber alterado el esfuerzo de razonamiento predeterminado para Claude Code de "alto" a "medio". Este cambio, implementado para reducir la latencia y hacer el modelo más rápido, comprometió inadvertidamente su eficacia en tareas de programación más complejas que requieren un pensamiento analítico más profundo. - Surgió un error crítico que hizo que Claude abandonara su razonamiento antiguo después de cada sesión inactiva. Este defecto fundamental hizo que el modelo pareciera olvidadizo y repetitivo, afectando gravemente los diálogos de codificación de múltiples turnos donde la retención del contexto es primordial. - Una modificación del 'system prompt', inicialmente destinada a reducir la verbosidad y optimizar las salidas, degradó inesperadamente la calidad del código tan severamente que Anthropic tuvo que revertir rápidamente el cambio, reconociendo su impacto perjudicial.

Los miembros de la comunidad de IA y los medios tecnológicos reaccionaron con una potente mezcla de sorpresa, crítica y respeto a regañadientes. Mientras que algunos, como el creador de Better Stack, expresaron su asombro de que tales cambios no se probaran adecuadamente antes de la implementación, muchos elogiaron la transparencia radical de Anthropic. Esta franqueza ofreció un marcado contraste con la forma en que otros gigantes tecnológicos suelen gestionar problemas similares de degradación del rendimiento con sus productos estrella.

La mayoría de las empresas, particularmente en el competitivo espacio de la IA, a menudo recurren a declaraciones vagas, atribuyen los problemas a "patrones de uso en evolución" o permanecen completamente en silencio, dejando a los usuarios especular y la frustración crecer. La decisión de Anthropic de exponer sus errores internos, sin embargo, generó una confianza significativa. Validó las frustraciones de los desarrolladores en lugar de desestimarlas, reconociendo el impacto tangible en sus flujos de trabajo. Este nivel de apertura establece un nuevo y más alto estándar de honestidad y responsabilidad en el panorama en rápida evolución del desarrollo e implementación de modelos de IA.

Error #1: Sacrificar la inteligencia por la velocidad

El primer error reconocido de Anthropic implicó un ajuste crítico de backend dentro de Claude Code. Los ingenieros alteraron el esfuerzo de razonamiento predeterminado del modelo, degradándolo de 'alto' a 'medio'. Este cambio dictó directamente los recursos computacionales y los ciclos de procesamiento internos que Claude dedicaba a cada consulta del usuario, reduciendo efectivamente su profundidad analítica.

La transición a un razonamiento 'medio' significó que Claude realizó menos iteraciones internas y una descomposición de problemas menos compleja. Si bien el objetivo explícito era disminuir la latencia y acelerar los tiempos de respuesta, esta búsqueda de velocidad sacrificó inadvertidamente la meticulosidad del modelo. Los desarrolladores observaron una marcada disminución en la calidad y precisión del código generado, particularmente en escenarios que exigían un pensamiento lógico intrincado.

Este cambio operativo ejemplifica un compromiso clásico de ingeniería entre velocidad y rendimiento, un dilema particularmente desafiante para los grandes modelos de lenguaje. A diferencia de

Error #2: El error de amnesia

El análisis post-mortem de Anthropic reveló un segundo error crítico: el "Amnesia Bug," un fallo grave que afectaba a Claude Code. Este defecto insidioso hizo que la IA descartara por completo su razonamiento anterior y el contexto conversacional después de cualquier período de inactividad del usuario. Cada vez que un desarrollador pausaba su interacción, incluso brevemente, Claude Code reiniciaba su memoria a corto plazo, "olvidando" efectivamente todo lo discutido y forzando un nuevo comienzo.

Este lapsus de memoria resultó devastador para la productividad del desarrollador y la continuidad del flujo de trabajo. Imagine a un programador trabajando con Claude Code para depurar un problema intrincado de múltiples archivos, proporcionando un contexto extenso y detalles arquitectónicos.

Después de una breve interrupción —quizás para ejecutar un conjunto de pruebas o consultar documentación— la IA regresaba desprovista de cualquier recuerdo. Con frecuencia exigía una nueva explicación del problema, reiteraba soluciones ya rechazadas y generaba código ignorando horas de instrucciones previas, lo que provocaba una inmensa frustración y un esfuerzo desperdiciado.

La utilidad central de cualquier asistente de IA avanzado depende críticamente de su capacidad para mantener el contexto de conversación y una memoria persistente. Sin este hilo continuo de comprensión, una IA no puede construir incrementalmente sobre interacciones previas u ofrecer soluciones coherentes y en evolución a problemas complejos. La incapacidad de Claude Code para retener su "razonamiento antiguo" después de un período de inactividad socavó fundamentalmente su potencial colaborativo, transformándolo en un chatbot frustrante y sin estado.

Error #3: El prompt que salió mal

El tercer error de Anthropic implicó un cambio aparentemente inofensivo en el system prompt de Claude Code. Los desarrolladores modificaron el prompt con el objetivo explícito de reducir la verbosidad del modelo, esperando obtener resultados de código más concisos y directos. Este ajuste buscaba optimizar las interacciones y entregar respuestas sin rodeos conversacionales innecesarios.

Sin embargo, este pequeño ajuste creó un efecto dominó masivo e involuntario, un ejemplo clásico del butterfly effect en la prompt engineering. Una ligera alteración en las instrucciones iniciales modificó drásticamente el marco interpretativo del modelo, lo que llevó a una degradación significativa en la calidad y corrección del código generado. El modelo, ahora restringido por el nuevo prompt, tuvo dificultades con estructuras lógicas complejas y tareas de codificación matizadas que antes manejaba con facilidad.

El impacto en la calidad del código se volvió tan severo que Anthropic no tuvo más remedio que revertir el system prompt a su estado original. Esta rápida reversión subraya la extrema fragilidad de los fine-tuned AI systems avanzados. Incluso ajustes menores a las instrucciones fundamentales pueden desestabilizar el rendimiento, revelando las intrincadas dependencias dentro de estas complejas redes neuronales.

La experiencia de Anthropic destaca el delicado equilibrio requerido en la prompt engineering. Los desarrolladores no pueden simplemente asumir que pequeños cambios producirán resultados predecibles; en cambio, las pruebas y la validación meticulosas son cruciales para prevenir regresiones imprevistas. Este incidente sirve como un crudo recordatorio de lo fácil que puede desmoronarse el rendimiento cuidadosamente calibrado de un modelo de AI.

No es el Modelo, es el Harness

La autopsia de Anthropic reveló un matiz crítico: el problema no se originó en el Claude foundation model en sí. Los desarrolladores experimentaron una degradación en Claude Code, una aplicación distinta construida sobre la AI subyacente. Esta distinción es primordial para comprender la fuente real de los recientes problemas de rendimiento.

Un "harness" en el ámbito de los large language models representa la capa sofisticada que optimiza un modelo fundacional para una tarea específica. Abarca una combinación cuidadosamente curada de componentes diseñados para guiar el comportamiento y la salida del modelo. Estos elementos son cruciales para adaptar las capacidades generales de un LLM a dominios especializados.

Los componentes clave de un harness incluyen system prompts refinados, que dirigen la personalidad e instrucciones del modelo, y mecanismos de recuperación para acceder a información externa. Las configuraciones, como el nivel predeterminado de 'reasoning effort', también caen bajo el ámbito del harness. Los tres errores que Anthropic admitió —el cambio en el reasoning effort, el error de amnesia y el system prompt alterado— fueron todas modificaciones a este Claude Code harness, no al modelo base.

Considere la relación como un coche de carreras de alto rendimiento. El potente motor representa el Claude foundation model central, inherentemente capaz y robusto. El harness, entonces, es la transmisión específica, la configuración de la suspensión y el ajuste aerodinámico meticulosamente configurados para una pista de carreras y un estilo de conducción particulares. Una transmisión mal ajustada o una configuración de suspensión incorrecta obstaculizarán gravemente el rendimiento del coche, incluso si el motor permanece impecable.

Los errores de Anthropic fueron similares a ajustar la afinación de un coche sin las pruebas adecuadas, lo que llevó directamente a la disminución observada en la calidad de la codificación. El motor subyacente de Claude permaneció inalterado, pero sus parámetros operativos dentro del Claude Code harness se vieron comprometidos. Para más detalles sobre cómo estas configuraciones impactan el rendimiento de los LLM, lea cómo Misterio resuelto: Anthropic revela que los cambios en los harnesses y las instrucciones operativas de Claude probablemente causaron la degradación | VentureBeat.

Este incidente subraya la complejidad de desplegar IA avanzada. Incluso ajustes menores al harness operativo de un LLM pueden alterar drásticamente su inteligencia y utilidad percibidas, destacando la necesidad crítica de pruebas rigurosas antes de un despliegue amplio. Las capacidades del modelo central nunca estuvieron en duda; su aplicación específica sí lo estuvo.

La comunidad reacciona: 'Una locura' que no lo probaran

La indignación de la comunidad tecnológica siguió rápidamente a la confesión de Anthropic. El video de Better Stack, "Claude ACTUALLY got dumber...", destacó el sentimiento, con el creador expresando incredulidad de que Anthropic desplegara cambios tan impactantes sin pruebas rigurosas. "Es un poco una locura para mí que no prueben estas cosas antes de lanzar estos cambios", afirmó el video, capturando la frustración generalizada de los desarrolladores.

Esta crítica contundente subraya una expectativa fundamental entre los profesionales: las herramientas en las que confían para su sustento exigen estabilidad. Para los desarrolladores que integran IA en sistemas complejos, la degradación inesperada del rendimiento de una API crítica como Claude Code resulta inaceptable. El impacto inmediato en la productividad y los plazos de los proyectos se vuelve significativo.

El antiguo lema de Silicon Valley "move fast and break things" se enfrenta a un escrutinio creciente cuando se aplica a herramientas de IA fundamentales. Si bien la iteración rápida impulsa la innovación, el lanzamiento de cambios no probados que comprometen la funcionalidad central para usuarios profesionales corre el riesgo de erosionar la confianza. Un modelo como Claude Code, diseñado para tareas de programación sofisticadas, requiere un estándar de despliegue diferente.

Los errores admitidos de Anthropic —cambiar el reasoning effort predeterminado de 'high' a 'medium', introducir un error que borraba la memoria después de sesiones inactivas y alterar el system prompt para reducir la verbosidad— representan modificaciones significativas. Cada cambio, si se hubiera probado adecuadamente, debería haber señalado la degradación del rendimiento resultante antes del lanzamiento público. Los problemas estaban con el "harness", Claude Code, no con el modelo central, pero la experiencia del usuario siguió siendo deficiente.

Sin embargo, desarrollar pruebas de regresión efectivas para la IA generativa presenta desafíos únicos. A diferencia del software tradicional, donde las salidas son en gran medida deterministas, los modelos de IA producen respuestas variadas y no exactas. Las métricas de evaluación automatizadas a menudo tienen dificultades para capturar cambios sutiles de calidad en la generación de código, lo que hace que las evaluaciones con intervención humana sean esenciales pero intensivas en recursos.

A pesar de estas complejidades, la comunidad espera una validación robusta para la IA de grado profesional. Este incidente subraya la necesidad de metodologías de prueba avanzadas que puedan identificar regresiones sutiles pero críticas en sistemas no deterministas. Reconstruir la confianza de los desarrolladores requiere más que disculpas; exige un compromiso demostrable con una estricta garantía de calidad.

El mundo de alto riesgo del despliegue de LLM

La admisión de Anthropic va más allá de un único error de producto; refleja un desafío sistémico que afecta a toda la industria de la IA. Las empresas que operan a la vanguardia del desarrollo de modelos de lenguaje grandes (LLM) se enfrentan a una inmensa presión para innovar, entregando actualizaciones constantes y nuevas características para mantener una ventaja competitiva en un mercado en rápida evolución. Esta implacable AI arms race a menudo prioriza la velocidad sobre la validación exhaustiva.

Estos ciclos de desarrollo rápidos con frecuencia llevan a la implementación de cambios sin las pruebas exhaustivas y en el mundo real típicas del software tradicional. En consecuencia, pueden colarse regresiones imprevistas, afectando directamente la experiencia y la confianza del usuario. El incidente con Claude Code sirve como un crudo recordatorio de lo mucho que hay en juego.

Evaluar el verdadero impacto de estas actualizaciones continuas presenta un desafío formidable. Evaluar el rendimiento complejo de los LLM, especialmente para tareas creativas y matizadas como la codificación, desafía las métricas simples y cuantificables. Si bien los puntos de referencia académicos como MMLU o HumanEval ofrecen información fundamental, rara vez capturan los escenarios intrincados, de varios pasos y dependientes del contexto que los desarrolladores encuentran en la práctica.

Las pruebas de software tradicionales a menudo se basan en criterios claros de aprobación/falla o métricas de rendimiento específicas. Para los LLM, sin embargo, un modelo 'mejor' podría exhibir mejoras sutiles en la creatividad o la coherencia, mientras que uno 'peor' podría sufrir una consistencia lógica reducida o una mayor alucinación, todo lo cual es difícil de cuantificar objetivamente a escala. Esto hace que la benchmarking LLM performance para aplicaciones prácticas sea increíblemente difícil.

Los ajustes de Anthropic a Claude Code, como cambiar el reasoning effort predeterminado de 'high' a 'medium' y modificar el system prompt para la verbosidad, ilustran esta complejidad. Estos ajustes de configuración aparentemente menores, destinados a optimizar la latencia o la experiencia del usuario, se tradujeron en degradaciones significativas en la calidad de la codificación. Detectar tales regresiones matizadas antes de la implementación generalizada requiere sistemas de evaluación sofisticados y conscientes del contexto que la industria aún lucha por perfeccionar.

La reacción "insana" de la comunidad con respecto a los procedimientos de prueba de Anthropic resalta una vulnerabilidad más amplia de la industria. Desarrollar marcos de evaluación robustos y dinámicos capaces de reflejar verdaderamente la utilidad de un LLM en su vasto y a menudo subjetivo espacio de aplicación sigue siendo un problema crítico y sin resolver para cada desarrollador importante de IA.

Lecciones del tropiezo de Anthropic

El reciente tropiezo de Anthropic con Claude Code ofrece una clase magistral invaluable para toda la industria de la IA. Los equipos de desarrollo deben internalizar que los ajustes de configuración aparentemente menores o los cambios de prompt pueden desencadenar una degradación significativa del rendimiento y frustración del usuario. El cambio en el reasoning effort predeterminado de 'high' a 'medium', implementado por velocidad, comprometió drásticamente la capacidad para tareas de codificación complejas.

Además, el insidioso 'Amnesia Bug' interrumpió la continuidad de la sesión al hacer que Claude abandonara su razonamiento anterior después de cada sesión inactiva, haciendo que las interacciones se sintieran olvidadizas y repetitivas. Incluso un cambio aparentemente benigno en el system prompt, destinado a reducir la verbosidad, impactó significativamente la calidad del código, lo que provocó una reversión inmediata. Estos tres factores ilustran colectivamente la profunda fragilidad de las implementaciones de LLM cuando se realizan cambios aparentemente pequeños.

Fundamentalmente, el incidente subraya la distinción entre el modelo fundacional central y su arnés de aplicación específico. Si bien el modelo subyacente de Claude se mantuvo robusto, el arnés de 'Claude Code' sufrió debido a estas modificaciones externas. Esto resalta la necesidad de pruebas rigurosas y multifacéticas para cada capa de un producto de IA, que se extiendan más allá de los puntos de referencia internos para incluir una amplia retroalimentación cualitativa de los usuarios.

Como señaló acertadamente el creador del video de Better Stack, parece "una locura" impulsar cambios tan impactantes sin una validación exhaustiva. Las empresas no pueden depender únicamente de métricas cuantitativas; los flujos de trabajo y las expectativas de los desarrolladores en el mundo real exigen pruebas exhaustivas de preproducción en diversos escenarios. Esto incluye la evaluación de patrones de interacción a largo plazo, la gestión de sesiones y las formas sutiles en que el comportamiento de una IA puede cambiar durante una sesión inactiva, asegurando la robustez antes del lanzamiento público.

En última instancia, la decisión de Anthropic de publicar 'An update on recent Claude Code quality reports' se erige como un poderoso testimonio del valor a largo plazo de la transparencia corporativa. Admitir fallas y explicar claramente los errores técnicos, incluso bajo un intenso escrutinio público, cultiva una mayor confianza que la ofuscación. Otros desarrolladores de IA deberían seguir este ejemplo, entendiendo que la apertura, aunque difícil, construye resiliencia y credibilidad con su base de usuarios. Para obtener más información sobre la reacción de la industria, lea Anthropic admits it dumbed down Claude when trying to make it smarter - The Register.

El camino de Claude hacia la redención

Anthropic actuó rápidamente para rectificar los problemas que afectaban a Claude Code. Revirtieron completamente el cambio de prompt del sistema, que había impactado significativamente la calidad del código, y desplegaron una solución crítica para el "bug de amnesia" que hacía que Claude perdiera su razonamiento después de sesiones inactivas, haciéndolo sentir olvidadizo y repetitivo. La compañía también se comprometió a restaurar el 'esfuerzo de razonamiento' predeterminado de 'medium' a 'high' para Claude Code, priorizando la capacidad sobre la velocidad bruta, y prometió mejoras continuas en el rendimiento y la estabilidad.

Recuperar la confianza de una comunidad de desarrolladores que depende de la precisión exige más que solo corregir errores. Anthropic debe implementar protocolos de pruebas previas al despliegue más robustos, abordando la "locura" falta de pruebas destacada por el video de Better Stack. Esto probablemente implica pruebas A/B internas rigurosas, despliegues canary para cambios críticos y un ciclo de retroalimentación interno dedicado para desarrolladores para detectar regresiones antes del lanzamiento público.

Más allá de los procesos internos, Anthropic necesita reconstruir su reputación externa de fiabilidad. Esto requiere una mayor transparencia a través de registros de cambios detallados y hojas de ruta públicas para Claude Code. El compromiso directo con la comunidad de desarrolladores a través de foros dedicados, sesiones informativas técnicas o programas beta abiertos será crucial para fomentar una confianza renovada y demostrar un enfoque proactivo en la garantía de calidad.

En última instancia, el incidente de Claude subraya un cambio fundamental en el panorama de la IA. Los desarrolladores ya no ven a los asistentes de codificación de IA como novedades experimentales; estas herramientas son ahora componentes indispensables de su flujo de trabajo diario, exigiendo una fiabilidad y consistencia inquebrantables. El éxito futuro de los proveedores de LLM depende de su capacidad para ofrecer un rendimiento predecible y de alta calidad, fomentando una profunda sensación de confianza con su base de usuarios.

Preguntas frecuentes

¿Por qué empeoró el rendimiento de codificación de Claude?

Anthropic confirmó tres razones: redujeron el 'esfuerzo de razonamiento' predeterminado para disminuir la latencia, un error hizo que 'olvidara' las conversaciones después de períodos de inactividad, y un cambio en el 'system prompt' diseñado para ser menos verboso impactó negativamente la calidad del código.

¿El modelo central de Claude era realmente más tonto?

No. Según Anthropic, el modelo central de Claude en sí mismo no se degradó. Los problemas eran específicos del 'harness' de 'Claude Code', que es el sistema y los 'prompts' que envuelven el modelo para tareas de programación.

¿Qué cambios hizo Anthropic para arreglar 'Claude Code'?

Anthropic ha revertido el cambio en el 'system prompt' que perjudicó la calidad del código y ha corregido el error que causaba la pérdida de memoria. También están trabajando en equilibrar la latencia y el rendimiento para la configuración del 'esfuerzo de razonamiento'.

¿Qué es un 'AI harness'?

Un 'AI harness' se refiere al conjunto específico de configuraciones, 'system prompts' e instrucciones que se utilizan para adaptar un modelo base general para una tarea específica, como la codificación. Es la capa de aplicación sobre el modelo central.

𝕏 in ↑↗

Preguntas frecuentes

¿Por qué empeoró el rendimiento de codificación de Claude?

¿El modelo central de Claude era realmente más tonto?

¿Qué cambios hizo Anthropic para arreglar 'Claude Code'?

¿Qué es un 'AI harness'?

Anthropic Admite que Rompió Claude

Resumen / Puntos clave

La Campaña de Susurros se Convierte en un Rugido

La Confesión Sin Precedentes de Anthropic

Error #1: Sacrificar la inteligencia por la velocidad

Error #2: El error de amnesia

Error #3: El prompt que salió mal

No es el Modelo, es el Harness

La comunidad reacciona: 'Una locura' que no lo probaran

El mundo de alto riesgo del despliegue de LLM

Lecciones del tropiezo de Anthropic

El camino de Claude hacia la redención

Preguntas frecuentes

¿Por qué empeoró el rendimiento de codificación de Claude?

¿El modelo central de Claude era realmente más tonto?

¿Qué cambios hizo Anthropic para arreglar 'Claude Code'?

¿Qué es un 'AI harness'?

Preguntas frecuentes

Leer a continuación

La Revolución Silenciosa de la IA de Google

Esta habilidad de IA reduce drásticamente los costos de API en un 65%

El Pecado Imperdonable de GitHub

Mantente a la vanguardia de la IA