Resumen / Puntos clave
El Mundo de la IA Contiene la Respiración
Matthew Berman, un destacado experto en IA y fundador de Forward Future, no se anduvo con rodeos. Su video de YouTube, "Seeing if Opus 4.7 sucks [LIVE]", estableció de inmediato un tono provocador, desafiando la narrativa predeterminada de progreso en inteligencia artificial. Este enfoque directo y sin reservas capturó la atención de una comunidad que ya rebosaba de anticipación por el último modelo insignia de Anthropic, Claude Opus 4.7. El título de Berman por sí solo señalaba una inmersión crítica profunda, yendo más allá del bombo publicitario para examinar el rendimiento en el mundo real, haciéndose eco del sentimiento de sus recursos como "The Subtle Art of Not Being Replaced" y "Humanity's Last Prompt Engineering Guide."
Anthropic posicionó a Claude Opus 4.7 como su modelo Opus más capaz hasta la fecha, una potencia de razonamiento híbrido que presenta una impresionante ventana de contexto de 1M. Lanzado el 16 de abril de 2026, este modelo llegó con grandes expectativas. La industria buscaba un salto definitivo en las capacidades de IA, particularmente en áreas como: - Codificación agéntica - Procesamiento de visión avanzado - Razonamiento complejo de múltiples pasos
La comunidad de IA, que abarca desde desarrolladores individuales hasta grandes usuarios empresariales, esperaba ansiosamente Opus 4.7. Su amplia disponibilidad en las principales plataformas prometía una integración generalizada: - Usuarios de Claude Pro, Max, Team y Enterprise - Desarrolladores a través de la API de la Plataforma Claude - Integraciones en Amazon Bedrock, Vertex AI de Google Cloud y Microsoft Foundry - Implementándose en GitHub Copilot
Los desarrolladores esperaban una herramienta robusta para abordar proyectos más ambiciosos, mientras que las empresas buscaban ganancias de eficiencia y soluciones innovadoras, justificando el precio base del modelo de $5 por millón de tokens de entrada y $25 por millón de tokens de salida. Sin embargo, un tokenizador actualizado podría aumentar el costo real hasta en un 35% para la misma entrada, añadiendo otra capa de escrutinio.
Debajo de la superficie de las afirmaciones oficiales y la emoción inicial, una pregunta crítica burbujeaba: ¿Opus 4.7 cumplió su promesa, o Anthropic tropezó? A pesar de las mejoras promocionadas, los rumores y los análisis de expertos, incluido el de Berman, sugirieron posibles regresiones. Los informes indicaron una disminución significativa en el rendimiento de recuperación de contexto largo, con el MRCR benchmark supuestamente cayendo del 78.3% en Opus 4.6. La comunidad se preparó para una respuesta: ¿fue esto un salto innovador para Anthropic, o un error significativo que podría redefinir las expectativas para los modelos de IA de frontera?
Lo que Anthropic Prometió: Una Nueva Frontera
Anthropic presentó oficialmente Claude Opus 4.7 el 16 de abril de 2026, posicionándolo como su modelo más capaz y ambicioso hasta la fecha. La compañía presentó esta nueva iteración como un avance significativo, construido sobre tres pilares fundamentales: codificación agéntica mejorada, capacidades de visión avanzadas y razonamiento robusto de grado empresarial. Este lanzamiento tenía como objetivo redefinir los límites de lo que la IA autónoma podía lograr, estableciendo un listón alto para sus expectativas de rendimiento.
Las afirmaciones de Anthropic para Opus 4.7 fueron particularmente audaces, centrándose en su capacidad para abordar desafíos sofisticados y de varios pasos. Afirmaron que el modelo podía construir software complejo de forma autónoma a partir de instrucciones de alto nivel, un paso significativo hacia agentes de IA más independientes. Además, su visión avanzada permitía el análisis de documentos de alta resolución y datos visuales intrincados, facilitando una comprensión más profunda y la extracción de conocimientos de diversos formatos. La ventana de contexto de 1M del modelo sustentaba estas capacidades, permitiéndole procesar y razonar sobre vastas cantidades de información.
La amplia disponibilidad marcó otro movimiento estratégico para Anthropic. Opus 4.7 se volvió generalmente accesible para una amplia gama de usuarios, incluidos los suscriptores de Claude Pro, Max, Team y Enterprise. Para desarrolladores y grandes organizaciones, Anthropic aseguró una integración perfecta a través de múltiples plataformas: - The Claude Platform API - Amazon Bedrock - Google Cloud's Vertex AI - Microsoft Foundry Esta estrategia de despliegue generalizado subrayó la intención de Anthropic de integrar Opus 4.7 profundamente en el ecosistema de IA existente, convirtiéndolo en una herramienta ubicua para el desarrollo y la implementación. Su lanzamiento en GitHub Copilot solidificó aún más su presencia en el flujo de trabajo del desarrollador.
El lenguaje de marketing de Anthropic para Opus 4.7 fue inequívocamente asertivo, posicionando el modelo directamente contra los principales competidores en el espacio LLM. La compañía destacó el rendimiento superior de Opus 4.7 en tareas complejas y multimodales y su denominación de "enterprise-grade", lo que indica su idoneidad para aplicaciones comerciales críticas que requieren alta fiabilidad y precisión. Este mensaje estratégico tenía como objetivo capturar el mercado empresarial de alto valor, enfatizando la capacidad del modelo para la resolución intrincada de problemas y una implementación robusta.
La estructura de precios para Opus 4.7 reflejó su posicionamiento premium. Anthropic estableció el costo base en $5 por millón de tokens de entrada y $25 por millón de tokens de salida. Sin embargo, un detalle crucial a menudo pasado por alto fue el impacto de un tokenizer actualizado, que podría aumentar el costo efectivo hasta en un 35% para procesar el mismo volumen de entrada. Esta consideración de costos se convirtió en un factor crítico para las organizaciones que planifican implementaciones a gran escala, añadiendo otra capa a la propuesta de valor general del modelo.
El elefante en la habitación: Fallo de contexto
Opus 4.7 de Anthropic enfrenta su regresión más alarmante en la recuperación de contexto largo, una capacidad fundamental para cualquier IA avanzada. Los puntos de referencia revelan una caída catastrófica en el Mean Reciprocal Rank (MRCR), desplomándose del 78.3% en el anterior Opus 4.6 a un pésimo 32.2%. Esto no es una caída menor en el rendimiento; representa una degradación severa en la capacidad del modelo para procesar y recordar con precisión información de entradas extensas y de varias páginas.
MRCR sirve como una métrica crítica, cuantificando la eficacia con la que un modelo de IA puede localizar una "aguja" específica de información dentro de un vasto "pajar" de texto. Un MRCR más alto indica que el modelo identifica la respuesta correcta rápidamente, a menudo entre sus principales sugerencias iniciales, lo que significa una comprensión contextual robusta. La caída precipitada al 32.2% significa que Opus 4.7 ahora frecuentemente no logra identificar detalles cruciales o los entierra tan profundamente dentro de su salida que se vuelven prácticamente inaccesibles. Esto compromete severamente la utilidad de su amplia ventana de contexto de 1M, haciéndolo poco confiable para el análisis de documentos complejos.
Este profundo fallo en escenarios de aguja en un pajar socava muchas de las aplicaciones de nivel empresarial que Anthropic promocionó. Considere las implicaciones prácticas para los profesionales que dependen de información precisa y oportuna de grandes conjuntos de datos: - Investigadores que intentan sintetizar hallazgos de extensa literatura científica, precedentes legales o archivos históricos. No pueden confiar en el modelo para identificar hechos críticos o contraargumentos. - Desarrolladores que navegan por bases de código extensas, depuran sistemas complejos o interpretan una vasta documentación de API. El modelo podría pasar por alto una definición de función crucial o un mensaje de error oscuro. - Analistas financieros y de mercado que necesitan extraer puntos de datos precisos, tendencias o cláusulas regulatorias de informes completos que abarcan cientos de páginas. Pasar por alto una sola cifra podría llevar a errores significativos.
Para estos usuarios, la incapacidad de Opus 4.7 para recordar hechos específicos de manera fiable lo hace significativamente menos útil, incluso contraproducente. El modelo efectivamente "olvida" o pasa por alto información crítica incrustada dentro del mismo contexto que se supone que debe entender, convirtiendo su gran ventana de contexto en un pasivo en lugar de un activo.
Anthropic promocionó Opus 4.7 como un modelo superior, presumiendo de avances en codificación agéntica, visión avanzada y razonamiento sofisticado de nivel empresarial. Por lo tanto, la drástica degradación de una capacidad tan fundamental plantea preguntas inmediatas y serias sobre su desarrollo y pruebas. ¿Cómo podría un modelo supuestamente más capaz exhibir un retroceso tan severo y contraintuitivo en una función central, especialmente una tan vital para sus fortalezas anunciadas? Este flagrante descuido contradice directamente la narrativa de progreso y proyecta una larga sombra sobre la fiabilidad general del modelo. Para más detalles sobre las características anunciadas del modelo, consulte el lanzamiento oficial de Anthropic: Introducing Claude Opus 4.7 - Anthropic.
El Costo Que No Viste Venir
Opus 4.7 de Anthropic llegó con un impacto financiero no anunciado, inmediatamente evidente para los desarrolladores que monitorean su uso de API. Un nuevo tokenizador más verboso infla significativamente los recuentos de tokens para el mismo texto de entrada, aumentando efectivamente los costos reales hasta en un 35%. Si bien las tarifas publicadas siguen siendo de $5 por millón de tokens de entrada y $25 por millón de tokens de salida, este cambio entre bastidores significa que los desarrolladores pagan considerablemente más por el mismo esfuerzo computacional, creando un recargo oculto en cada interacción.
Exacerbando aún más esta opacidad financiera, Anthropic eliminó inexplicablemente la transparencia en torno a los thinking tokens. Las iteraciones anteriores de Opus proporcionaban una visión crucial de los pasos de procesamiento internos, permitiendo a los desarrolladores anticipar y gestionar el consumo de API con mayor precisión. Esta repentina falta de visibilidad ahora obliga a los ingenieros a operar a ciegas, dificultando su capacidad para pronosticar gastos con precisión y optimizar estrategias complejas de ingeniería de prompts.
Este nuevo paradigma de costos cambia fundamentalmente la posición competitiva de Opus 4.7 frente a su predecesor, Opus 4.6, y a los modelos rivales. Opus 4.6 ofrecía un modelo de costos más predecible, crucial para implementaciones empresariales conscientes del presupuesto. Ahora, el modelo insignia de Anthropic presenta una propuesta menos transparente y potencialmente mucho más cara en comparación con las ofertas de OpenAI o Google, donde los desarrolladores a menudo encuentran estructuras de precios más claras para capacidades comparables.
La pregunta crítica sigue siendo: ¿justifican verdaderamente las cacareadas mejoras de rendimiento de Opus 4.7 este gasto mayor y menos predecible? Anthropic destaca los avances en agentic coding, advanced vision y enterprise-grade reasoning como puntos de venta clave. Sin embargo, estas mejoras deben ahora sopesarse con un precio efectivo más alto y la alarmante regresión del modelo en long-context retrieval, como lo demuestra el MRCR benchmark. Para muchos desarrolladores, la propuesta de valor se ha vuelto considerablemente más turbia, exigiendo una cuidadosa reevaluación de su estrategia de inversión en IA.
'Adaptive Thinking': ¿Una Característica o un Defecto?
Anthropic eliminó de forma controvertida el interruptor Extended Thinking, una característica crucial que anteriormente otorgaba a los usuarios un control granular sobre la profundidad de razonamiento de Claude Opus. Este mecanismo controlado por el usuario permitía a los profesionales guiar explícitamente el modelo a través de la resolución de problemas complejos, asegurando la exhaustividad para aplicaciones de alto riesgo. Su desaparición marca un cambio significativo en cómo los usuarios interactúan con los procesos cognitivos del modelo.
Reemplazando este control explícito está Adaptive Thinking, una característica autónoma que opera sin la entrada del usuario ni transparencia. Anthropic ofrece poca claridad sobre cómo funciona este nuevo sistema, cuándo se activa o qué parámetros considera. Los usuarios ahora se enfrentan a una caja negra, incapaces de influir o incluso comprender las fases deliberativas internas del modelo.
Para tareas complejas y de varios pasos —como agentic coding o enterprise-grade reasoning—, la capacidad de dirigir el proceso de pensamiento del modelo resulta indispensable. Perder este control de usuario directo se siente como una degradación sustancial, socavando la previsibilidad y fiabilidad esenciales para flujos de trabajo críticos. Este cambio obliga a los usuarios a ceder la agencia a un sistema opaco y automatizado.
Los comentarios de los usuarios destacaron inmediatamente una frustración generalizada por la pérdida de una herramienta valiosa. Muchos profesionales confiaban en el interruptor 'Extended Thinking' para evitar respuestas superficiales y asegurar un análisis exhaustivo. La transición a un sistema 'Adaptive Thinking' incontrolable ha dejado a muchos sintiéndose desempoderados, cuestionando el compromiso de Anthropic con la agencia del usuario en interacciones avanzadas de IA.
Análisis en Vivo de Matthew Berman
La transmisión en vivo de Matthew Berman, titulada provocativamente "Seeing if Opus 4.7 sucks" (Ver si Opus 4.7 apesta), ofreció una evaluación cruda y del mundo real del último modelo insignia de Anthropic. Como voz influyente para los prompt engineers y constructores de IA, el análisis de Berman rápidamente reveló discrepancias críticas entre las promesas de Anthropic y el rendimiento real de Opus 4.7. Sus rigurosas pruebas proporcionaron evidencia tangible de las regresiones del modelo.
Las demostraciones en vivo de Berman expusieron repetidamente las dificultades de Opus 4.7 con el long-context retrieval, haciendo eco de la alarmante caída en el MRCR benchmark. Presentó prompts específicos donde el modelo o bien alucinaba o fallaba completamente en recordar información de etapas anteriores de la conversación, una tarea que su predecesor, Opus 4.6, manejaba con mucha mayor fiabilidad. Esto socavó directamente las afirmaciones de "enterprise-grade reasoning" para operaciones complejas y de varios pasos.
Su opinión experta destacó la disminuida utilidad práctica de Opus 4.7 para su audiencia. Berman, cuyos recursos incluyen "Download The Subtle Art of Not Giving a F*ck of Not Giving a F*ck" y "Download Humanity's Last Prompt Engineering Guide", enfatizó que el manejo impredecible del contexto hace que el modelo no sea fiable para el desarrollo profesional de IA. Señaló que, si bien Anthropic promocionó mejoras en agentic coding y advanced vision, estas características se vuelven en gran medida irrelevantes si el modelo no puede mantener una comprensión coherente durante interacciones extendidas.
Los hallazgos de Berman resuenan profundamente con el sentimiento generalizado de los usuarios en línea. Numerosos informes de la comunidad de desarrolladores corroboran sus observaciones sobre un rendimiento inconsistente y una degradación notable en las capacidades principales. Esta insatisfacción generalizada se intensifica dadas las ocultas subidas de costes; el nuevo tokenizer infla efectivamente los gastos reales hasta en un 35% para entradas idénticas, lo que agrava la frustración por la eficacia reducida.
La eliminación del interruptor 'Extended Thinking' controlado por el usuario exacerbó aún más las preocupaciones de Berman, sugiriendo una falta de transparencia y autonomía del usuario. Su desmantelamiento en vivo sirvió como una auditoría pública crucial, solidificando la narrativa de que Opus 4.7, a pesar de sus afirmaciones oficiales, representa un paso atrás significativo para muchas aplicaciones críticas. Para más detalles sobre los anuncios oficiales de Anthropic y cómo acceder al modelo, los lectores pueden consultar recursos como Anthropic releases Claude Opus 4.7: How to try it, benchmarks, safety | Mashable.
Cuando el buen código se vuelve malo
Rápidamente surgieron informes que detallaban el excesivamente cauteloso Claude Code de Opus 4.7, que frecuentemente marcaba fragmentos benignos como dañinos. Esta postura de seguridad agresiva generó inmediatamente preocupaciones entre los desarrolladores que confiaban en la promesa de Anthropic de una codificación agentic avanzada. La hipervigilancia del modelo resultó ser más un obstáculo que una ayuda.
Los desarrolladores compartieron numerosos casos de código simple e inofensivo que activaba alertas. Funciones básicas de Python para el manejo de archivos, scripts de utilidad comunes o incluso importaciones de bibliotecas estándar a veces recibían advertencias de "malware" o "riesgo de seguridad", a pesar de ser perfectamente seguros. Esto creó una experiencia de usuario frustrante e ineficiente.
Esta corriente constante de falsos positivos erosiona gravemente la confianza de los desarrolladores en Opus 4.7 como asistente de codificación fiable. Cada señalización incorrecta exige una revisión manual y una anulación, interrumpiendo los flujos de trabajo eficientes y anulando las mismas ganancias de productividad que se supone que ofrecen las herramientas de codificación de IA. Los ingenieros no pueden delegar tareas con confianza a una IA excesivamente sospechosa.
Para los usuarios empresariales, donde la integridad y seguridad del código son primordiales, esta falta de fiabilidad presenta una barrera significativa. Integrar un modelo que con frecuencia identifica erróneamente código inofensivo introduce una fricción inaceptable y posibles retrasos en los ciclos de desarrollo críticos. El coste de las falsas alarmas supera rápidamente cualquier beneficio percibido.
Expertos de la industria especulan que la hipersensibilidad de Opus 4.7 se debe a actualizaciones agresivas de sus protocolos de alineación de seguridad. Anthropic podría haber endurecido significativamente las barreras para prevenir cualquier posible mal uso o generación de código dañino, creando inadvertidamente un sistema propenso a una precaución excesiva. Esta compensación priorizó la seguridad por encima de la utilidad práctica.
Equilibrar una seguridad robusta con la utilidad práctica sigue siendo un desafío crítico para todos los desarrolladores de modelos de lenguaje grandes. Los problemas de codificación de Opus 4.7 resaltan la delgada línea entre prevenir salidas verdaderamente dañinas y sofocar el desarrollo legítimo con un enfoque excesivamente restrictivo y cauteloso. La implementación actual se inclina demasiado hacia lo último.
El desmantelamiento en vivo de Matthew Berman probablemente observó estas importantes dificultades de codificación, añadiendo otra capa a su provocadora evaluación de que "apesta". La incapacidad del modelo para discernir con precisión el código seguro del inseguro disminuye su valor, particularmente para sus aclamadas características de codificación agentic, que requieren confianza y precisión.
Evaluación comparativa contra fantasmas
La táctica persistente de Anthropic de comparar Opus 4.7 con su modelo inédito 'Mythos' frustra cada vez más a la comunidad de IA. Este competidor hipotético, perpetuamente en el horizonte, sirve más como un fantasma de marketing que como un referente tangible, dejando a usuarios y desarrolladores cuestionando la relevancia de tales comparaciones. La estrategia parece menos una demostración de la destreza actual y más una distracción deliberada de los desafíos de rendimiento inmediatos y observados de Opus 4.7.
En lugar de demostrar las capacidades de Opus 4.7 frente a rivales reales y formidables como GPT-5.4 o Gemini 1.5 Pro, Anthropic señala continuamente un ideal futuro y no verificado. Esta práctica elude evaluaciones cruciales del mundo real, lo que hace extremadamente difícil para empresas y desarrolladores evaluar con precisión la verdadera posición competitiva de Opus 4.7. Las comparaciones objetivas con los líderes del mercado disponibles se vuelven prácticamente imposibles sin datos oficiales y transparentes.
Este enfoque de marketing erosiona activamente la confianza. La comparación con un modelo fantasma sugiere una falta de voluntad para enfrentar la competencia actual directamente o, quizás, una admisión implícita de que Opus 4.7 tiene dificultades en comparaciones directas y objetivas. Tales tácticas obligan a los posibles adoptantes a especular sobre el verdadero valor del modelo, en lugar de confiar en métricas de rendimiento verificables y directas, cruciales para integraciones de IA de alto riesgo.
La industria exige más transparencia y rendición de cuentas. Anthropic debe girar para comparar abiertamente Opus 4.7 con los líderes del mercado existentes, proporcionando datos concretos y comparables que informen genuinamente las decisiones de compra y desarrollo. Superar el espejismo de 'Mythos' es fundamental para reconstruir la confianza de la comunidad y fomentar un entorno de innovación honesta y competitiva, donde los modelos se juzgan por lo que ofrecen hoy, no por lo que prometen mañana.
El veredicto: ¿Es Opus 4.7 un paso atrás?
Opus 4.7 de Anthropic presenta una marcada dicotomía: avances publicitados frente a regresiones documentadas. Si bien Anthropic promocionó avances significativos en codificación agéntica, visión avanzada y razonamiento de nivel empresarial, el modelo también introdujo contratiempos críticos que desafían su utilidad general. Esto no es una simple actualización; es una compleja repriorización de capacidades.
¿Opus 4.7 "apesta"? No del todo, pero ciertamente decepciona en áreas cruciales. La caída catastrófica en el rendimiento de recuperación de contexto largo, evidenciada por la disminución del MRCR benchmark del 78.3% en Opus 4.6, representa una regresión severa para muchos usuarios. Además, el impacto del nuevo tokenizador, que aumenta los costos efectivos hasta en un 35%, añade una carga financiera inesperada.
La eliminación del interruptor 'Extended Thinking' controlado por el usuario y los informes de que Claude Code es excesivamente cauteloso con los falsos positivos complican aún más el panorama. El análisis en vivo de Matthew Berman y los comentarios de la comunidad resaltan consistentemente estos problemas, pintando un retrato de una actualización con importantes compensaciones.
Las recomendaciones para los usuarios son matizadas: - Actualizar: Los desarrolladores o empresas que priorizan las nuevas capacidades de codificación agéntica y visión avanzada, donde Opus 4.7 muestra ganancias demostrables, deberían considerarlo. - Esperar: Los usuarios que dependen en gran medida de la recuperación de contexto largo o aquellos sensibles a los mayores costos efectivos deberían abstenerse. - Evitar: Si su flujo de trabajo depende de la función 'Extended Thinking' o si sus aplicaciones se ven críticamente afectadas por la cautela reportada de Claude Code, Opus 4.7 podría ser una regresión.
El progreso en la AI rara vez es lineal. Opus 4.7 subraya esta realidad, demostrando que las nuevas características pueden llegar junto con regresiones significativas y, a veces, inexplicables. Si bien Opus 4.7 está generalmente disponible en varias plataformas, incluyendo Claude Opus 4.7 on Vertex AI | Google Cloud Blog, los usuarios deben evaluar cuidadosamente sus fortalezas específicas frente a sus considerables debilidades antes de la implementación. La continua evaluación comparativa de Anthropic contra su modelo 'Mythos' no lanzado solo aumenta la fatiga y la incertidumbre de la comunidad con respecto al verdadero estado de sus ofertas actuales.
Anthropic en una Encrucijada
Anthropic navega por un panorama de AI hipercompetitivo, donde rivales como OpenAI y Google impulsan ciclos de lanzamiento agresivos. Este entorno intenso amplifica cada paso en falso, ejerciendo una inmensa presión sobre la compañía para innovar mientras mantiene la fiabilidad y la confianza del usuario, un equilibrio delicado que Opus 4.7 demostrablemente no logró alcanzar, arriesgando su posición en el mercado ferozmente disputado.
Las ganancias prometidas en codificación agentic y visión avanzada llegaron junto con regresiones alarmantes que afectaron la funcionalidad central. La caída catastrófica en el MRCR benchmark para la recuperación de contexto largo contradijo directamente la narrativa de avance. Además, un nuevo tokenizer aumentó efectivamente los costos operativos hasta en un 35% para la misma entrada, creando una carga financiera oculta para los usuarios empresariales y desarrolladores.
La eliminación del interruptor "Extended Thinking" controlado por el usuario, reemplazándolo con la característica opaca "Adaptive Thinking", erosionó aún más la confianza del usuario. Este cambio limitó el control granular y contribuyó a los informes de que Claude Code en Opus 4.7 era excesivamente cauteloso y propenso a falsos positivos. La fatiga de la comunidad con la evaluación comparativa constante de Anthropic contra su modelo "Mythos" no lanzado también destaca una creciente demanda de transparencia sobre las comparaciones aspiracionales.
Para recuperar la confianza, Anthropic debe priorizar la estabilidad y la transparencia. Abordar las regresiones centrales, particularmente el fallo de contexto y los aumentos de costos ocultos, es primordial. Restablecer el control del usuario sobre el comportamiento del modelo y proporcionar hojas de ruta claras y accionables, en lugar de puntos de referencia vagos, señalaría un compromiso renovado con su base de usuarios. Las futuras versiones deben demostrar mejoras tangibles en escenarios del mundo real.
Este episodio sirve como una dura lección para toda la industria de la AI. El bombo publicitario y los puntos de referencia internos significan poco cuando el rendimiento demostrable y consistente en el mundo real falla. La transparencia en el desarrollo, la comunicación honesta sobre las limitaciones y un enfoque implacable en la fiabilidad deben preceder a las grandes afirmaciones sobre futuras capacidades. El provocador título de Matthew Berman, "Seeing if Opus 4.7 sucks", desafortunadamente resultó ser premonitorio, subrayando la urgente demanda de la comunidad por la verdad sin adornos.
Preguntas Frecuentes
¿Cuáles son las principales nuevas características de Claude Opus 4.7?
Anthropic afirma que Opus 4.7 ha mejorado el rendimiento en codificación agentic, capacidades de visión sustancialmente mejores para analizar documentos complejos y un razonamiento mejorado para tareas profesionales como el análisis financiero.
¿Cuáles son las mayores críticas a Opus 4.7?
Las principales críticas incluyen una caída severa en el rendimiento de recuperación de contexto largo, un nuevo tokenizer que aumenta los costos hasta en un 35%, la eliminación de controles de usuario como 'Extended Thinking' y un intérprete de código excesivamente sensible.
¿Debería actualizar a Claude Opus 4.7?
Depende de tu caso de uso. Si necesitas visión de vanguardia o codificación agéntica, podría valer la pena probarlo. Sin embargo, si dependes de la recuperación de contexto largo o de costos predecibles, quizás quieras quedarte con una versión anterior o un competidor por ahora.
¿Quién es Matthew Berman?
Matthew Berman es un experto en IA y creador detrás de la marca 'Forward Future'. Es conocido por ofrecer reseñas críticas y sin exageraciones, y guías prácticas sobre nuevas herramientas y modelos de IA.