TL;DR / Key Takeaways
La Arena de IA Acaba de Explosionar
El Gemini 3 Pro de Google apenas tuvo tiempo de disfrutar su coronación antes de que un nuevo competidor se subiera al escenario. Tras solo unos días dominando los hilos de Twitter de IA y las tablas de referencia, Anthropic lanzó Opus 4.5, obligando instantáneamente a reescribir la narrativa de “¿quién está en la cima?”.
Gemini 3 Pro estableció una barra brutal. Sorprendió a los desarrolladores con un rendimiento de codificación excepcional, generó gráficos sorprendentes a través de Nanaban Pro y obtuvo una puntuación del 76.2% en SWE-Verified, uno de los benchmarks de codificación más respetados. Por un breve momento, parecía que Google había asegurado la corona en razonamiento, comprensión multimodal y generación de código.
Opus 4.5 llega presentado como una “modesta” actualización, pero a este nivel, lo modesto parece monumental. En SWE-Verified, Opus 4.5 salta al 80.9%, un amplio margen sobre el 76.2% de Gemini 3 Pro en una evaluación donde cada punto porcentual es doloroso de alcanzar. En la evaluación de uso de computadoras de OS World, Opus 4.5 alcanza el 66.3% frente al 62.9% de Claude Sonnet 4.5, estableciendo un nuevo récord para modelos lanzados en la capacidad de gestionar un entorno de escritorio.
Los puntos de referencia ahora parecen más una tarjeta de puntuación de boxeo que un simple tablero de clasificación. Opus 4.5 supera a Gemini 3 Pro en codificación terminal agentiva y uso de herramientas, aunque queda ligeramente rezagado en algunos exámenes "clásicos" como GPQA y MMU, donde Gemini y las últimas líneas GPT de OpenAI todavía intercambian golpes. Incluso en simulaciones de "dirigir un negocio durante 350 días" como Vending Bench 2, Gemini 3 Pro mantiene una estrecha ventaja, con un beneficio simulado de poco menos de $5,500 frente a poco menos de $5,000 para Opus 4.5.
Este artículo trata sobre Opus 4.5 y Gemini 3 Pro en una comparación directa en términos de codificación, razonamiento, uso de computadora, trabajo multimodal y eficiencia de costos para ver cuál modelo representa realmente el estado del arte a finales de 2025. Anthropic, Google y OpenAI ahora iteran tan rápido que el "rey de la colina" dura aproximadamente lo que una presentación de producto. Para los usuarios, esa carrera armamentista se traduce directamente en tokens más baratos, agentes más inteligentes y modelos que no solo pueden escribir tu aplicación, sino también instalarla, probarla y ejecutar tus hojas de cálculo en silencio mientras duermes.
Un nuevo sheriff en el mundo del código
Una nueva tabla de clasificación se actualizó silenciosamente esta semana en SWE-verified, uno de los pocos estándares de codificación que realmente intenta medir la ingeniería de software real en lugar de acertijos simplones. Opus 4.5 obtiene una puntuación de 80.9, superando el 76.2 de Gemini 3 Pro por un margen lo suficientemente grande como para que sea improbable que sea solo ruido. SWE-verified no solo verifica si el código se compila, sino si pasa pruebas completas en proyectos grandes y de múltiples archivos, por lo que una diferencia de más de cuatro puntos indica una implementación más confiable de principio a fin.
Los números se vuelven más tangibles con el clon de Minecraft de una sola toma que Anthropic está mostrando ahora. Opus 4.5 generó aproximadamente 3,500 líneas de código en una sola pasada, conectando la generación del mundo con múltiples biomas, elaboración básica y el bucle del juego sin que un humano tuviera que unir las salidas parciales. La generación de código a largo plazo a esa escala presiona todo lo que los modelos hacen mal: mantener las API en orden, evitar importaciones circulares y mantener estructuras de datos consistentes a lo largo de cientos de llamadas.
Anthropic también evaluó Opus 4.5 en un examén interno de ingeniería a domicilio notoriamente riguroso, el tipo de asignación de varias horas que las empresas utilizan para filtrar a candidatos senior. Según la compañía, Opus 4.5 superó a cualquier humano que haya tomado ese examen, no solo en precisión, sino también en velocidad y calidad arquitectónica. Ese resultado necesitará ser replicado externamente, pero coincide con lo que sugieren los estándares públicos de codificación.
Donde los desarrolladores sentirán más el cambio es en la Programación Terminal Agente. En Terminal-Bench, que mide el trabajo autónomo en la línea de comandos, Opus 4.5 alcanza 59.3 frente al 54.2 de Gemini 3 Pro, una ventaja considerable cuando se permite a una IA ejecutar comandos de shell en sistemas reales. La Programación Terminal Agente significa que el modelo planifica una secuencia de comandos, los ejecuta, inspecciona errores y se recupera sin necesidad de un cuidador.
Para los desarrolladores, esto se traduce en una automatización más segura de tareas que solían ser manuales: configurar y poner en marcha entornos de desarrollo, ejecutar y corregir migraciones, seguir registros para rastrear regresiones, o programar tareas y scripts de CI. Combinado con su liderazgo en sistemas operativos en el uso general de computadoras, Opus 4.5 comienza a parecer menos una herramienta de autocompletado de código y más como un ingeniero junior que vive dentro de tu terminal.
La Batalla por la Inteligencia Bruta
Las métricas de inteligencia cruda muestran una competencia más ajustada de lo que sugieren los puntajes de codificación. En ARC-AGI-2, Anthropic dice que Opus 4.5 alcanza aproximadamente un 37-38% de precisión, más del doble de algunas líneas de base anteriores y superando a Gemini 3 Pro por alrededor de 6 puntos porcentuales con “presupuestos de pensamiento” similares. Ese resultado, destacado en el propio Anuncio Oficial de Claude Opus 4.5 de Anthropic, ahora se considera lo último en modelos de frontera publicados cuando se trata de descubrir patrones abstractos en lugar de recordar trivialidades.
ARC-AGI-2 enfatiza el razonamiento composicional en rompecabezas extraños y sintéticos que resisten la memorización. Cuando Anthropic aumenta el contexto utilizado para el "pensamiento" interno de 0 a 64K tokens, la curva de inteligencia de Opus 4.5 asciende más rápido que la de sus rivales, ofreciendo un rendimiento destacado en los gráficos de costo versus puntuación. La variante Deep Think de Gemini, que aún no ha sido lanzada, sigue obteniendo puntuaciones brutas más altas, pero Opus 4.5 logra sus avances con mucho menos desperdicio de tokens y a un menor costo por tarea.
Los puntos de referencia de conocimientos generales y estilo de examen cuentan una historia más matizada. En los conjuntos de "último examen de la humanidad" tipo GPQA y MMU, Opus 4.5 solo está ligeramente por detrás de Gemini 3 Pro y, en algunas subpruebas, de GPT 5.1. Gemini sigue luciendo fuerte en QA académica de formato largo, comprensión lectora densa y preguntas multimodales que combinan diagramas, gráficos y texto.
El uso de la computadora es donde Opus 4.5 planta una bandera clara. En la prueba OS World, que mide el éxito de extremo a extremo en tareas reales de interfaz gráfica de usuario—instalación de aplicaciones, ajuste de configuraciones, navegación por sistemas de archivos—Opus 4.5 alcanza una tasa de éxito del 66.3%. Ese resultado supera al anterior campeón, Claude Sonnet 4.5, con un 62.9%, y establece un nuevo récord para modelos de frontera lanzados que realmente operan un escritorio, no solo hablan de él.
Ningún laboratorio posee todos los rankings. Opus 4.5 lidera en ARC-AGI-2, OS World, SWE-Verified y varias pruebas terminales y de uso de herramientas agenticas, mientras que Gemini 3 Pro o los modelos GPT aún superan en ciertos exámenes, tareas multimodales y benchmarks de agentes de negocios. Sin embargo, el patrón es claro: el aumento en la razonamiento y la competencia en el uso de computadoras de Opus 4.5 importa más que cualquier victoria individual, porque se traduce directamente en agentes que pueden pensar a largo plazo, actuar de manera más confiable y mantenerse en la tarea en flujos de trabajo desordenados del mundo real.
Dirigiendo un negocio durante 350 días
Vending Bench se ha convertido silenciosamente en una de las pruebas de estrés más reveladoras para la IA moderna: un negocio de máquinas expendedoras simulado que se desarrolla durante 300-350 días en el juego y exige planificación a largo plazo, estrategia de inventario y sentido financiero básico. En lugar de resolver acertijos estáticos, los modelos deben investigar productos, inferir la demanda de los clientes, gestionar el flujo de efectivo y mantener la máquina abastecida sin desviarse hacia el sinsentido.
En Vending Bench 2, Gemini 3 Pro sigue manteniendo la corona. Termina justo por debajo de $5,500 en ganancias, comenzando con $500 de capital inicial, después de casi un año de operaciones simuladas. Ese margen importa porque cada dólar en este punto de referencia proviene de docenas de pequeñas decisiones: qué bocadillos comprar, con qué agresividad reabastecer, cuándo cambiar de productos que no están rindiendo.
Opus 4.5 no ocupa el primer lugar aquí, pero su salto es difícil de ignorar. El modelo finaliza con alrededor de $4,967 en ganancias, casi un crecimiento de 10 veces sobre los $500 iniciales y un salto sustancial sobre el resultado de aproximadamente $3,800 de Claude Sonnet 4.5 en la misma prueba. En términos prácticos, el buque insignia de Anthropic ahora se comporta más como un operador junior cauteloso que como un pasante confundido que olvida lo que estaba haciendo en el día 120.
Estos puntos de referencia agenciales a largo plazo exponen un eje diferente de capacidad que las puntuaciones de CI destacadas o las clasificaciones de codificación. Miden si un modelo puede mantenerse en tarea durante cientos de pasos, mantener una estrategia empresarial coherente y evitar errores catastróficos como gastar todo el capital en un solo pedido malo. A medida que los modelos escalan, los números de Vending Bench aumentan, lo que sugiere que el conteo bruto de parámetros y una mejor capacitación se traducen directamente en una toma de decisiones más estable y menos descontrolada a lo largo del tiempo.
Alpha Arena lleva la misma idea a un dominio más duro: el trading cripto en vivo. La temporada 2 presenta a Gemini 3 Pro y Claude Sonnet 4.5 entre los concursantes, pero Opus 4.5 está notablemente ausente de la lista oficial. Un “modelo misterioso” de alto rendimiento que actualmente ocupa el segundo lugar, justo detrás de GPT 5.1, ya ha generado especulaciones de que Anthropic está evaluando en silencio el apetito de riesgo de Opus 4.5 antes de incluir su nombre en la lista de líderes.
El Auge del Orquestador de IA
El surgimiento del orquestador de IA podría ser lo más importante que Anthropic ha lanzado silenciosamente con Opus 4.5. En lugar de tratar a un solo modelo gigante como el cerebro definitivo, Opus 4.5 se comporta cada vez más como un gestor que planifica, delega y revisa el trabajo realizado por modelos más pequeños y baratos, como Haiku 4.5. Ese patrón se manifiesta en tareas de largo plazo como Vending Bench, donde la coherencia sostenida durante 300-350 días simulados es más importante que cualquier respuesta individual.
Las configuraciones de múltiples agentes ahora superan consistentemente las bases de un solo agente en cargas de trabajo complejas de estilo de investigación. Dale a una instancia de Opus 4.5 un amplio encargo: revisar un campo científico, mapear competidores, redactar una especificación de producto, y puede activar subagentes de Haiku 4.5 para recopilar documentos, resumir artículos y probar ideas en paralelo. Los benchmarks que ponen a prueba flujos de trabajo prolongados y pesados en herramientas, desde Vending Bench 2 hasta el uso de computadoras estilo OS World, recompensan esa división del trabajo con mayores tasas de éxito y menos descarrilamientos.
La lógica económica impulsa esta arquitectura tanto como la capacidad bruta. Ejecutar Opus 4.5 para cada token de cada subtarea desperdicia capacidad costosa en resúmenes estandarizados y transformaciones mecánicas que Haiku 4.5 puede manejar por una fracción del costo. Un modelo de orquestador que solo “piensa intensamente” al planificar, descomponer problemas o resolver conflictos, y que por lo demás descarga la ejecución, escala más como un gerente humano coordinando un equipo que como un contratista sobrecalificado haciendo todo.
Ese patrón de gerente-equipo se Generaliza más allá de la búsqueda y la investigación. En programación, un orquestador Opus 4.5 puede diseñar el sistema, definir interfaces y luego generar agentes Haiku 4.5 para implementar módulos, escribir pruebas y ejecutar comandos de herramientas al estilo Terminal-Bench, antes de realizar la integración y revisión final. Para el trabajo creativo, un modelo de alto nivel puede esbozar una campaña, mientras que los subagentes redactan variantes de texto, crean guiones visuales y adaptan contenido a las plataformas.
El análisis empresarial puede cambiar más. Un orquestador puede dirigir a un agente para extraer datos desordenados de la web a hojas de cálculo a través de Claude para Chrome, a otro para limpiar y estructurar esos datos en Claude para Excel, y a un tercero para ejecutar escenarios y verificar las conclusiones. A medida que estos patrones de orquestación se consolidan, "usar IA" comienza a parecer menos como conversar con un único modelo y más como contratar a una firma virtual dirigida por un único director, muy capaz.
Dónde Gemini 3 Pro Sigue Reinando Supremamente
El enfoque multimodal sigue siendo el terreno de juego de Gemini 3 Pro. Aunque Opus 4.5 lo supera en codificación y razonamiento abstracto, Gemini 3 Pro aún ofrece resultados más limpios y fiables cuando el texto, las imágenes y el diseño son igualmente importantes, especialmente en flujos de trabajo de producción que combinan capturas de pantalla, gráficos y medios incrustados.
La generación de gráficos muestra la brecha más pronunciada. El Nanaband Pro de Google, incluido en Gemini 3 Pro, produce "ilustraciones y maquetas de interfaz absolutamente increíbles" que se sienten más cercanas a un modelo de imagen dedicado que a un extra añadido. Opus 4.5, en cambio, sigue comportándose como un sistema centrado en el texto que puede ver imágenes, en lugar de ser un verdadero nativo visual.
La comprensión de video es otra área en la que Gemini 3 Pro se destaca. Puede rastrear objetos y personas a lo largo de los clips, seguir los cambios de escena y responder preguntas detalladas sobre lo que sucede en momentos específicos con mayor consistencia que Opus. Para equipos que resumen reuniones, anotan material de capacitación o analizan videos de investigación de usuarios, Gemini 3 Pro sigue siendo la apuesta más segura.
Los flujos de trabajo cargados de documentos se inclinan de la misma manera. Alimenten a Gemini 3 Pro con un informe anual de 200 páginas lleno de tablas, gráficos y diagramas densos, y generalmente mantendrá la estructura, cruzará referencias y conservará el contexto visual intacto. Opus 4.5 puede analizar PDFs, pero Gemini 3 Pro tiende a cometer menos errores cuando los números están en estructuras visuales complejas.
La generación dinámica de interfaces web puede ser la ventaja más subestimada de Gemini 3 Pro. Puede leer una especificación de diseño, generar HTML/CSS/JS responsivo y iterar sobre el layout con un diseñador en el proceso, utilizando capturas de pantalla como un lenguaje compartido. Combinado con Nanaband Pro, puede prototipar flujos completos—páginas de aterrizaje, tableros, sitios de marketing—sin salir de un solo hilo de chat.
Esa mezcla de fortalezas convierte a Gemini 3 Pro en la opción predeterminada para: - Profesionales creativos que crean visuales, guiones gráficos y maquetas interactivas - Analistas de datos que trabajan en presentaciones, paneles de BI y PDFs visualmente atractivos - Desarrolladores que lanzan aplicaciones web interactivas y herramientas internas que dependen del acabado de la interfaz de usuario
Cualquiera que evalúe estas compensaciones debe comenzar con la matriz de capacidades oficial en la **Documentación Oficial de Google DeepMind Gemini**, y luego considerar el costo, la latencia y cuánto de su carga de trabajo es realmente visual primero en comparación con lo que es más pesado en texto o código.
La pregunta de mil millones de dólares: Costo vs. CI
Llámalo una curva de inteligencia o una curva de precios, pero los modelos frontera ahora viven en un gráfico con dos ejes: capacidad bruta y lo que Anthropic llama un "presupuesto de pensamiento". Si empujas más tokens a través del modelo—8K, 16K, 32K, 64K de razonamiento deliberado—el rendimiento aumenta, pero el costo crece de forma no lineal. La industria ahora optimiza no solo para obtener puntuaciones máximas, sino por cuánta inteligencia obtienes por dólar en cada uno de esos pasos.
Los propios gráficos de Anthropic representan esto en un eje de costo logarítmico. Cada movimiento hacia la derecha representa un gran salto en el gasto en computación, sin embargo, la curva “salmón” de Opus 4.5 se adhiere a la parte superior izquierda de ARC-AGI2: altas puntuaciones a un costo relativamente bajo por tarea. El no publicado Gemini 3 Deep Think de Google se eleva aún más, pero a un punto de costo mucho más pronunciado, mientras que el Gemini 3 Pro lanzado queda por detrás de Opus 4.5 en presupuestos de pensamiento comparables.
Ese posicionamiento alimenta una afirmación más audaz del CEO de Anthropic, Dario Amodei: resultados comparables a los de laboratorios rivales utilizando aproximadamente una décima parte del gasto de capital. Si es preciso, esa ventaja se acumula: experimentación más económica, más sesiones de entrenamiento y una iteración más rápida en cosas como el uso de herramientas y el comportamiento agentivo. Las puntuaciones de última generación de ARC-AGI2 y OS World de Opus 4.5 sugieren que la eficiencia se está manifestando no solo en la cuenta de resultados, sino en los benchmarks.
Para los compradores, la historia de costo-beneficio se divide según las tareas. En términos de razonamiento puro—la codificación verificada por SWE (80.9 frente a 76.2 de Gemini 3 Pro), Terminal-Bench, ARC-AGI2, tareas de agentes a largo plazo como Vending Bench—Opus 4.5 a menudo alcanza una calidad objetivo con menos tokens desperdiciados que los modos de estilo Deep Think de Gemini. Si te importan los costos unitarios en sistemas complejos de back-end, agentes o operaciones automatizadas, es probable que Opus 4.5 ofrezca un costo efectivo por tarea resuelta más bajo.
Cambia a multimodal y el cálculo cambia. La gestión de imágenes, videos y documentos de Gemini 3 Pro, además de la generación a través de herramientas como Nanaban Pro, puede comprimir flujos de trabajo enteros en una única llamada, ligeramente más cara, que reemplaza múltiples pasos solo de texto. Para cualquier cosa dominada por IO visual—maquetas de UI, activos de marketing, presentaciones, comprensión de video—Gemini 3 Pro a menudo gana en costo por entregable, incluso si Opus 4.5 sigue siendo más barato por token de "pensamiento".
Tu Escritorio, Ahora Supercargado
Los puntos de referencia solo importan si se reflejan en los productos, y Anthropic no está perdiendo tiempo. Junto con Opus 4.5, la empresa está lanzando Claude para Chrome y Claude para Excel, dos funciones que convierten eficazmente las victorias en los puntos de referencia en el uso de computadoras y la planificación a largo plazo en algo que puedes utilizar en una laptop en el trabajo.
Claude para Chrome se basa directamente en la tasa de éxito del 66.3% de Opus 4.5 en el benchmark de uso de computadora OS World, ahora el mejor entre los modelos de vanguardia lanzados. En lugar de solo resumir una página, Claude puede controlar el navegador: hacer clic a través de flujos de múltiples pasos, completar formularios, navegar por paneles de control y extraer datos de sitios mal estructurados que mezclan texto, imágenes y diseños extraños.
Eso es importante para los tipos de tareas que benchmarks como Vending Bench intentan simular. Investigar productos, comparar precios, rastrear inventario o monitorear a los competidores a través de docenas de pestañas se convierte en un trabajo delegado a un orquestador de IA que puede mantenerse coherente a lo largo de cientos de pasos, no solo en una ventana de chat que responde preguntas.
Claude para Excel se dirige a la otra mitad de la tediosa labor de oficina: números y estructura. Opus 4.5 puede procesar grandes y desordenadas hojas de cálculo, explicar qué hace cada hoja y fórmula, rastrear dependencias entre libros de trabajo y destacar anomalías que normalmente exigirían que un analista humano estuviera mirando tablas dinámicas durante horas.
Más allá de la explicación, Anthropic claramente está enfocándose en el análisis y la planificación. Claude para Excel puede tomar exportaciones en bruto, normalizar columnas, generar campos calculados, construir gráficos y luego sintetizar tendencias y recomendaciones; exactamente el tipo de flujo de trabajo de múltiples pasos y con mucho uso de herramientas en el que Opus 4.5 ya supera a Gemini 3 Pro en uso de herramientas de manera autónoma y tareas de estilo terminal.
Anthropic también está alineando el acceso con donde esto es más relevante. Claude para Chrome se está implementando para todos los usuarios de Max, mientras que Claude para Excel se está expandiendo en beta a usuarios de Max, equipos y clientes empresariales, los grupos más propensos a trabajar dentro de SaaS basados en navegador y modelos financieros extensos.
Tomados en conjunto, estos lanzamientos muestran cómo Anthropic está convirtiendo en productos fortalezas específicas: uso de computadoras de última generación, manejo sólido de hojas de cálculo y gestión de tareas coherentes y a largo plazo. Opus 4.5 no solo está obteniendo puntajes más altos en pruebas sintéticas; también está incorporando silenciosamente esas capacidades en la plataforma de software diaria que impulsa el trabajo moderno.
El Umbral de la Autonomía
La autonomía ahora tiene una definición operativa dentro de los laboratorios: R&D4. En la taxonomía de Anthropic, ese es el punto donde una IA puede “automatizar por completo el trabajo de un investigador remoto de nivel inicial” en tareas de revisión de literatura, diseño de experimentos, análisis básico y redacción, con solo una supervisión humana ligera. No se trata de una “AGI” genérica; es el momento en que una IA puede ser integrada en un espacio de trabajo de Notion y un tablero de Jira y simplemente realizar el trabajo.
Anthropic afirma explícitamente que Opus 4.5 no alcanza ese estándar. El modelo aún carece de un juicio situacional amplio, especialmente cuando los requisitos cambian a mitad del proyecto o cuando los interesados no están de acuerdo. También tiene dificultades con las partes complicadas del trabajo de investigación real: resolver instrucciones ambiguas, rechazar malas ideas y coordinarse con múltiples personas que tienen prioridades en conflicto.
La advertencia enterrada en el propio comunicado de Anthropic es más interesante que la advertencia inicial. Con “andamiaje altamente efectivo”—capas de planificación, sistemas de memoria, APIs de herramientas y controles con la intervención humana—Anthropic afirma que modelos como Opus 4.5 “no están muy lejos” de R&D4. En la práctica, eso significa marcos de orquestación que dividen el trabajo en subtareas, las dirigen a modelos más económicos como Haiku 4.5, y mantienen una agenda a largo plazo intacta a lo largo de cientos de pasos.
Los desarrolladores ya están implementando esto. Pilas agentivas que combinan Opus 4.5 con búsqueda vectorial, ejecución de código y control del navegador a través de herramientas como el Repositorio SDK de Python de Anthropic pueden ejecutar bucles de investigación de varios días: recopilar artículos, resumir métodos, generar experimentos y actualizar un cuaderno de laboratorio de manera autónoma. La limitación ya no es solo el coeficiente intelectual bruto, sino qué tan bien la estructura limita y audita esa inteligencia.
El proyecto Alpha Evolve de Google ofrece un adelanto de hacia dónde esto lleva. En informes iniciales, Google envolvió un modelo antiguo y débil en un estrecho ciclo evolutivo: generación automatizada de hipótesis, simulación, evaluación y selección, y aún así logró generar resultados científicos genuinamente novedosos. El avance no provino de un solo cerebro gigante, sino de un sistema que trató al modelo como un componente en un pipeline autónomo más grande.
Opus 4.5 más andamios robustos parece seguir el mismo patrón dirigido al trabajo de conocimiento general. Una vez que se cruza R&D4, "investigador de nivel inicial" deja de ser una descripción de trabajo y se convierte en una configuración del sistema.
Tu próximo movimiento en la carrera de armamento de la IA
Los equipos de IA ahora se enfrentan a una bifurcación sencilla en el camino: asignar cada modelo al trabajo que realmente genera o ahorra dinero. Los puntos de referencia como SWE-Verified (Opus 4.5 en 80.9 frente a Gemini 3 Pro en 76.2) y Vending Bench 2 (Gemini 3 Pro justo por debajo de $5,500 frente a Opus 4.5 justo por debajo de $5,000) ahora se traducen directamente en elecciones de producto, planes de personal y facturas de nube.
Elige Opus 4.5 para: - Codificación avanzada: refactorizaciones a largo plazo, migraciones de frameworks y depuración en múltiples repositorios donde importa la puntuación de SWE-Verified y Terminal-Bench. - Orquestación agente: un “orquestador” de Opus que delega a Claude Sonnet y Haiku 4.5 para tareas subalternas más económicas, especialmente en flujos de trabajo de uso informático al estilo OS World. - Razonamiento complejo: problemas abstractos de nivel ARC-AGI-2, investigaciones de varios días y automatización estilo “investigador principiante” de R&D4 donde los tokens de pensamiento dominan sobre el volumen de salida en bruto.
Elige Gemini 3 Pro para: - Trabajo multimodal: PDFs densos, maquetas de interfaz de usuario y paneles de control visualmente complejos donde su comprensión de imágenes y documentos aún lidera. - Generación creativa: campañas de marketing, guiones gráficos y gráficos de alta fidelidad a través de sistemas como Nanaban Pro. - Video y medios dinámicos: razonamiento temporal, análisis de escenas y proyectos mixtos de texto-imagen-video que Opus 4.5 aún no puede igualar de principio a fin.
Estrategia para profesionales: estandarizar en una pila dual. Utiliza Opus 4.5 como la base para el razonamiento y la codificación, especialmente para los agentes que funcionan durante horas o días, y dirige todo lo visual, cinematográfico o relacionado con la marca hacia Gemini 3 Pro. Envuelve ambos detrás de un enrutador de uso que considere el tipo de tarea, el tamaño del contexto y el presupuesto de latencia, y luego selecciona el modelo más económico que cumpla con tus estándares de calidad.
Lanzamientos rápidos y saltarines de Anthropic, Google y otros han borrado cualquier noción de un monopolio duradero en la IA de vanguardia. Las curvas de inteligencia ahora se actualizan en un ciclo de 60 a 90 días, no de varios años, y cada nuevo modelo vuelve a organizar qué tareas pueden ser automatizadas de manera rentable.
Dentro de seis meses, espera al menos un nivel más de autonomía: agentes que no solo ejecutan tus flujos de trabajo de "investigador de nivel inicial", sino que también diseñan, lanzan y prueban productos A/B en plataformas web, móviles y de datos, mientras tú intercambias tranquilamente el modelo del laboratorio que ocupe el nuevo lugar en la cima de la curva.