Google Titans IA: Una Nueva Era para la Memoria a Largo Plazo en Modelos de Lenguaje

💡

Resumen / Puntos clave

Google acaba de presentar una IA con memoria a largo plazo funcional que supera todos los benchmarks existentes. Esta nueva arquitectura, bajo el nombre en clave Titans, finalmente resuelve la mayor debilidad de la IA y cambia las reglas del juego para siempre.

Por qué OpenAI declaró una 'alerta roja'

El aviso de alerta roja llegó a la bandeja de entrada de OpenAI con un memorando interno de Sam Altman que circuló, según personas familiarizadas con el asunto, advirtiendo que la empresa no podía tratar el último impulso de IA de Google como solo otro ciclo de productos. El mensaje: el aumento de Gemini y el bombardeo de investigación de Google habían pasado de ser ruido de fondo a una amenaza competitiva existencial.

Dentro de OpenAI, el memorando llegó en un contexto de cifras desconcertantes. Nuevos datos de terceros muestran que los usuarios activos mensuales de Gemini están aumentando más rápido que los de ChatGPT, con Google apoyándose en la distribución de Android, Búsqueda y Chrome para impulsar el uso a través de miles de millones de dispositivos.

Google, por su parte, ha dejado de jugar a la defensiva. En solo unas pocas semanas, la compañía lanzó Titans y MIRAS para la memoria de largo contexto, preparó Nano Banana 2 Flash como un modelo de imagen más económico y probó discretamente titulares de noticias escritos por IA en los teléfonos de los usuarios, todo mientras introducía Gemini más profundamente en Workspace y Android.

Ninguno de estos movimientos actúa por separado. Juntos forman un asalto coordinado: avances en investigación que solucionan debilidades fundamentales de los Transformadores, modelos productos que socavan a los rivales en costos, y estrategias de distribución que aprovechan el control de Google sobre lo móvil y la web.

Para OpenAI, la curva de crecimiento de Gemini puede ser la señal de alarma más fuerte. ChatGPT sigue dominando el interés, pero la capacidad de Google para integrar automáticamente a los usuarios a través de integraciones predeterminadas significa que incluso un modelo ligeramente inferior puede ganar si está frente a más ojos, con mayor frecuencia.

Esa amenaza llega justo cuando Google Research comienza a minar la ventaja técnica de OpenAI. El nuevo sistema Langzeitgedächtnisächtnis de Titans afirma tener ventanas de contexto de más de 2 millones de tokens y victorias en pruebas de referencia sobre GPT‑4 y Llama‑3.1‑70B en pruebas de secuencias largas, insinuando que Google ahora puede manejar historias extensas sin desbordar los presupuestos de computación.

El memo de Altman, según informes, insta a los equipos a acelerar el trabajo en el próximo modelo de la compañía, denominado Garlic, y a repensar con qué rapidez OpenAI puede implementar agentes y sistemas de memoria propios. El temor no es solo perder usuarios, sino quedar rezagado frente a un competidor que de repente controla tanto la arquitectura más inteligente como una audiencia más amplia.

Bajo los gráficos de usuarios y los eventos de lanzamiento, se está gestando un cambio más profundo. Google no solo está creciendo más rápido; está apostando por un cambio fundamental en cómo la IA recuerda, aprende y vive dentro de los dispositivos cotidianos—y eso es lo que realmente desencadenó el Código Rojo.

La Amnesia que Afecta a Todas las IA

Ilustración: La Amnesia que Afecta a Cada IA

La inteligencia artificial moderna presume de “entender”, pero en realidad la mayoría de los modelos de lenguaje de gran tamaño viven en una especie de estado de fuga de cinco minutos. Un modelo como GPT‑4 o Gemini solo “recuerda” lo que cabe dentro de una ventana de contexto fija—un búfer deslizante de unos pocos miles hasta tal vez un millón de tokens que se comporta como una memoria a corto plazo en un bucle.

Imagina hablar con alguien que olvida todo lo que es más antiguo que la última página del historial de chats. Puedes pegar un contrato de 500 páginas o años de correos electrónicos, pero una vez que se llena esa ventana, los detalles más antiguos desaparecen, siendo reemplazados por lo que llegó último. No importa cuán inteligente sea el modelo, cualquier cosa fuera de ese contexto podría no existir.

Culpemos a la arquitectura estándar Transformer que impulsa casi todos los LLM de vanguardia. La autoatención compara cada token con cada otro token, por lo que el cálculo y la memoria aumentan aproximadamente de forma cuadrática: duplica la longitud de la secuencia y cuadruplicas el costo; si lo aumentas 10 veces, estás mirando un ~100x más de trabajo.

Pasados unos pocos cientos de miles de tokens, incluso los Transformers altamente optimizados comienzan a fallar. Los picos de latencia, el aumento del uso de memoria y la degradación de la calidad ocurren a medida que los modelos recurren a trucos como la atención dispersa o la truncación agresiva que silenciosamente eliminan partes de tu entrada. Por eso, los titulares sobre "contexto de 2 millones de tokens" a menudo ocultan facturas de hardware brutales y un comportamiento frágil en los límites.

Las ideas más antiguas como RNNs y los modernos Modelos de Espacio de Estado (SSMs), incluidas las arquitecturas al estilo Mamba, invierten la compensación. Procesan flujos en tiempo lineal al compactar la historia en un estado oculto compacto, por lo que manejan millones de tokens sin sobrecargar las GPUs.

La trampa: comprimir un libro entero, una base de código o el historial de un cliente en un pequeño vector de estado difumina los detalles. Dependencias sutiles, casos extremos raros o esa línea crítica en un archivo de registro se promedian, por lo que el modelo responde rápido pero con una especie de amnesia estadística. Ganas en escala y pierdes en precisión.

Este olvido estructural se ha convertido en el mayor freno para la verdadera personalización y un contexto profundo. Mientras los modelos no puedan llevar de manera confiable un rico Langzeitgedächtnis a través de sesiones, dispositivos y tareas, los “asistentes de IA” seguirán siendo ventanas de chat con cerebros de pez dorado, no sistemas que crecen contigo a lo largo de meses o años.

Conoce a Titans: La IA que nunca olvida.

Google llama a su nueva arquitectura Titans, y parece ser una respuesta directa al problema de la “memoria de cinco minutos” que atormenta a la IA actual. En lugar de estirar un Transformer estándar hasta que se rompa, Titans combina dos sistemas de memoria diferentes y los obliga a cooperar. El resultado: modelos que manejan ventanas de contexto superiores a 2 millones de tokens sin colapsar bajo su propio cómputo.

En el centro se encuentra una memoria a corto plazo familiar: atención autocontrolada sobre el reciente fragmento de texto. Esa ventana se mantiene nítida y precisa, por lo que el modelo puede rastrear pronombres, variables de código y matices sutiles en los últimos miles de tokens. Sin compresión con pérdida, sin resúmenes borrosos.

Junto a eso, Titans añade un módulo separado y persistente de memoria a largo plazo. Esta memoria a largo plazo no solo almacena texto sin procesar; guarda representaciones destiladas de lo que realmente importó en pasajes anteriores. Google describe tres variantes de este sistema: Memoria como Contexto, Memoria como Puertas y Memoria como Capas, cada una conectando el conocimiento almacenado al modelo de una manera diferente.

El giro revolucionario: Titans actualiza esta memoria a largo plazo durante la inferencia. Mientras chateas, codificas o le proporcionas documentos, el módulo de memoria aprende en tiempo real qué elementos son sorprendentes, útiles o raros y los escribe en su almacenamiento interno. Sin ajuste offline, sin un nuevo entrenamiento, solo un ajuste continuo a medida que avanza la sesión.

La sorpresa impulsa las decisiones correctas. Cuando el modelo se encuentra con algo que se desvía fuertemente de sus expectativas—una API de caso extremo, una regulación específica, la peculiar preferencia de un usuario—lo señala como de alto valor y lo compromete a la memoria a largo plazo. El contenido menos sorprendente y repetitivo recibe una prioridad menor y, eventualmente, se elimina de la memoria a través de un olvido inteligente en lugar de una truncación brusca.

Los puntos de referencia sugieren cuán grande podría ser este cambio. Un modelo Titans con solo 760 millones de parámetros reportedly logra más del 95% de precisión en Needle‑in‑a‑Haystack con 16,000 tokens y domina el benchmark bAbI‑Long, superando a GPT‑4, RecurrentGemma 9B, Llama 3.1 70B e incluso Llama 3 emparejado con herramientas de recuperación. Las secuencias largas dejan de ser un caso extremo patológico y comienzan a parecerse a la carga de trabajo predeterminada.

Eso convierte la IA de una enciclopedia estática y preentrenada en un socio dinámico que recuerda lo que hiciste la semana pasada. Los Titanes pueden, en principio, construir un historial de trabajo estable con un equipo, una base de código o un proyecto de investigación y refinar su comportamiento a lo largo de las sesiones. La propia redacción de Google, Titans + MIRAS: Ayudando a la IA a tener memoria a largo plazo, enmarca esto como un paso hacia modelos que aprenden más como lo hacen las personas: de manera incremental, contextual y sin reiniciar cada vez que abres un nuevo chat.

El genio está en la 'sorpresa'

La sorpresa está en el corazón del nuevo sistema de memoria de Titans. En lugar de acumular cada token a través de una ventana de contexto de más de 2 millones, el modelo asigna un puntaje de sorpresa a cada fragmento de texto, midiendo cuán lejos se desvía la realidad de lo que su modelo interno de lenguaje predice. Los eventos de alta sorpresa se escriben en el Langzeitgedächtnisächtnis separado de Titans, mientras que el contenido predecible pasa y desaparece.

Esa simple regla convierte la memoria de un registro pasivo en un editor activo. Una rutina de "Gracias, hablamos mañana" al final de 500 correos electrónicos nunca llega a ser relevante; una clave API única, un informe de error en un caso límite extraño o un cambio repentino en la política casi siempre lo son. Titans comprime efectivamente días de interacción en un conjunto escaso de momentos de "te arrepentirás de olvidar esto".

Bajo el capó, la sorpresa actúa como un presupuesto. Cada ranura de memoria tiene una puntuación de utilidad derivada tanto de su sorpresa inicial como de cuán a menudo los Titanes la leen con éxito más tarde. Cuando el presupuesto se llena, el modelo desprioriza primero las entradas de bajo valor, desplazándolas de la memoria-como-contexto activa a representaciones más baratas o eliminándolas por completo.

Google enmarca esto como olvido inteligente en lugar de eliminación. En lugar de un límite abrupto cuando alcanzas 128K o 1M de tokens, la relevancia disminuye gradualmente: una especificación de proyecto rara vez utilizada pierde resolución lentamente, mientras que un documento de diseño al que se hace referencia con frecuencia se mantiene nítido. El módulo de memoria se actualiza en línea durante la inferencia, por lo que esta disminución ocurre de forma continua mientras Titans trabaja.

Ese comportamiento se ve inquietantemente humano. La psicología cognitiva demuestra que las personas codifican eventos novedosos, cargados emocionalmente o inesperados con mucha más fuerza que las rutinas diarias; tu primer día en un nuevo trabajo perdura más que 200 martes ordinarios. Titans incorpora un sesgo similar en el silicio: la novedad recibe una señal de escritura más fuerte, mientras que la repetición es tratada como ruido de fondo.

La memoria humana también olvida a propósito para mantenerse eficiente, y los Titans reflejan esa compensación. Al permitir que las trazas antiguas y de baja sorpresa se desvanecen en lugar de aferrarse a todo, el sistema evita la trampa del "genio de cinco minutos, amnésico de por vida" de los transformadores clásicos. Lo que queda es un hilo narrativo de larga duración que resalta los puntos de inflexión, no las marcas de tiempo.

Aplastando a la Competencia: Titanes vs. El Mundo

Ilustración: Aplastando la Competencia: Titanes contra el Mundo

Google no solo habló en grande sobre Titans; trajo recibos de referencia. En pruebas de largas secuencias que típicamente reducen modelos grandes a un estado impreciso, una variante de Titans de 760 millones de parámetros publicó números que avergüenzan a sistemas más de 50 veces su tamaño.

En la clásica evaluación de Aguja en un Pajar, los Titanes tuvieron que encontrar un único dato plantado oculto dentro de documentos extensos. Con una longitud de contexto de 16,000 tokens, alcanzó más del 95% de precisión, donde muchos modelos de vanguardia comienzan a dejar de dar respuestas o a alucinar.

La comprensión de historias de largo contexto suele exponer modelos que solo "recuerdan más o menos" pasajes anteriores. En bAbI-Long, que obliga a los sistemas a conectar hechos dispersos a través de enormes narrativas sintéticas, Titans no solo superó a sus rivales; dominó la tabla de clasificación.

El informe de Google y los análisis posteriores afirman que Titans superaron un conjunto de comparación brutal en estas tareas de largo alcance: - GPT-4 - Llama 3.1 70B - RecurrentGemma 9B - Llama 3 emparejado con herramientas de recuperación y búsqueda

Ese último resultado es el más importante. Las configuraciones aumentadas por recuperación añaden memoria externa y bases de datos vectoriales a modelos como Llama para compensar la falta de memoria, sin embargo, la memoria a largo plazo integrada de Titans aún ganó. En lugar de jugar con incrustaciones y almacenes externos, Titans mantiene una memoria interna y entrenable que se actualiza sobre la marcha.

El conteo de parámetros cuenta la verdadera historia. Mientras que GPT-4 y Llama 3.1 70B tienen decenas o cientos de miles de millones de parámetros, la estrella de largo contexto de Titans se sitúa en apenas 760 millones. Obtienes un rendimiento que se asemeja al de un modelo de frontera en entradas de varios cientos de páginas, a un costo más cercano a un LLM de código abierto de gama media.

Esa eficiencia desbloquea opciones de implementación que los gigantes no pueden tocar. Un modelo de menos de mil millones de parámetros que lee más de 2 millones de tokens y aún así logra encontrar una aguja en un pajar puede funcionar de manera más económica en la nube, expandirse a través de flotas de GPUs o incluso avanzar hacia escenarios en dispositivos.

Arquitectónicamente, los resultados de Titans sugieren que una memoria más inteligente supera a la escala de fuerza bruta para el razonamiento de largo contexto. Si un modelo de 760 millones puede superar a GPT-4 en problemas de un millón de tokens, la próxima carrera armamentista puede no ser en absoluto sobre el tamaño, sino sobre quién construye el mejor cerebro.

Más Allá de la Memoria: MIRAS y el Aprendiz Contínuo

MIRAS llega no como otro modelo más, sino como una teoría unificadora sobre cómo los modelos secuenciales deben recordar, olvidar y adaptarse. Google Research lo presenta como una hoja de ruta que sitúa a Transformers, Mamba, RWKV, DeltaNet y Titans en el mismo mapa: diferentes respuestas a las mismas cuatro preguntas sobre la forma de la memoria, las reglas de almacenamiento, la velocidad de sobreescritura y la dinámica de actualización.

En lugar de hacer alusiones vagas sobre el "largo contexto", MIRAS obliga a los arquitectos a especificar qué tipo de memoria a largo plazo desean y cuán agresivamente debería reescribirse. Este enfoque aborda directamente el olvido catastrófico, el problema de larga data donde un modelo ajustado finamente a nuevas habilidades borra silenciosamente las antiguas porque sus parámetros funcionan tanto como cerebro como bloc de notas.

El aprendizaje continuo se sitúa en el centro de esta hoja de ruta. En lugar de entrenar una sola vez sobre un conjunto de texto de la web fijo y dar por terminado el proceso, MIRAS aboga por sistemas que actualizan su memoria en línea, durante su uso, sin destruir las habilidades adquiridas previamente.

Ilja Sutskever ha descrito su estrella del norte como modelos que aprenden como un “adolescente talentoso”: absorbiendo, revisando e integrando constantemente nuevas experiencias. MIRAS opera esa visión al tratar el uso como un flujo de entrenamiento continuo, no como una fase de inferencia de solo lectura.

Titans se convierte en el primer gran paso público en ese camino de MIRAS. Su módulo de memoria impulsado por sorpresas, detallado en Titans: Aprendiendo a Memorizar en el Momento de la Prueba, ya se comporta como un proto-aprendiz continuo, escribiendo selectivamente eventos inesperados en un almacén dedicado en lugar de forzarlos en los pesos base.

Los referentes sugieren lo que ese cambio permite. Una variante de Titans con 760 millones de parámetros se mantiene a la par con GPT-4 y Llama-3.1-70B en tareas de secuencias largas, mientras actualiza su memoria en vivo a lo largo de sesiones de varios millones de tokens.

Filosóficamente, MIRAS da la vuelta a la forma en que los laboratorios piensan sobre la escala. En lugar de simplemente apilar más parámetros y datos, Google apuesta a que una memoria más inteligente y estructurada—y modelos que nunca dejan de aprender—serán más relevantes que otros 10 billones de tokens.

Tu nuevo compañero de trabajo es un agente llamado Lux.

Tu próximo “compañero de trabajo en IA” podría no ser un chatbox en una barra lateral, sino un cursor que se mueve silenciosamente en tu propio escritorio. Esa es la apuesta de la Open AGI Foundation con Lux, un nuevo tipo de modelo que trata a la computadora misma como la interfaz. En lugar de activar un bot y esperar que exista una API, solo señalas a Lux en la pantalla y comienza a trabajar.

Lux se describe a sí mismo como un modelo de uso de computadora, y esa frase tiene mucho significado. El sistema ingiere píxeles en bruto, analiza botones, menús y formularios, y luego emite acciones de bajo nivel: clics, desplazamientos, pulsaciones de teclas, cambios de ventanas. Puede operar escritorios completos, navegadores, hojas de cálculo, editores de código e incluso herramientas heredadas obstinadas que nunca tuvieron una API web.

Esto mueve a Lux de la categoría de “asistente” y lo sitúa en el ámbito de la infraestructura. Puedes conectarlo a una máquina virtual remota y hacer que concilie facturas en un navegador, atraviese datos en una hoja de cálculo de escritorio, y luego redacte correos electrónicos de seguimiento en Outlook. Para las empresas que están ahogándose en frágiles scripts de RPA y en integraciones a medio terminar, un agente nativo de pantalla comienza a parecerse a un adaptador universal.

Los números de referencia respaldan la confianza. En Mind2Web, un benchmark en línea construido a partir de más de 300 tareas del mundo real en sitios web en vivo, Lux obtiene 83.6, un salto masivo por encima del 69.0 de Gemini de Google y del mejor modelo de OpenAI con 61.3. Las mismas tareas, la misma web desordenada, tasa de éxito radicalmente diferente.

Mind2Web es brutal por diseño. Los agentes deben navegar por muros de inicio de sesión, diseños extraños, desplazamiento infinito, ventanas emergentes y patrones de interfaz inconsistentes para completar objetivos de múltiples pasos como reservar viajes, revisar historiales de pedidos o explorar la configuración de la cuenta. El margen de Lux en este punto de referencia sugiere que no solo se está memorizando flujos, sino que en realidad se está construyendo un modelo funcional de cómo se comportan las interfaces.

Esa ventaja proviene de lo que sus creadores llaman preentrenamiento activo agentivo. En lugar de aprender solo de registros estáticos o instrucciones sintéticas, Lux dedica tiempo de preentrenamiento actuando en entornos reales, explorando interfaces de usuario, fallando y corrigiendo. El modelo internaliza patrones como “los filtros se ocultan detrás de íconos de embudo” o “los cuadros de confirmación a menudo invierten los colores de los botones”, que se transfieren entre aplicaciones.

Puedes pensar en ello como la diferencia entre leer un manual y realmente conducir un coche. Los agentes LLM tradicionales "leen el manual" de APIs web y árboles DOM; Lux acumula millones de horas tras el volante de software en vivo. Esa experiencia incorporada le otorga una comprensión más intuitiva y similar a la humana de las interfaces de usuario, y hace que "tu nuevo compañero de trabajo" suene menos a exageración y más a una categoría de producto inminente.

El doble ataque de Google: velocidad y controversia.

Ilustración: El ataque de dos frentes de Google: velocidad y controversia.

Google no está apostando todo por la memoria a largo plazo de Titans. En paralelo, la compañía está impulsando un segundo frente: la distribución masiva y los medios generativos económicos. Los datos de crecimiento interno citados por analistas de terceros muestran que los usuarios activos mensuales de Gemini están aumentando más rápido que los de ChatGPT, y Google quiere igualar esa capacidad en experimentos de imágenes e interfaz de usuario.

Presentamos Nano Banana 2 Flash, un nuevo modelo de imagen ajustado para el costo y la velocidad en lugar de la gloria en las clasificaciones. Posicionado como una versión “casi profesional” del sistema de imagen insignia de Google, busca ofrecer una calidad casi a nivel Pro a una fracción del coste de computación. Esto es importante para miles de millones de llamadas de imagen de bajo margen en Búsqueda, Android, Docs y herramientas publicitarias.

Piensa en Nano Banana 2 Flash como el cartucho de tinta a granel de Google para el arte generativo. No produces piezas de museo con él; inunda la web con miniaturas, tarjetas sociales, pegatinas y maquetas de productos. Si Google puede ofrecer precios más bajos que Midjourney, DALL·E y Stability, manteniendo una calidad "suficientemente buena", controlará el mercado masivo de imágenes de IA.

Al mismo tiempo, Google llevó a cabo un experimento muy diferente: titulares de noticias reescritos por IA dentro de Google Discover. En lugar de mostrar los títulos originales de los editores, un modelo interno generaba nuevos de forma instantánea, a veces reformulando historias con ganchos emocionales más fuertes o diferentes énfasis. Los usuarios veían estos titulares sintéticos sin ninguna etiqueta clara o opción de exclusión.

Los editores notaron. Informes de medios escandinavos y europeos describieron titulares que distorsionaban el tono o el significado, incluidos relatos criminales que sonaban más sensacionalistas y piezas políticas que minimizaban el contexto clave. Los editores sostenían que la IA de Google se había convertido efectivamente en un coautor irresponsable que se interponía entre su sala de redacción y su audiencia.

La reacción llegó rápido porque toca una línea de falla que ha estado latente por mucho tiempo. Las plataformas ya controlan la distribución, los mercados publicitarios y, cada vez más, el lenguaje que enmarca el periodismo. Cuando un titular generado por IA puede cambiar cómo se percibe una investigación de corrupción o un informe sobre el clima, el juicio editorial se desplaza de las salas de redacción a los sistemas de clasificación y los pesos de los modelos.

La prueba de Discover muestra cuán rápidamente la "IA asistencial" se convierte en IA editorial. Titans y Nano Banana 2 Flash persiguen la escala y la velocidad, pero la controversia del titular expone el comercio: las plataformas tecnológicas quieren reescribir no solo el contenido, sino también cómo el mundo lo encuentra.

Los números no mienten: el crecimiento de Gemini es real.

El Código Rojo dejó de ser una metáfora una vez que llegaron las listas de descargas. Según datos de SensorTower citados en informes recientes, la aplicación móvil de Gemini ahora se encuentra entre los productos de IA de más rápido crecimiento de todos los tiempos, con usuarios activos mensuales aumentando a un ritmo que eclipsa las ganancias interanuales de ChatGPT.

ChatGPT todavía domina en escala bruta, con cientos de millones de usuarios y la marca más reconocible en inteligencia artificial de consumo. Pero las curvas de SensorTower cuentan una historia diferente sobre el impulso: los usuarios activos mensuales de Gemini crecen múltiples veces más rápido de mes a mes, especialmente en mercados donde Google puede preinstalar o promocionar agresivamente la aplicación.

Que la velocidad importa más que los derechos de fanfarronear. Un rápido crecimiento de MAU alimenta una rueda de: - Más interés de los desarrolladores en las APIs de Gemini - Más pilotos empresariales que desean la fiabilidad a escala de Google - Más confianza de los consumidores en que esto no es un experimento sin salida

Para los desarrolladores, el ascenso de Gemini significa una alternativa creíble a OpenAI que se integra directamente en Android, Chrome y Google Cloud. Cuando tus usuarios objetivo ya están dentro de Gmail, Docs y Búsqueda, construir sobre la infraestructura de Google comienza a parecer menos un riesgo y más una inevitabilidad.

Las empresas leen los mismos gráficos y ven poder de negociación. Un Gemini de rápido crecimiento da a los CIOs la justificación para exigir mejores precios, garantías de residencia de datos y estrategias de múltiples proveedores que enfrentan a OpenAI, Google, Microsoft y Anthropic entre sí.

Google, mientras tanto, explota silenciosamente su máquina de distribución. Las sugerencias de Gemini en Android, las características de IA en Workspace y los experimentos de búsqueda impulsados por Gemini dirigen a los usuarios comunes hacia el ecosistema de Google sin requerir una decisión separada sobre una “app de IA”.

Ese es el verdadero Código Rojo para OpenAI: no que Gemini ya ha ganado, sino que Google finalmente alineó investigación, producto y distribución. Titans, MIRAS y la pila más amplia de Gemini ahora se envían a una audiencia contada en miles de millones, y cada actualización incremental de características se aprovecha de esa vía. Para aquellos que siguen los fundamentos técnicos, el trabajo de contexto largo de Google se encuentra junto a implementaciones abiertas en el Repositorio de Google Research en GitHub, subrayando cuán rápidamente pueden propagarse estas ideas.

El nuevo campo de batalla de la IA ha llegado.

Code Red ya no describe el pánico de una sola empresa; describe un nuevo campo de batalla de IA. Titans le ofrece a Google un modelo que puede manejar contextos de más de 2 millones de tokens con una memoria a largo plazo real, actualizando su memoria en tiempo real en lugar de pretender que cada conversación comienza de nuevo. Métricas como Needle-in-a-Haystack con más del 95% de precisión y el dominio en bAbI-Long demuestran que esos avances no son solo diapositivas de marketing.

Capa MIRAS en la parte superior y obtienes un mapa, no un modelo único. MIRAS recontextualiza Transformers, Mamba, RWKV y sus amigos como diferentes respuestas a cuatro preguntas sobre la forma de la memoria, las reglas de almacenamiento, la velocidad de degradación y la dinámica de actualización. Esto convierte "ventana de contexto más grande" en un espacio de diseño para sistemas de aprendizaje continuo.

Mientras tanto, Lux ataca un frente diferente: el control. Lux observa tu pantalla actual, analiza los elementos de la interfaz y emite clics, desplazamientos y pulsaciones de teclas para completar tareas reales en navegadores, hojas de cálculo y clientes de correo electrónico. En la evaluación Mind2Web de más de 300 tareas de sitios web del mundo real, logra alrededor del 83.6% de éxito, dejando en vergüenza a las antiguas demos de "agentes" que dependen de API frágiles.

La presión de distribución proviene de Gemini y Nano Banana 2 Flash. Los datos al estilo de Sensor Tower muestran que los usuarios activos mensuales de Gemini están creciendo más rápido que los de ChatGPT, gracias a una profunda integración con Android y Chrome. Nano Banana 2 Flash, un modelo de imagen más barato y rápido que casi iguala a su versión Pro, posiciona a Google para inundar los teléfonos de gama media y las aplicaciones web con inteligencia artificial multimodal "suficientemente buena".

Google ahora libra una guerra en múltiples frentes:

1Arquitectura fundamental: Titans y MIRAS redefinen cómo los modelos recuerdan y aprenden.
2Agencia práctica: Agentes de uso de computadoras de estilo Lux convierten los LLM en operadores completos de escritorio.
3Distribución del mercado: El crecimiento de Gemini, Nano Banana y los titulares ajustados por IA impulsan este conjunto en los feeds y dispositivos cotidianos.

Los modelos estáticos, una vez entrenados y luego congelados, parecen cada vez más un manual de la década pasada. La próxima fase se centra en agentes que recuerdan meses de historial de interacciones, adaptan políticas sobre la marcha y viven dentro de sistemas operativos, navegadores y suites de productividad. Todo eso recae directamente en la puerta de OpenAI: su modelo de próxima generación, Garlic, ahora debe demostrar que puede igualar la memoria de los Titanes, la autonomía a nivel Lux y el alcance a escala Gemini, o arriesgarse a observar cómo Google establece las reglas para el segundo acto de la IA.

Preguntas Frecuentes

¿Qué es Google Titans?

Titans es una nueva arquitectura de IA de Google Research diseñada para otorgar a los modelos una verdadera memoria a largo plazo. Separa el procesamiento a corto plazo de un módulo de memoria a largo plazo que aprende y se actualiza continuamente durante su uso.

¿Cómo funciona la memoria de los Titanes?

Titans decide qué almacenar basándose en la 'sorpresa'. Cuanto más inesperada o novedosa sea una pieza de información, es más probable que se guarde, lo que permite a la IA construir una memoria de hechos clave de manera eficiente.

¿Es Google Titans mejor que GPT-4?

En pruebas específicas de largo contexto, que evalúan la capacidad de una IA para recordar información de grandes cantidades de texto, el video y los informes relacionados afirman que Titans supera significativamente a modelos como GPT-4 y Llama 3.1.

¿Qué es MIRAS?

MIRAS es un marco introducido junto a Titans. Proporciona las reglas y métodos para que los modelos aprendan continuamente de nuevos datos sin olvidar el conocimiento previo, acercando a la inteligencia artificial a un estado de aprendizaje perpetuo.

𝕏 in ↑↗

One weekly email of tools worth shipping. No drip funnel.

one email per week · unsubscribe in two clicks · no third-party tracking

Preguntas frecuentes

¿Qué es Google Titans?

¿Cómo funciona la memoria de los Titanes?

¿Es Google Titans mejor que GPT-4?

¿Qué es MIRAS?

El cerebro de IA de Google acaba de evolucionar.

Resumen / Puntos clave

Por qué OpenAI declaró una 'alerta roja'

La Amnesia que Afecta a Todas las IA

Conoce a Titans: La IA que nunca olvida.

El genio está en la 'sorpresa'

Aplastando a la Competencia: Titanes vs. El Mundo

Más Allá de la Memoria: MIRAS y el Aprendiz Contínuo

Tu nuevo compañero de trabajo es un agente llamado Lux.

El doble ataque de Google: velocidad y controversia.

Los números no mienten: el crecimiento de Gemini es real.

El nuevo campo de batalla de la IA ha llegado.

Preguntas Frecuentes

¿Qué es Google Titans?

¿Cómo funciona la memoria de los Titanes?

¿Es Google Titans mejor que GPT-4?

¿Qué es MIRAS?

One weekly email of tools worth shipping. No drip funnel.

Preguntas frecuentes

Leer a continuación

El Firewall de IA de Deno Termina con el Caos de los Agentes

Este Agente de IA Construye Negocios Para Ti

La prueba de realidad de la IA: El benchmark que rompió los LLMs

Mantente a la vanguardia de la IA