La IA de Google Acaba de Obtener una Memoria Permanente

Google acaba de presentar Titans, una nueva arquitectura de IA que otorga a los modelos una memoria a largo plazo similar a la humana, rompiendo las limitaciones anteriores. Este avance supera a GPT-4 en indicadores clave y nos acerca enormemente a la AGI.

Hero image for: La IA de Google Acaba de Obtener una Memoria Permanente
💡

TL;DR / Key Takeaways

Google acaba de presentar Titans, una nueva arquitectura de IA que otorga a los modelos una memoria a largo plazo similar a la humana, rompiendo las limitaciones anteriores. Este avance supera a GPT-4 en indicadores clave y nos acerca enormemente a la AGI.

La Muralla de Memoria de la IA se Está Derrumbando

La IA con cerebro de pez dorado ha sido el secreto sucio del auge de los modelos de lenguaje grandes. Los transformadores pueden manejar tal vez decenas o cientos de miles de tokens, pero más allá de eso, las conversaciones se cierran, los documentos se cortan y la "memoria" se reinicia cada vez que presionas enviar. Para sistemas presentados como motores de razonamiento de propósito general, olvidar la mayor parte de lo que acaba de suceder sigue siendo un obstáculo difícil de superar.

La nueva arquitectura Titans de Google y su marco complementario MIRAS apuntan directamente a esa meta. No se trata de otra mejora especulativa de "ahora con una ventana de contexto de 1 millón de tokens". Titans considera la memoria a largo plazo como un componente del sistema de primera clase, no como un caché adicional, y MIRAS replantea cómo pensamos sobre la memoria en transformadores, RNNs y otras arquitecturas.

Los modelos fronterizos actuales evitan el olvido mediante trucos de recuperación y bases de datos vectoriales. Buscan en registros pasados, recuperan algunos fragmentos y los insertan en el aviso. Eso funciona para scripts de atención al cliente; se rompe cuando se desea que un modelo siga proyectos en evolución, preferencias personales o hilos de investigación de varios días sin una curaduría manual constante.

Titans va más allá al mantener más de 2 millones de tokens de contexto activo—múltiples libros completos—mientras actualiza su propia memoria durante la inferencia. En lugar de un almacén estático de claves y valores, utiliza un pequeño perceptrón multicapa como un módulo de memoria aprendida que refina continuamente lo que importa. El modelo no solo lee; se escribe de nuevo a sí mismo en tiempo real.

Resolver este cuello de botella en la memoria es un punto de inflexión para cualquier cosa que se asemeje a una inteligencia humana. La cognición humana se apoya en años de contexto acumulado: narrativas de larga duración sobre personas, metas y limitaciones. Sin una memoria duradera y estructurada, incluso el modelo más inteligente se comporta como una calculadora con autocompletado, no como un sistema que realmente te conoce.

El marco MIRAS de Google argumenta que los transformadores, RNNs y otros modelos de secuencia comparten principios subyacentes que pueden ser reestructurados en torno a la memoria en lugar de la escala bruta. Esto abre la puerta a diseños donde: - La memoria a largo plazo reside dentro del modelo, no en trucos externos - El olvido se vuelve adaptativo, no un truncamiento arbitrario - El contexto crece funcionalmente sin límites, no solo "más grande en cada lanzamiento"

Lo que está surgiendo es un nuevo paradigma arquitectónico: sistemas que razonan a lo largo de toda una vida de tokens, no solo en una sola ventana de chat. La pared de memoria de la IA, que durante mucho tiempo se ha tratado como una limitación similar a la del hardware, comienza a parecerse más a una elección de diseño.

Conoce a Titans: La IA que nunca olvida.

Ilustración: Conoce a Titans: La IA que nunca olvida.
Ilustración: Conoce a Titans: La IA que nunca olvida.

Olvida los pequeños aumentos de modelo incrementales; Titans llega como una bestia completamente diferente. Google la describe no como otro modelo de lenguaje grande, sino como una nueva arquitectura de IA construida en torno a una idea: memoria permanente y entrenable que vive dentro del modelo mientras se ejecuta. En lugar de tratar el contexto como un pergamino desechable, Titans lo trata como una base de datos viva.

A nivel de encabezado, Titans tiene una ventana de contexto de más de 2 millones de tokens. En términos humanos, eso es suficiente para contener cada palabra de toda la serie de Harry Potter, además de varios artículos de investigación y tu bandeja de entrada de correo electrónico, todo al mismo tiempo. Mientras que los modelos de vanguardia de hoy tienen dificultades para mantener un solo PDF largo en orden, Titans puede manejar la información de múltiples libros en una sola sesión.

El tamaño bruto no es la parte radical. Titans convierte esa ventana masiva en memoria activa que se actualiza a medida que el modelo piensa, no solo cuando los ingenieros lo reentrenan. Cada nueva frase, corrección o sorpresa puede alterar a qué presta atención el sistema a continuación, directamente dentro de su bucle de inferencia.

En lugar de cachés de clave-valor estáticos o incrustaciones fijas, Titans incorpora un pequeño perceptrón multicapa como su núcleo de memoria. Ese módulo neuronal aprende patrones a través de miles de tokens en tiempo real, ajustando los pesos internos a medida que llega nueva información. La memoria deja de ser una tabla de búsqueda pasiva y se convierte en una función constantemente ajustada.

Los investigadores de Google incorporan una señal de “sorpresa” inspirada en la cognición humana. Cuando Titans se encuentra con datos inesperados o altamente informativos, este métrico lo señala como memorable; los detalles rutinarios y repetitivos se desvanecen más rápido. El modelo decide efectivamente qué eventos merecen un almacenamiento a largo plazo y cuáles pueden caer en el olvido.

Debido a que las actualizaciones ocurren en tiempo real, cada interacción con Titans deja un rastro en su estado interno. Una larga sesión de resolución de problemas, una semana de revisiones de código o meses de notas de laboratorio pueden acumularse en una comprensión en evolución, no en una serie de charlas aisladas. El comportamiento del modelo cambia a medida que esa historia se vuelve más densa.

Esa persistencia desbloquea algo que las pilas de transformadores de corriente no pueden hacer de manera limpia: construir una narrativa sobre ti, tu proyecto o tu conjunto de datos que perdure más allá de un solo aviso. Titans deja de interpretar el papel de un asistente útil y comienza a actuar como un colaborador que realmente recuerda lo que hiciste ayer.

Más allá de la Fuerza Bruta: La 'Métrica Sorpresa'

La atención de fuerza bruta trata cada token como un invitado VIP en una fiesta: igualmente importante, igualmente costoso. Los transformadores estándar realizan una autoatención cuadrática en todos los tokens, por lo que las ventanas de contexto incrementan los costos computacionales a medida que crecen de 8,000 a 2,000,000 tokens. Titans elude esa pared de escalado con una idea engañosamente simple: solo prestar atención cuando algo es sorprendente.

Los investigadores de Google se basan en la psicología cognitiva y la teoría de la información para definir una “métrica de sorpresa”—una puntuación numérica que mide cuánto se desvía un nuevo token de lo que el modelo espera. Las frases rutinarias, los hechos repetidos y los patrones estándar apenas mueven la aguja. Las contradicciones súbitas, los eventos raros o las entidades novedosas disparan la puntuación y provocan una actualización de la memoria.

En lugar de almacenar cada interacción, Titans utiliza esta señal sorpresa para decidir qué entra en su memoria a largo plazo MLP y qué se descarta silenciosamente. La arquitectura pregunta de manera efectiva en cada paso: “¿Esto cambió mi comprensión del mundo o de este usuario?” Si no, trata el token como un contexto transitorio, no como una memoria duradera.

Los transformadores tradicionales deben recomputar la atención sobre cada token anterior, ya sea un “gracias” sin importancia o una instrucción que cambie la vida. Eso significa un costo de atención de O(n²) y enormes facturas de GPU para contextos largos. El enrutamiento impulsado por sorpresas de Titans reduce este sobrecosto al invocar operaciones de memoria pesadas solo en un subconjunto escaso de tokens realmente informativos.

El blog de Google insinúa "ganancias de eficiencia de órdenes de magnitud" cuando Titans mantiene más de 2,000,000 de tokens de contexto útil sin ahogarse en computación. La teoría MIRAS respalda esto, mostrando que las actualizaciones basadas en sorpresas permiten que Titans se comporten como una RNN con escrituras de memoria selectivas y aprendidas en lugar de un escaneo exhaustivo de cinta. El resultado: rendimiento al nivel de GPT-4 o mejor en tareas de contexto largo como BABILong, utilizando muchos menos parámetros y mucha menos computación, porque el modelo trabaja de manera más inteligente sobre lo que elige recordar.

Un motor en el interior: un cerebro dentro de otro cerebro

Olvídate de índices polvorientos y búsquedas por palabras clave. Titans oculta un pequeño Perceptrón Multicapa (MLP) dentro del modelo más grande y lo utiliza como un motor de memoria vivo y en constante aprendizaje. En lugar de simplemente almacenar vectores en una base de datos, esta red interna se reconfigura a medida que fluye nueva información.

Piénsalo como un cerebro dentro de otro cerebro. El modelo externo se encarga del lenguaje, el razonamiento y la planificación, mientras que el MLP interno estudia silenciosamente todo lo que almacena, identificando patrones a través de miles o incluso millones de tokens. Con el tiempo, esa red interna deja de ser un caché pasivo y se convierte en un experto especializado en tu historia con el modelo.

Las bases de datos vectoriales estáticas—en las que se basan la mayoría de los chatbots actuales—hacen algo mucho más simple. Ellas: - Integran tu texto en vectores - Depositan esos vectores en un almacén - Recuperan los “vecinos más cercanos” cuando haces una pregunta

Esos sistemas nunca entienden verdaderamente lo que tienen. No aprenden que una nota de reunión, un fragmento de código y un correo electrónico describen el mismo error, o que tres documentos separados son en realidad capítulos de un proyecto de larga duración. La memoria neural de Titans sí lo hace.

Debido a que la memoria es una MLP, puede comprimir hechos relacionados en representaciones internas compartidas, fortaleciendo las conexiones importantes y permitiendo que las irrelevantes se debiliten. Esto significa que el sistema puede mantener un contexto expansivo de más de 2 millones de tokens sin colapsar bajo su propio peso. La red de memoria se convierte efectivamente en un modelo personalizado ajustado según tu interacción continua, actualizado en tiempo real, no en un entrenamiento offline.

Para evitar que esa memoria se desborde, Titans toma prestadas ideas directamente de la teoría de la optimización. El momento suaviza las actualizaciones para que un solo evento sorprendente impacte fuertemente en la memoria, mientras que el ruido repetitivo apenas se registra. El modelo insiste en patrones que continúan apareciendo y pasa por alto fallos aislados.

Por otro lado, el olvido adaptativo elimina lo que ya no importa. A medida que nuevos patrones dominan—nuevos proyectos, nuevos temas, nuevas bases de código—el MLP interno reasigna gradualmente su capacidad, permitiendo que las representaciones obsoletas se desvanezcan. En lugar de un archivo sobrecargado, Titans ejecuta una memoria ágil y auto-curada que aprende, prioriza y olvida con intención.

MIRAS: La piedra de Rosetta para arquitecturas de IA

Ilustración: MIRAS: La Piedra de Rosetta para Arquitecturas de IA
Ilustración: MIRAS: La Piedra de Rosetta para Arquitecturas de IA

MIRAS se sitúa detrás de Titans como la revolución silenciosa: una teoría unificadora para las redes neuronales modernas. En lugar de ser otra arquitectura del momento, MIRAS es un marco matemático que muestra a los Transformers, RNNs y otros modelos de secuencia como diferentes caras del mismo sistema subyacente. Los investigadores de Google lo describen como el mapa perdido que explica por qué modelos tan diferentes a menudo se comportan de manera tan similar.

Como una piedra Rosetta para la IA, MIRAS traduce entre arquitecturas que antes vivían en silos de investigación separados. Los pesos de atención en Transformers, los estados ocultos en RNNs y la memoria externa en modelos de recuperación se reducen a operaciones comunes sobre secuencias de información. Una vez que los expresas en el lenguaje de MIRAS, puedes intercambiar componentes, comparar ventajas y desventajas, y razonar sobre capacidades con una única herramienta.

Esa unificación es importante porque cada familia aporta fortalezas distintas. Las RNN se destacan en el procesamiento de datos en tiempo real y actualizaciones de baja latencia, pero históricamente han tenido dificultades con contextos muy largos. Los transformadores dominan en precisión y razonamiento global a través de miles de tokens, pero se estancan en memoria y cómputo a medida que las secuencias crecen. MIRAS revela cómo combinar estas características en lugar de elegir un solo enfoque.

Titans es la primera prueba de concepto construida directamente a partir de este marco. Su memoria basada en MLP se comporta como un estado RNN rápido y continuo mientras sigue soportando razonamiento global al estilo Transformer sobre más de 2 millones de tokens. Bajo MIRAS, ese híbrido no es un truco; es una instancia limpia de principios compartidos que también se extienden a la genómica, series temporales y otros dominios no textuales.

Los investigadores ahora obtienen un espacio de diseño en lugar de un menú. MIRAS les permite explorar sistemáticamente híbridos que: - Usan recurrencias similares a RNN para mayor rapidez - Toman prestados patrones de atención de Transformer para mayor precisión - Conectan unidades de memoria especializadas, como el MLP impulsado por sorpresas de Titans

Enmarcado de esta manera, MIRAS se parece menos a un truco aislado y más a un plano para la IA post-Transformer. Cualquier arquitectura futura que necesite memoria a largo plazo, inferencia eficiente o estructura específica de dominio puede ser esbozada primero dentro de esta teoría común y luego diseñada. Los titanes pueden ser el acto principal, pero MIRAS es el manual subyacente que podría dar forma a cada sistema de IA serio que venga a continuación.

El Enfrentamiento: Titans Aplasta los Récords de GPT-4

Olvida las comparaciones de modelos basadas en sensaciones. Google alineó a Titans con los principales competidores de hoy, incluyendo GPT-4, y realizó una dura serie de pruebas de largo contexto. El resultado: una arquitectura más pequeña y económica superó repetidamente en razonamiento a modelos que dependen de un recuento bruto de parámetros y ventanas de contexto masivas.

En el centro del enfrentamiento se encuentra BABILong, un estándar diseñado para romper los transformadores convencionales. En lugar de comandos breves y ordenados, BABILong alimenta a los modelos con documentos extensos que pueden superar 1 a 2 millones de tokens—miles de páginas de hechos mezclados, distractores y sutilezas de dependencia.

BABILong no solo verifica si un modelo puede "recordar" tokens de hace mucho tiempo. Obliga a los sistemas a seguir entidades, cadenas causales y reglas condicionales enterradas en el texto, y luego a responder preguntas que dependen de detalles introducidos cientos de miles de tokens antes. Cualquier debilidad en el razonamiento a largo plazo o en la gestión de la memoria se manifiesta de inmediato en una caída de la precisión.

Frente a esta prueba, Titans no solo sobrevivió; dominó. Google informa que Titans supera todos los puntos de referencia en BABILong, incluyendo modelos con muchos más parámetros y transformadores de contexto largo altamente optimizados ajustados específicamente para tareas de estilo de recuperación.

Esa ventaja de rendimiento importa porque los sistemas de clase GPT-4 ya manejan ventanas de contexto que alcanzan cientos de miles de tokens. Sin embargo, incluso con esos límites ampliados, a menudo se degradan drásticamente a medida que los prompts crecen, alucinan vínculos entre documentos o pierden el seguimiento de entidades introducidas al principio de la secuencia. En cambio, Titans mantiene cadenas de razonamiento coherentes a través de entradas a escala de múltiples libros.

El impacto se siente cuando se observa la eficiencia. Titans alcanza estas puntuaciones con significativamente menos parámetros—en el orden de un LLM de tamaño pequeño a mediano en lugar de un gigante de frontera—y opera a una fracción del costo computacional. Menos ancho de banda de memoria, menos FLOPs y sin necesidad de atención cuadrática sobre toda la secuencia se traducen en una inferencia dramáticamente más barata.

Eso revierte la narrativa de la escalabilidad. En lugar de "simplemente agregar más GPUs", Titans sugiere que arquitecturas de memoria más inteligentes pueden superar a los sistemas de nivel GPT-4 en razonamiento de contexto largo mientras utilizan menos recursos. Para laboratorios, startups e incluso implementaciones en dispositivos, eso no es una victoria marginal; es un golpe arquitectónico.

Más que un creador de palabras: Conquistando nuevas fronteras

La memoria que realmente perdura resulta ser útil mucho más allá de los juegos de palabras conversacionales. La pila Titans de Google ya ha salido del ámbito del lenguaje, mostrando resultados de vanguardia en tareas de modelado genómico, donde los modelos deben rastrear dependencias a través de decenas de miles de pares de bases. En lugar de tratar el ADN como una oración corta, Titans puede absorber regiones genómicas enteras—de millones de caracteres de longitud—y preservar patrones sutiles que abarcan loci distantes.

La genómica es un campo de prueba brutal: los elementos regulatorios, mutaciones y variantes estructurales interactúan en amplios rangos. La unidad de memoria basada en MLP de Titans actúa como un cuaderno diferenciable, acumulando relaciones a largo alcance entre secuencias y fenotipos sin colapsar bajo límites de contexto. Eso es importante para tareas como predecir la expresión génica, los efectos fuera del objetivo de CRISPR o los puntajes de riesgo poligénico, donde el contexto es toda la historia de la biología.

Las finanzas ofrecen una prueba de estrés completamente diferente, y Titans también se destaca aquí. En los índices financieros de largo plazo, la arquitectura rastrea años de datos de ticks, indicadores macroeconómicos y flujos de eventos mientras actualiza dinámicamente su estado interno. En lugar de ventanas de tamaño fijo o de ingeniería de características frágiles, Titans mantiene una memoria dinámica y aprendida de los regímenes del mercado, choques y cambios estructurales lentos.

Este rendimiento interdominio es el verdadero indicador: el sistema de memoria no es un truco de salón ajustado para la predicción del siguiente token. MIRAS muestra que el "cerebro dentro de un cerebro" de los Titanes se sitúa en el mismo nivel de abstracción que los transformadores o las RNNs, pero con un núcleo de memoria entrenable de propósito general. Cuando el mismo mecanismo potencia el razonamiento del lenguaje, la modelación de ADN y la previsión en mercados ruidosos, estás ante una capacidad fundamental, no un truco sobreajustado.

Las aplicaciones futuras prácticamente se escriben solas. Copilotos médicos persistentes podrían rastrear el historial longitudinal completo de un paciente—laboratorios, imágenes, notas de clínicos, dispositivos portátiles—durante décadas, revelando patrones que ningún ser humano podría retener en la memoria de trabajo. Las herramientas de modelado económico en tiempo real podrían fusionar datos de transacciones en streaming, movimientos de políticas y noticias globales en un modelo mundial continuamente actualizado, proporcionando a gobiernos y empresas algo peligrosamente cercano a un cerebro macro vivo y respirante.

El camino hacia la AGI se ha acortado drásticamente.

Ilustración: El camino hacia la AGI se acaba de acortar drásticamente.
Ilustración: El camino hacia la AGI se acaba de acortar drásticamente.

AGI deja de ser un eslogan de ciencia ficción y comienza a parecerse a una hoja de ruta de ingeniería una vez que los modelos pueden recordar. Los titanes y el marco MIRAS llevan la investigación de Google directamente a ese territorio al abordar una capacidad de la que los humanos dependen constantemente: la memoria a largo plazo, adaptativa y selectiva que sobrevive a más de una sola conversación o estímulo.

La cognición a nivel humano se basa en recuerdos que abarcan segundos, años y todo lo que hay en medio. Recuerdas las preferencias de un amigo, un libro que leíste el verano pasado y la ruta a casa, y actualizas esos recuerdos al instante. Cualquier AGI plausible necesita el mismo espectro: espacio temporal de corto plazo, contexto de trabajo a medio plazo y conocimiento estructurado y duradero que siga evolucionando.

Titans efectivamente incorpora ese andamiaje a la IA moderna. En lugar de un contexto de 128K o 1M tokens que se reinicia en cada sesión, Titans mantiene más de 2 millones de tokens de contexto utilizable y actualiza su estado interno de forma continua, utilizando su unidad de memoria basado en MLP como un espacio de trabajo permanente en lugar de un búfer desechable.

Los investigadores de Google enmarcan esto no como un nuevo "transformador más grande", sino como un cambio arquitectónico fundamental. MIRAS expone un trasfondo matemático compartido entre transformadores, RNNs y otros modelos de secuencia, y luego utiliza esa visión para diseñar la memoria como un sistema integrado, no como un truco de recuperación añadido o un almacén de vectores posterior.

La memoria a largo plazo aquí no solo es un almacenamiento más grande; es selectiva y adaptativa. La métrica de sorpresa clasifica la información entrante según lo inesperada e informativa que es, por lo que una excepción aislada, una instrucción crítica o un giro repentino en la trama se retiene, mientras que el contenido rutinario se desvanece a través del olvido adaptativo y las actualizaciones de estilo momentum.

Ese mecanismo desbloquea algo que los chatbots actuales simulan con trucos: un modelo persistente del mundo y de ti. Los titanes pueden, en principio, seguir los objetivos en evolución de un usuario a lo largo de semanas, recordar fracasos anteriores y ajustar estrategias sin necesidad de reentrenamiento fuera de línea o ciclos de ajuste manual.

El aprendizaje continuo durante la inferencia también derriba la barrera entre "entrenar" y "usar" un modelo. En lugar de congelar una instantánea del conocimiento y enviarla, Titans se comporta más como un software que se actualiza en tiempo real a medida que se encuentra con nuevos datos, casos extremos o entradas adversariales.

Las implicaciones se acumulan rápidamente. Un asistente que realmente recuerda los proyectos de tu empresa, un agente de investigación que construye un mapa de literatura a varios años, o un sistema robótico que refina su modelo ambiental a diario se acercan cada vez más a sistemas que reconoceríamos como generalmente inteligentes, no solo como impresionantemente hábiles en la autocompletación.

Cómo los Titanes Transformarán Tu Mundo

La memoria que no se reinicia con cada solicitud convierte las demostraciones llamativas de hoy en infraestructura. Con Titans, un asistente empresarial puede mantener una narrativa continua de la vida de una empresa: cada ticket, nota de reunión, llamada de ventas e informe de incidentes. En lugar de volver a cargar PDFs, preguntas: "¿Cómo han cambiado nuestros factores de abandono desde 2021?" y extrae de millones de tokens de historia en una sola operación.

El servicio al cliente deja de ser una máquina de preguntas frecuentes sin estado. Un bot de soporte que utiliza Titans puede recordar que siempre prefieres el correo electrónico, que intentaste tres soluciones fallidas la semana pasada y que se te prometió una extensión de garantía que nunca se procesó. A lo largo de los meses, puede rastrear errores raros entre miles de usuarios y detectar patrones que los humanos pasarían por alto.

La educación vive una revolución silenciosa. Un tutor personalizado puede recordar cada ejercicio con el que tuviste dificultades, las pistas exactas que finalmente funcionaron y tu ritmo a lo largo de cientos de sesiones. En lugar de un genérico "revisa las fracciones", puede decir: "Normalmente te equivocas cuando los denominadores son primos; vamos a practicar eso", porque ese patrón vive en la memoria a largo plazo, no en una cookie.

Dentro de las empresas, las herramientas analíticas dejan de muestrear. Los titanes pueden procesar años de registros, transacciones y datos de sensores—millones de tokens—sin interrupciones en el procesamiento. Un sistema de pronóstico puede vincular un extraño aumento en los ingresos del último trimestre a un sutil cambio de política de hace dos años, porque ambos eventos coexisten en la memoria activa, no en un almacén de datos más un aviso.

Para los desarrolladores, Titans señala un punto de inflexión en la adoración a los transformadores. Ahora diseñas en torno a un motor de memoria MLP interno, actualizaciones impulsadas por sorpresas y olvido adaptativo, en lugar de simplemente escalar cabezas de atención y ventanas de contexto. Esto abre espacio para agentes más ligeros que funcionan en GPUs más pequeñas y, sin embargo, se comportan como si tuvieran una base de datos vectorial privada y en constante crecimiento incorporada.

Las dinámicas del mercado cambian rápidamente cuando la "ventana de contexto" deja de ser un factor de presumir. Si los modelos de clase Titan ofrecen un razonamiento al nivel de GPT-4 con más de 2 millones de tokens de memoria en vivo y actualizable a un menor costo computacional, los puntos de venta pasan de "128K de contexto" a "¿qué tan inteligente es tu memoria?" La fijación de precios de la API, las estrategias de alojamiento e incluso qué empresas tienen la relación con el cliente se reorganizarán en torno a quién controla esa capa cognitiva persistente.

La próxima generación de IA ya no es una teoría.

Los Titanes de Google trabajan en turnos de IA con memoria a largo plazo, pasando de artículos de investigación especulativos a código ejecutable. En lugar de demostraciones simples o tareas limitadas, Google informa que los Titanes manejan más de 2 millones de tokens de contexto activo—equivalente a la información de múltiples novelas—mientras actualizan su memoria en tiempo real durante la inferencia.

En el núcleo de ese cambio se encuentra una clara trifecta. Titans combina: - Ventanas de contexto masivas y persistentes - Priorización de memoria similar a la humana - Superior eficiencia computacional en comparación con modelos mucho más grandes

El contexto masivo por sí solo normalmente significaría facturas de computación infladas y latencia. Titans elude esto utilizando un módulo de memoria basado en MLP en lugar de atención a la fuerza bruta sobre cada token, lo que le permite superar a GPT-4 en benchmarks mientras utiliza menos parámetros y menos computación, según las propias pruebas de Google.

La priorización similar a la humana proviene de la "métrica de sorpresa", una señal que se dispara cuando la entrada se desvía de lo que el modelo espera. Titans utiliza ese pico para decidir qué almacenar a largo plazo, qué reforzar y qué olvidar silenciosamente, reflejando cómo los humanos ignoran los eventos rutinarios pero recuerdan las desviaciones marcadas.

Esa memoria impulsada por sorpresas alimenta el impulso y el olvido adaptativo, de modo que el modelo no se ahoga en su propia historia. Los patrones antiguos y de baja sorpresa se desvanecen; los eventos raros pero críticos persisten. El resultado es una IA que puede seguir proyectos de larga duración, conjuntos de datos en evolución o conversaciones de múltiples sesiones sin necesidad de una ingeniería de prompts manual constante.

MIRAS es la otra mitad de la historia. El marco de Google muestra que los transformadores, RNNs y modelos al estilo Titans comparten una estructura subyacente común, ofreciendo a los investigadores un mapa unificado en lugar de un zoológico de arquitecturas incompatibles.

Al mapear estas familias en una única teoría, MIRAS permite a otros combinar componentes—atención estilo transformador, recurrencia estilo RNN, memoria estilo MLP de Titans—bajo un mismo paraguas matemático. Esto debería acelerar a los imitadores y competidores tanto como beneficia a Google.

A nivel industrial, MIRAS reduce la barrera para laboratorios que no cuentan con presupuestos al nivel de Google, pero que desean capacidades similares a las de Titans. Se espera la aparición de implementaciones de código abierto, arquitecturas híbridas y variantes especializadas de Titans ajustadas para bases de código, registros médicos o flujos financieros.

Tomados en conjunto, Titans y MIRAS marcan un punto de inflexión en el ritmo de cambio de la IA. Cuando los modelos pueden recordar años de interacción, actualizarse en tiempo real y funcionar a un costo menor que los gigantes actuales, la IA de “nueva generación” deja de ser una hoja de ruta futura y comienza a parecerse a una realidad que se acerca rápidamente.

Preguntas Frecuentes

¿Qué es Google Titans?

Titans es una nueva arquitectura de IA de Google diseñada para la memoria a largo plazo. Puede mantener más de 2 millones de tokens de contexto y aprender y actualizar activamente su memoria en tiempo real sin necesidad de reentrenamiento.

¿Cómo funciona el sistema de memoria de los Titanes?

En lugar de una simple base de datos vectorial, Titans utiliza una pequeña red neuronal interna (un MLP) como su memoria. También emplea una 'métrica de sorpresa' para priorizar el almacenamiento de información novedosa e importante, imitando la cognición humana.

¿Es Titans mejor que GPT-4?

En benchmarks específicos diseñados para probar el razonamiento a largo plazo, como BABILong, Titans ha demostrado superar a modelos más grandes como GPT-4 mientras utiliza significativamente menos recursos computacionales.

¿Cuál es el marco MIRAS?

MIRAS es el marco teórico desarrollado junto a Titans. Unifica diferentes arquitecturas de IA como Transformers y RNNs, revelando sus principios comunes y proporcionando un plan para diseñar nuevos modelos más eficientes.

¿Por qué es tan importante la memoria a largo plazo para la IA?

La memoria a largo plazo es un componente crítico de la inteligencia humana. Permite un aprendizaje continuo, una comprensión contextual y la construcción de una base de conocimiento persistente, los cuales se consideran pasos esenciales para alcanzar la Inteligencia General Artificial (AGI).

Frequently Asked Questions

¿Qué es Google Titans?
Titans es una nueva arquitectura de IA de Google diseñada para la memoria a largo plazo. Puede mantener más de 2 millones de tokens de contexto y aprender y actualizar activamente su memoria en tiempo real sin necesidad de reentrenamiento.
¿Cómo funciona el sistema de memoria de los Titanes?
En lugar de una simple base de datos vectorial, Titans utiliza una pequeña red neuronal interna como su memoria. También emplea una 'métrica de sorpresa' para priorizar el almacenamiento de información novedosa e importante, imitando la cognición humana.
¿Es Titans mejor que GPT-4?
En benchmarks específicos diseñados para probar el razonamiento a largo plazo, como BABILong, Titans ha demostrado superar a modelos más grandes como GPT-4 mientras utiliza significativamente menos recursos computacionales.
¿Cuál es el marco MIRAS?
MIRAS es el marco teórico desarrollado junto a Titans. Unifica diferentes arquitecturas de IA como Transformers y RNNs, revelando sus principios comunes y proporcionando un plan para diseñar nuevos modelos más eficientes.
¿Por qué es tan importante la memoria a largo plazo para la IA?
La memoria a largo plazo es un componente crítico de la inteligencia humana. Permite un aprendizaje continuo, una comprensión contextual y la construcción de una base de conocimiento persistente, los cuales se consideran pasos esenciales para alcanzar la Inteligencia General Artificial .
🚀Discover More

Stay Ahead of the AI Curve

Discover the best AI tools, agents, and MCP servers curated by Stork.AI. Find the right solutions to supercharge your workflow.

Back to all posts