TL;DR / Key Takeaways
El arquitecto de Transformers dice que es hora de avanzar.
El arquitecto del boom moderno de la IA ahora quiere acabar con su propia creación. Llion Jones, uno de los ocho autores del paper “Attention Is All You Need” de Google en 2017, argumenta que la era de los transformadores está llegando a su fin y que es “hora de avanzar más allá de los transformadores”. Desde su nueva posición como CTO y cofundador de Sakana AI Labs, Jones está apoyando una arquitectura radicalmente diferente llamada Máquinas de Pensamiento Continuo que trata el pensamiento como un proceso, no como un único intento.
Los Transformers convirtieron la predicción de la siguiente palabra en una interfaz universal, impulsando a GPT-4, Gemini, Claude y casi todos los principales modelos de lenguaje de gran tamaño. Pero simplemente escalarlos—más parámetros, más datos, más GPUs—ha comenzado a mostrar rendimientos decrecientes, ya que el reciente trabajo sobre "límites a gran escala" sugiere que las ganancias marginales se reducen incluso cuando los costos de entrenamiento explotan hasta decenas o cientos de millones de dólares por modelo de frontera. La crítica principal: estos sistemas aún luchan con el razonamiento en múltiples pasos, la lógica frágil y las tareas que requieren planificación a largo plazo en lugar de simplemente regurgitar patrones.
Esa crítica tiene un peso diferente viniendo de alguien que ayudó a diseñar la atención en primer lugar. Cuando un arquitecto original de transformers dice que el campo necesita nuevos planos, señala que los laboratorios principales ya están buscando paradigmas post-transformer en lugar de asumir que las curvas de escalado los salvarán. Jones y Sakana están apostando por neuroevolución y sistemas dinámicos, buscando redes que evolucionen su estado interno con el tiempo, más cerca de cómo operan los cerebros biológicos.
Las Máquinas de Pensamiento Continuo, tal como se describe en el trabajo de Sakana, otorgan a cada "neurona" una pequeña memoria y una regla de actualización local, luego permiten que miles de estos mini cerebros interactúen durante muchos pasos internos. En lugar de un único paso hacia adelante desde el aviso hasta la respuesta, el modelo ejecuta "ticks" internos donde revisita el problema, refina representaciones intermedias e incluso puede cambiar de opinión antes de generar una salida. Ese cambio transforma la computación de un emparejamiento de patrones estático a un proceso en curso.
Esta es la línea de falla emergente: modelos que solo predicen el siguiente token versus sistemas que procesan información a lo largo del tiempo. El giro de Jones marca el inicio de una nueva carrera por construir IA que no solo complete nuestras oraciones, sino que realmente piense entre ellas.
La apuesta radical de Sakana AI: La máquina de pensamiento continuo
Sakana AI Labs está apostando a que las Máquinas de Pensamiento Continuo son lo que viene después de los transformadores. Cofundada por Llion Jones, uno de los ocho autores detrás de “Attention Is All You Need”, la startup con sede en Tokio acaba de recaudar una ronda de financiamiento Serie B para perseguir CTM como un cambio radical de la arquitectura que impulsó GPT-4, Gemini y Claude.
En lugar de disparar una vez y olvidar, CTM trata el pensamiento como un proceso interno continuo. Un transformador estándar realiza una sola pasada hacia adelante sobre tu aviso, produce un token de salida y luego descarta casi todo el estado interno; CTM sigue "reflexionando" sobre un problema, actualizando su dinámica interna a través de muchos pequeños pasos antes de comprometerse con una respuesta.
Cada "neurona" de CTM se comporta menos como un multiplicador tonto y más como un mini-cerebro con su propia memoria. Las neuronas llevan un pequeño vector de estado que persiste en el tiempo, lo que les permite recordar lo que sucedió hace unos instantes, actualizarse y influir en el cálculo futuro en función de esa historia en evolución.
El artículo de Sakana describe el modelo como un enjambre sincronizado de estas unidades con estado. En lugar de tratar las activaciones como números aislados, CTM rastrea cómo las actividades neuronales suben y bajan juntas; esos patrones de sincronización—quién “baila” en fase con quién—se convierten en la moneda representacional central, análoga a la disparo rítmico en circuitos neuronales biológicos.
Eso hace que CTM sea fundamentalmente diferente de las neuronas sin estado en las pilas de transformadores de hoy. Los LLMs convencionales fingen deliberación apilando más capas o muestreando más tokens, pero cada capa aún solo calcula f(x) y sigue adelante; ninguna unidad individual conserva una memoria de su propio comportamiento pasado.
CTM también incorpora un explícito "tiempo de reflexión". El sistema puede funcionar durante un número variable de ticks internos—cortos para tareas simples, más largos para las difíciles—antes de presentar un resultado, reflejando cómo los humanos toman ciclos adicionales en un laberinto complicado o un problema matemático.
Sakana no lo presenta como un ajuste de rendimiento, sino como una reinvención completa de lo que es un modelo. En lugar de bloques de retroalimentación más grandes, CTM propone un sistema dinámico en evolución continua como el sustrato básico del razonamiento automático.
Dentro de CTM: Neuronas con recuerdos y mentes propias.
CTM comienza redefiniendo qué se permite que sea una neurona. En lugar de una simple unidad de "Vi esto, output eso", cada neurona de CTM lleva su propio estado interno—un pequeño bloc de notas que persiste a lo largo de los pasos de tiempo. Miles de estos mini-cerebros actualizan sus memorias en cada instante, como pequeñas criaturas que llevan diarios de lo que acaban de ver y de lo que esperan ver a continuación.
Esos diarios importan porque CTM no piensa en instantáneas individuales. El modelo recorre múltiples ciclos internos, actualizando el estado de cada neurona una y otra vez antes de comprometerse con una respuesta. Los problemas difíciles activan más ciclos, por lo que el sistema efectivamente elige cuánto tiempo pensar, en lugar de estar limitado a un solo paso hacia adelante por entrada.
La representación también se ve diferente. En lugar de tratar el significado como un vector estático, CTM codifica sus “pensamientos” en cómo las actividades neuronales aumentan y disminuyen juntas a lo largo del tiempo—sincronización como representación. Cuando las activaciones de dos neuronas pulsan de manera sincronizada, CTM interpreta ese ritmo coordinado como una señal de que están codificando conjuntamente algún concepto.
Imagina un estadio de bailarines realizando una rutina coreografiada de manera precisa. La postura de un solo bailarín tiene poco significado; el sentido surge de quién se mueve con quién y cuándo. CTM se apoya en estos patrones temporales de sincronía, utilizándolos como sustrato para conceptos, planes y pasos intermedios de razonamiento.
Hacer que las neuronas se comporten así no es algo que puedas programar a mano. Sakana AI se basa en neuroevolución, utilizando algoritmos evolutivos para buscar reglas de actualización de neuronas, patrones de conectividad y comportamientos dinámicos. En lugar de depender de un descenso de gradiente puro que esculpe una arquitectura fija, la evolución propone extraños nuevos diseños de mini-cerebros, y solo los más capaces sobreviven.
Ese es un cambio drástico con respecto a los modelos de lenguaje grandes convencionales, donde casi todo, desde los patrones de atención hasta las formas de las capas, proviene del descenso de gradiente en una pila de transformadores. Aquí, el descenso de gradiente se convierte en una herramienta dentro de un proceso de búsqueda más amplio que puede mutar, recombinar y desechar comportamientos de neuronas en su totalidad. El resultado es un zoológico de tipos de neuronas especializadas con dinámicas sorprendentemente ricas.
Este cambio hacia la computación dinámica y con estado refleja trabajos más amplios sobre el aprendizaje continuo y anidado que provienen de Google y otros. Los lectores que sigan estas tendencias pueden consultar Las últimas noticias de IA que anunciamos en noviembre - Actualizaciones de Google AI para ver cómo los principales laboratorios también están explorando arquitecturas que piensan a lo largo del tiempo en lugar de en ráfagas puntuales. Juntos, apuntan hacia sistemas de IA que se sienten menos como calculadoras estáticas y más como procesos de pensamiento en evolución y siempre activos.
Por qué 'Pensar en Longitud' Desbloquea un Razonamiento Más Profundo
Los cerebros se vuelven más interesantes cuando dejan de responder al instante y comienzan a hacer bucles. Máquinas de Pensamiento Continuo incorporan ese bucle a nivel de hardware del pensamiento, proporcionando al modelo "marcadores internos" explícitos donde puede actualizar su propio estado interno, reconsiderar planes parciales y solo entonces hablar. Esos marcadores se asemejan mucho a un ciclo de reloj para la cognición: pasos de razonamiento discretos y contables que se ejecutan completamente dentro de la red, sin emitir texto intermedio ni llamadas a herramientas.
Cada tick avanza la dinámica interna de miles de diminutos neuronas con estado. En lugar de un único paso hacia adelante desde la entrada hasta la salida, CTM ejecuta el mismo circuito neuronal una y otra vez, permitiendo que la información se propague, se estabilice y, a veces, se invierta. Más ticks significan literalmente más tiempo de reflexión, y el sistema puede aumentar eso para problemas más difíciles, al igual que los humanos se detienen en un rompecabezas complicado.
Esa capacidad adicional se muestra más claramente en tareas donde los transformadores suelen encontrar dificultades. En experimentos de resolución de laberintos, los agentes CTM pueden planificar rutas a través de laberintos más grandes que cualquiera que hayan visto durante el entrenamiento, extrapolando efectivamente su estrategia en lugar de memorizar los diseños. Cada tick interno permite al modelo “caminar” mentalmente unos pasos más, retroceder desde callejones sin salida y propagar restricciones a través de la cuadrícula.
Los transformadores estándar tienen dificultades aquí porque comprimen todo el laberinto y la solución en uno o dos pasadas de atención. La longitud del contexto y la cantidad de parámetros se convierten en límites difíciles. El bucle iterativo de CTM desacopla la profundidad de razonamiento del tamaño del modelo: una red pequeña aún puede tardar 50, 100 o 500 ticks si el problema lo requiere, intercambiando tiempo por información.
Los investigadores también pusieron a prueba el CTM en tareas algorítmicas de juguete. El modelo aprendió algoritmos simples como las reglas de “invertir la respuesta” en rompecabezas matemáticos y ordenar números en orden ascendente. Críticamente, lo hizo de manera procedimental: los números se acomodan a su lugar en sucesivos momentos, reflejando los pasos de ordenamiento de un libro de texto en lugar de coincidir un patrón de un solo golpe.
Ese sabor procedural conecta CTM directamente con la obsesión de la industria por el razonamiento deliberado y en múltiples pasos. La familia o1 de OpenAI, el "chain-of-thought" de Google y los agentes que utilizan herramientas añaden bucles extra alrededor de los transformadores. CTM incorpora el bucle en la propia arquitectura, convirtiendo el razonamiento en múltiples pasos de un truco de aviso en un primitivo computacional de primera clase.
La Revolución en Eficiencia de Deepseek para Contextos Largos
Arquitecturas radicalmente nuevas inspiradas en el cerebro como CTM acaparan los titulares, pero una revolución más silenciosa puede ser igual de importante: hacer que los transformers de hoy sean radicalmente más económicos de escalar. Ahí es donde entra Deepseek Sparse Attention (DSA), no reemplazando a los transformers, sino atacando su cuello de botella más doloroso.
La autoatención estándar enfrenta una matemática brutal. Para un contexto de N tokens, los costos de atención escalan como O(N²) porque cada token se compara con todos los demás tokens. Si aumentas el contexto de 8,000 a 1,000,000 tokens, no solo agregas costo, lo explotas por un factor de 15,625.
Esa pared cuadrática mata muchos sueños sobre modelos de "contexto infinito" que recuerdan bases de código completas, conversaciones de varios días o archivos de investigación masivos. Incluso con clústeres de GPU, atender a cientos de miles de tokens con precisión total agota la memoria, la energía y los presupuestos de latencia. Se siente ese costo cada vez que los modelos de contexto largo se ralentizan hasta casi detenerse.
La respuesta de Deepseek: no atiendas a todo, atiende a lo que importa. DSA añade un nuevo módulo, el llamado indexador relámpago, a la pila de transformadores para que cada token pueda triagear rápidamente el pasado en lugar de leerlo de nuevo de forma ingenua.
El indexador lightning actúa como un motor de búsqueda por token. Para cada nuevo token, escanea rápidamente todos los tokens anteriores, asigna una puntuación de relevancia y selecciona solo los K mejores candidatos para atención completa. K permanece pequeño y fijo—docenas o cientos—mientras que N puede aumentar a millones.
Piénsalo como leer solo las notas resaltadas en un libro de texto en lugar de volver a leer cada línea en cada página antes de responder a una pregunta. Aún basas tu respuesta en el libro, pero omites los capítulos irrelevantes y los garabatos en los márgenes que habrían desperdiciado tiempo.
Bajo el capó, esto cambia la atención de cuadrática a aproximadamente O(N·K), que se comporta linealmente mientras K se mantenga limitado. Ese cambio desbloquea contextos extremadamente largos en el hardware actual, haciendo que la "inteligencia de frontera" sea menos sobre lanzar más GPUs al problema y más sobre ser más inteligente sobre dónde miran los modelos.
Haciendo realidad el contexto de un millón de tokens.
El contexto de un millón de tokens solía sonar como una fantasía de marketing. La Atención Escasa de Deepseek (DSA) convierte esto en una cuestión de presupuestos. Al hacer que el cómputo y la memoria escalen aproximadamente de forma lineal con la longitud de la secuencia en lugar de cuadráticamente, DSA reduce drásticamente el costo de revisar grandes historiales, desde registros de chat hasta bases de código.
La atención tradicional hace que cada token se compare consigo mismo y con cada otro token. A 128K tokens, eso ya significa más de 16 mil millones de comparaciones por capa; a 1 millón de tokens, se superan los mil billones de interacciones y el hardware colapsa. El indexador relámpago de DSA elude esto al puntuar la relevancia y solo atender a los mejores K tokens que importan.
El escalado lineal cambia lo que los ingenieros se atreven a lanzar. Ventanas de contexto de 256K o 512K tokens pasan de "demostrar una vez en un clúster A100" a "ejecutar a diario para clientes sin incendiarse". Los contextos de un millón de tokens dejan de ser proyectos científicos y empiezan a parecer un SKU viable para copilotos empresariales y herramientas de investigación.
Ahora, todo un repositorio de software puede caber en un solo contexto: cada microservicio, cada migración, cada prueba inestable. Un modelo de largo contexto puede rastrear un error desde un stack trace reciente a través de años de commits, documentos de diseño y hilos de problemas, y proponer una solución que respete todo ello. Los refactorizados complejos a través de cientos de archivos se convierten en un único proceso de razonamiento en lugar de una frágil cadena de indicaciones.
Los agentes de aprendizaje por refuerzo se benefician aún más. Con historias de un millón de tokens, un sistema de RL puede condicionar sobre: - Meses de trayectorias de juego - Registros completos de comercio a través de regímenes - Ejecuciones robóticas a largo plazo con fallos raros
Esa profundidad permite que los agentes aprendan de casos excepcionales sin truncar la configuración que los causó. La modelación de contexto largo también potencia a los asistentes científicos como los descritos en Acelerando la Ciencia con GPT-5 – OpenAI, que pueden mantener registros de experimentos completos, revisiones de literatura y datos en bruto en la memoria activa. La eficiencia al estilo DSA se convierte en un habilitador fundamental para la próxima ola de agentes de IA conscientes del contexto que razonan sobre mundos enteros, no solo fragmentos.
El nuevo trabajo de GPT-5: Potenciando el descubrimiento científico.
GPT-5 está realizando una audición silenciosa para un nuevo papel: socio de laboratorio de algunos de los humanos más inteligentes del planeta. El último programa de investigación de OpenAI introduce al modelo en laboratorios reales en Oxford, Cambridge, Harvard y otras instituciones de prestigio, no para resumir libros de texto, sino para enfrentarse a problemas sin resolver en tiempo real.
Según el informe de OpenAI titulado “Acelerando la Ciencia con GPT-5”, los investigadores utilizaron el modelo en preguntas de vanguardia en biología, química y física. No se trataba de acertijos de referencia o tareas sintéticas; eran los mismos problemas complejos y de alto riesgo que normalmente consumen meses de tiempo de posdoctorado y dinero de subvenciones.
La descripción del trabajo de GPT-5 se parece menos a "científico robot" y más a socio de investigación súper rápido y conocedor. Los científicos le pidieron que propusiera hipótesis, diseñara experimentos, criticara métodos y revisara literaturas masivas que ningún humano puede seguir completamente. El modelo generó mecanismos candidatos, sugirió controles alternativos y reformuló matemáticas densas o demostraciones en pasos más claros y verificables.
OpenAI enfatiza que los humanos permanecieron firmemente en el asiento del conductor. Cada sugerencia de GPT-5 pasó por expertos en el tema que filtraron, corrigieron y, a veces, desecharon sus ideas. El sistema actuó como un multiplicador de fuerza: acelerando la revisión de literatura, haciendo surgir artículos oscuros pero relevantes y enumerando casos marginales que los investigadores ocupados podrían pasar por alto.
Las primeras anécdotas del estudio se leen como trucos de productividad para el método científico. Un grupo utilizó GPT-5 para: - Revisar cientos de artículos en busca de resultados contradictorios - Proponer explicaciones unificadas para las discrepancias - Redactar nuevos diseños experimentales para probar esas explicaciones
Otro equipo se apoyó en GPT-5 para explorar espacios de diseño combinatorio que se desbordan más allá de la memoria de trabajo humana, optimizando parámetros, materiales o estructuras moleculares a través de miles de posibilidades. El modelo realizó la búsqueda tediosa; los humanos decidieron qué direcciones tenían realmente sentido.
De manera crucial, OpenAI no presenta a GPT-5 como un oráculo que “resuelve la ciencia”. En cambio, el documento lo enmarca como cognición aumentada para laboratorios: un sistema que reduce días de lectura a minutos, genera docenas de pasos siguientes plausibles y libera a los investigadores humanos para que dediquen más tiempo a la evaluación, la intuición y los experimentos prácticos.
Desbloqueando Misterios Médicos y Resolviendo Problemas Matemáticos Antiguos
La aceleración de la ciencia suena abstracta hasta que GPT-5 comienza a reescribir cuadernos de laboratorio y artículos de teoría de números en tiempo real.
Los propios estudios de caso de OpenAI parecen ficción especulativa. En un experimento, inmunólogos alimentaron a GPT-5 con un gráfico inédito de un estudio humano: una serie temporal que mostraba un extraño pico y caída en una población específica de células inmunitarias tras el tratamiento. Nadie en el equipo tenía una explicación mecanicista satisfactoria para el patrón.
GPT-5 no solo resumió el gráfico; propuso un mecanismo biológico novedoso. El modelo sugirió que un aumento transitorio de un citoquino particular podría desencadenar una expansión de corta duración de un subtipo de células T, seguida de agotamiento y contracción, y señalaba incluso vías de señalización específicas y artículos previos que encajaban con la forma de la curva. Los investigadores señalaron la hipótesis, realizaron análisis adicionales y más tarde confirmaron que la vía sugerida coincidía con datos experimentales adicionales.
Ese flujo de trabajo importa más que la victoria individual. GPT-5 efectivamente saltó de la "descripción de datos" a la "teoría mecanicista", el paso que los científicos humanos suelen proteger como trabajo creativo esencial. OpenAI informa que, en múltiples proyectos de biología, GPT-5 pasó de solo limpiar conjuntos de datos a proponer mecanismos verificables, clasificar explicaciones candidatas y sugerir qué experimentos realizar primero.
Las matemáticas ofrecieron un ejemplo aún más claro. Dos matemáticos que trabajaban en un problema de Erdos de décadas de antigüedad habían llevado una prueba de combinatoria a un obstruido punto crítico. Tenían un montón de argumentos parciales y lemas fallidos, pero no encontraban una manera clara de avanzar en un paso crucial.
GPT-5 absorbió todo el bloc de notas: pruebas en LaTeX, intentos infructuosos y notas informales. En lugar de atacar el álgebra de forma bruta, el modelo destacó una simetría oculta en el comportamiento de una cierta configuración extremal bajo una transformación que los autores habían considerado irrelevante. Esa percepción que rompía el patrón sugirió un nuevo parámetro de inducción y una nueva forma de partitionar los objetos en cuestión, lo que los matemáticos luego formalizaron en un paso de prueba válido.
OpenAI presenta esto no como "la IA prueba a Erdős", sino como GPT-5 actuando como un tercer colaborador que nunca se cansa de volver a leer el mismo borrador de 40 páginas. El sistema destaca reestructuraciones no obvias que los coautores humanos luego verifican, corrigen o descartan.
La versatilidad también se manifiesta fuera de pizarras y laboratorios húmedos. En robótica, GPT-5 revisó algoritmos de planificación de movimiento y control, identificó casos límite donde las garantías de seguridad fallaron silenciosamente, y propuso formulaciones alternativas que cerraron esas brechas, convirtiendo un modelo de texto en un detector de errores itinerante para sistemas físicos.
El Nuevo Método Científico: Humano + IA
Los nuevos flujos de trabajo empiezan a parecerse menos a genios solitarios y más a laboratorios mixtos de humanos y máquinas. Los investigadores en los experimentos de GPT-5 no le pidieron al modelo "una respuesta"; lo trataron como un motor de búsqueda de ideas, ejecutando cientos de hipótesis candidatas, ajustes y casos límite mientras guiaban la agenda general.
Los humanos aún enmarcan el espacio del problema. Deciden qué vía biológica es relevante, qué conjetura en teoría de números vale la pena investigar, y qué ajustes experimentales puede realizar el modelo. Esa intuición humana sobre lo que es interesante, plausible o éticamente aceptable no surge del descenso por gradiente.
Una vez que se establece el objetivo, GPT-5 se convierte en un multiplicador de fuerza. Expande rápidamente el espacio de búsqueda: propone mecanismos alternativos para una enfermedad, sugiere regímenes de parámetros no ortodoxos para un experimento, o destaca artículos oscuros en inmunología, estadísticas y topología que comparten una estructura oculta. Piénsalo como un incansable investigador postdoctoral que nunca deja de leer.
Un patrón emerge a través de los estudios de caso médicos y matemáticos. Los humanos: - Especifican restricciones y criterios de éxito - Seleccionan datos, priors y supuestos del dominio - Interrogan el razonamiento del modelo línea por línea - Deciden qué resultados justifican experimentos en el mundo real
GPT‑5, en cambio, brilla cuando: - Genera hipótesis novedosas a gran escala - Conecta subcampos distantes a través de analogías y formalismos compartidos - Pone a prueba ideas con contraejemplos y escenarios adversariales - Automatiza verificaciones simbólicas o estadísticas tediosas
Esta división del trabajo asume una supervisión experta porque el modelo aún presenta alucinaciones. GPT‑5 puede inventar citas, sobreajustarse a peculiaridades del aviso, o recomendar con confianza un experimento que viola una restricción oculta en la biología o la matemática subyacente.
La sensibilidad al aviso también se convierte en un riesgo metodológico. Cambios sutiles en la forma en que se plantea una pregunta pueden llevar al modelo de una derivación correcta a un error algebraico o conceptual sutil pero fatal, especialmente en cadenas de pensamiento de varios pasos. Por lo tanto, los investigadores en estos proyectos utilizaron plantillas de aviso estrictas, ejecuciones redundantes y verificaciones cruzadas con herramientas tradicionales.
Visto de manera optimista, este es un nuevo método científico: los humanos proporcionan juicio y valores, mientras que sistemas como GPT‑5 industrializan la generación y falsificación de ideas. Para más ejemplos de este flujo de trabajo híbrido en laboratorios, consulta Las Últimas Noticias de IA y los Avances en IA que Más Importan: 2025.
Lo que estos avances significan para 2025
De repente, el progreso de la IA ya no sigue una única vía. Máquinas de Pensamiento Continuo, Atención Escasa de Deepseek y los bocetos del co-piloto científico de GPT‑5 apuntan a tres ejes ortogonales de cambio: nuevas arquitecturas similares al cerebro, hackeos de eficiencia brutal para contextos largos y modelos que dejan de conversar y comienzan a hacer ciencia real.
CTM de Sakana AI, impulsado por el coautor transformer Llion Jones, derriba la regla de “un pase hacia adelante, una respuesta”. Sus neuronas llevan su propio estado, se sincronizan como osciladores e iteran a través de ticks internos hasta que emerge una solución, lo que permite resolver laberintos, ordenar algoritmos y utilizar agentes de aprendizaje por refuerzo que piensan múltiples veces antes de actuar.
La Atención Escasa de Deepseek ataca un cuello de botella diferente: el costo. La atención estándar escala cuadráticamente con la longitud de la secuencia; a 1 millón de tokens, eso se convierte en algo casi absurdo tanto en términos de memoria como de FLOPs. El indexador ultrarrápido de Deepseek reduce el contexto a los tokens más relevantes (top‑K), haciendo que las ventanas de un millón de tokens se comporten más como operaciones de costo lineal en lugar de una explosión de cómputo.
El trabajo científico de GPT‑5 de OpenAI cambia la pregunta de “¿cuán grande es tu modelo?” a “¿qué puede realmente descubrir?” En sus propias métricas, GPT‑5 ayudó a generar hipótesis, diseñar experimentos y depurar código para tareas del mundo real en biología, química y matemáticas, convirtiendo a los LLM en colaboradores que pueden cerrar ciclos de investigación completos en lugar de solo completar automáticamente PDFs.
Tomados en conjunto, estos movimientos marcan una ruptura con los últimos cinco años de la cultura de "simplemente escalar". Apuestas arquitectónicas como CTM, jugadas de eficiencia como DSA y despliegues dirigidos a dominios como GPT-5-para-ciencia señalan una estrategia más pluralista: sistemas especializados, módulos de razonamiento personalizados y flujos de trabajo donde humanos y modelos ocupan roles distintos.
Espera que los próximos 6 a 12 meses estén dominados por híbridos. Los stacks de vanguardia de OpenAI, Google y otros probablemente mantendrán los transformadores para el lenguaje, pero añadirán: - Módulos recurrentes al estilo CTM para razonamiento a largo plazo - Capas de atención dispersa para contextos de varios millones de tokens - Agentes de dominio ajustados específicamente para trabajo de laboratorio, código o búsqueda de teoremas
Estos documentos no se leen como curiosidades académicas aisladas; se leen como hojas de ruta. CTM esboza un sistema de control post-transformador, Deepseek muestra cómo ampliar las ventanas de contexto sin fundir GPUs, y el agente científico de GPT-5 describe cómo esos sistemas se integran en laboratorios reales y grupos de investigación. Juntos, parecen menos demostraciones y más planos para la próxima generación de infraestructura de IA que respaldará silenciosamente los mayores avances de 2025.
Preguntas Frecuentes
¿Qué son las Máquinas de Pensamiento Continuo (CTM)?
CTM es una nueva arquitectura de IA propuesta por Sakana AI que va más allá de los transformadores de paso único. Utiliza neuronas con memoria y un 'tiempo de reflexión' iterativo para resolver problemas paso a paso, imitando de manera más cercana el razonamiento humano.
¿Cómo se diferencia CTM de la IA como ChatGPT?
Mientras que modelos como ChatGPT generan respuestas en un único paso hacia adelante por token, los CTMs refinan internamente sus pensamientos en múltiples pasos antes de producir una respuesta. Esto les permite abordar tareas de razonamiento más complejas y de múltiples pasos.
¿Se está utilizando ya GPT-5 para la investigación científica?
Sí, según un documento de OpenAI, se está utilizando una versión preliminar de GPT-5 en colaboración con universidades de élite para acelerar la investigación en el mundo real en biología, matemáticas y ciencias de la computación, actuando como un socio experto en investigación.
¿Qué hace que el nuevo mecanismo de atención de Deepseek sea tan eficiente?
El Sparse Attention (DSA) de Deepseek utiliza un 'indexador relámpago' para identificar y centrarse únicamente en las partes más relevantes de un contexto largo. Esto evita el alto costo computacional del attention estándar, permitiendo a los modelos manejar contextos de millones de tokens de forma mucho más eficiente.