OpenAI acaba de sorprender a una IA pensando.

En un impresionante nuevo documento, OpenAI revela cómo eliminaron el 99.9% de las conexiones de un modelo para exponer su lógica oculta. Por primera vez, podemos observar a una inteligencia artificial tomar decisiones paso a paso.

Stork.AI
Hero image for: OpenAI acaba de sorprender a una IA pensando.
💡

TL;DR / Key Takeaways

En un impresionante nuevo documento, OpenAI revela cómo eliminaron el 99.9% de las conexiones de un modelo para exponer su lógica oculta. Por primera vez, podemos observar a una inteligencia artificial tomar decisiones paso a paso.

El momento en que encontraron el Schaltplan

Alguien en OpenAI acaba de realizar el equivalente en IA de sacar un procesador de epoxi y encontrar un esquema eléctrico legible en su interior. Su nueva investigación sobre "sparsidad de circuitos" toma un Transformador estilo GPT‑2, lo entrena en código Python y elimina brutalmente más del 99.9% de sus conexiones internas durante el entrenamiento. Lo que sobrevive no es un borroso de probabilidades, sino pequeños circuitos trazables que realmente puedes seguir.

El diseño moderno de modelos de lenguaje trata el razonamiento como una caja negra: millones o miles de millones de pesos se activan a la vez, y solo ves el token final. Incluso cuando una respuesta parece correcta, nadie puede decir qué cabeza de atención, neurona o espacio de memoria realmente importó. El trabajo en interpretabilidad generalmente pincha esta niebla; casi nunca la condensa en algo que se asemeje a un diagrama de cableado dibujado a mano.

La escasez de circuitos cambia el objetivo. OpenAI no afirma un salto en rendimiento sobre GPT-2 denso; de manera explícita intercambian eficiencia por legibilidad y confianza. El equipo impone la escasez de pesos durante la optimización misma, anulando todas las conexiones excepto las más fuertes después de cada paso de AdamW, y añade una ligera escasez de activación para que solo aproximadamente 1 de cada 4 señales internas se active a la vez.

En los modelos más agresivos, aproximadamente 1 de cada 1000 pesos permanece en un estado no cero, sin embargo, la pérdida de referencia se mantiene comparable a los baselines densos. Debido a que el recorte aumenta gradualmente durante el entrenamiento, el modelo comprime su comportamiento aprendido en un presupuesto decreciente de nodos y aristas. Lo que queda forma circuitos "sparsos" compactos que aún cierran comillas, cuentan corchetes o rastrean tipos de variables.

Los Transformers densos difuminan cada comportamiento a través de extensas y superpuestas subredes que resisten una explicación clara. Una sola característica puede estar presente en docenas de cabezas y capas, entrelazada con patrones no relacionados. Cuando los investigadores ablindan partes de esos modelos, principalmente aprenden que "muchas cosas importaban", no cómo funcionaba el algoritmo.

Los homólogos escasos parecen casi anticuados. Para una tarea de cierre de citas, OpenAI informa de un circuito final con solo 12 unidades internas y 9 conexiones supervivientes, incluyendo una unidad que se activa con cualquier cita y otra que rastrea comillas simples vs. dobles. La misma precisión que antes requería una niebla de activaciones ahora se adapta a algo más parecido a un diagrama lógico que podrías imprimir, anotar y discutir.

El Experimento de Eliminación del 99.9%

Ilustración: El Experimento de Eliminación del 99.9%
Ilustración: El Experimento de Eliminación del 99.9%

La escasez de circuitos comienza con una regla simple pero brutal: casi todas las conexiones deben morir mientras el modelo de lenguaje sigue aprendiendo. OpenAI entrena un transformador estilo GPT-2 en código Python y, después de cada actualización de AdamW, anula todos los pesos excepto los de mayor magnitud. Sin regularización suave, sin penalizaciones suaves: las conexiones o importan lo suficiente para sobrevivir a un paso, o se reducen exactamente a cero.

En la configuración más agresiva, solo alrededor de 1 de cada 1,000 pesos permanece distinto de cero. Eso significa que más del 99.9% del cableado interno desaparece y nunca contribuye silenciosamente en segundo plano. Además, el sistema impone esparsidad de activación: en cualquier momento, solo alrededor de 1 de cada 4 señales internas tiene permitido activarse.

Esas señales abarcan toda la pila del transformador. El presupuesto de esparcidad cubre: - Neuronas individuales en los bloques MLP - Cabezas de atención y canales - Espacios de lectura/escritura en la corriente residual y la memoria

La poda tradicional suele funcionar al revés. Primero, entrenas un modelo grande y denso hasta la convergencia, luego recortas los pesos "no importantes" después de hecho, esperando que la red apenas lo note. La escasez de circuitos invierte ese guion e integra la restricción en la optimización misma, de modo que el modelo nunca aprende a depender de una enorme y enmarañada red en primer lugar.

El entrenamiento comienza de manera relativamente normal y densa, luego se aprietan las tuercas. Con el tiempo, el número permitido de pesos no nulos se reduce según un calendario, obligando a la red a comprimir lo que sabe en menos y menos conexiones sobrevivientes. Lo mismo ocurre con las activaciones: solo una pequeña fracción de unidades puede activarse en cada pasada hacia adelante, por lo que la redundancia se vuelve costosa.

La mayoría de las personas esperaría que esto afectara el rendimiento de manera drástica. En cambio, el modelo se estabiliza en algo más frío y preciso: un conjunto de circuitos hiper-eficientes. Para tareas algorítmicas simples como cerrar cotizaciones o contar corchetes, OpenAI informa que los circuitos esparcidos mínimos son aproximadamente 16 veces más pequeños (en número de aristas) que la maquinaria interna de las líneas base densas con la misma pérdida.

Funcionalmente, el comportamiento se mantiene casi idéntico; por dentro, el caos se colapsa en una lógica compacta. Lo que queda no es una red dañada, sino un Schaltplan despojado que realmente muestra su trabajo.

Supervivencia de los más inteligentes Lógica

La supervivencia aquí depende de cuán bien un modelo puede concentrar sus habilidades en cada vez menos caminos sin perder precisión. OpenAI toma un truco de la física y la optimización: recocido. El entrenamiento comienza con un transformador denso normal, luego el número permitido de pesos no nulos disminuye con el tiempo, paso a paso, mientras AdamW sigue actualizando lo que queda.

En lugar de realizar una poda después del entrenamiento, el sistema anula todos los pesos excepto los de mayor magnitud después de cada actualización. Al principio, miles de conexiones pueden llevar señal; más tarde, solo sobrevive un presupuesto mínimo. Al final, aproximadamente 1 de cada 1,000 pesos se mantiene como no cero, y solo alrededor de 1 de cada 4 activaciones internas puede activarse en cualquier momento.

Imagina forzar un ensayo divagante a convertirse en un poema breve y devastador. Todas las cláusulas ambiguas y pensamientos secundarios desaparecen; solo permanecen las líneas que realmente impulsan la idea hacia adelante. La escasez de circuitos aplica esa misma presión a los cálculos internos de un modelo de lenguaje.

Bajo este régimen, cualquier patrón perezoso o redundante muere. Si dos neuronas hacen casi lo mismo, la recocción empuja al modelo a mantener una y descartar la otra. El resultado es una red donde los caminos sobrevivientes representan piezas de lógica genuinamente distintas en lugar de una mezcla superpuesta.

OpenAI luego compara estos escasos sobrevivientes con las bases densas estándar en la misma pérdida de tarea. Para tareas simples de código en Python—cierre de comillas, conteo de corchetes, detección de conjuntos versus cadenas—los modelos escasos igualan la precisión mientras funcionan en maquinaria interna que es aproximadamente 16× más pequeña en promedio. Mismo comportamiento, una dieciseisava parte del cableado.

Esa compresión es importante porque expone lo que el modelo está haciendo realmente. En la tarea de cierre de citas, el circuito final utiliza solo 12 unidades internas y 9 conexiones: una unidad se activa con cualquier cita, otra rastrea las citas simples frente a las dobles, y otras propagan y cambian ese estado. Puedes rastrear literalmente cada decisión paso a paso.

OpenAI define estos circuitos dispersos como subgráficos mínimos que todavía resuelven una tarea cuando todo lo demás se congela a un valor medio. Los investigadores luego ablayan nodos hasta que el rendimiento colapsa, eliminando peso muerto hasta que solo queda el algoritmo indispensable. La visión general de la empresa, Entendiendo las redes neuronales a través de circuitos dispersos, explica cómo estos diminutos mecanismos implementan conteo, memoria y flujo de control token por token.

De características abstractas a circuitos concretos

Olvida las vaguedades de "características" o el lenguaje poético sobre comportamientos emergentes. OpenAI lo reduce todo a circuitos: pequeños subgrafos dentro del Sprachmodell compuestos por neuronas específicas, cabezales de atención y espacios de lectura/escritura de memoria, además de los pesos individuales que los conectan. Cada borde sobreviviente es un único parámetro no nulo en un mar donde más del 99.9% de los pesos están fijados exactamente en cero.

Para ver qué hacen realmente estos circuitos, el equipo reduce el espacio del problema a lo esencial. Se entrenan en 20 pequeños puzzles de programación deterministas donde el modelo debe elegir entre exactamente dos próximos tokens. Sin creatividad, sin generación abierta, solo “A o B” bajo reglas estrictas.

Muchas tareas suenan casi aburridas hasta que te das cuenta de que exponen una verdadera estructura algorítmica. Un circuito decide si cerrar una cadena de Python con una comilla simple o doble dependiendo de cuál la abrió. Otro cuenta listas anidadas y elige entre “]” y “]]” según la profundidad actual de los corchetes, mientras que un tercero rastrea si una variable comenzó su vida como un conjunto o como una cadena para poder elegir después entre `add` y `+=`.

Para aislar la maquinaria detrás de cada comportamiento, OpenAI realiza una ablación brutal. Progresivamente eliminan unidades y conexiones internas, congelándolas a un valor medio para que no puedan ayudar de manera encubierta, y observan cuándo colapsa la precisión en la tarea. Un bucle de optimización separado busca el subgrafo más pequeño que aún mantenga el rendimiento por encima de un umbral estricto.

Lo que sobrevive a ese proceso es el “circuito mínimo” para la tarea: un conjunto de nodos y aristas que son tanto suficientes como necesarios para el comportamiento. Sin paneles de interpretabilidad, sin mapas de calor post-hoc, solo una máscara sobre los pesos y activaciones reales que el modelo de lenguaje utiliza en el momento de la inferencia.

Para la tarea de cierre de citas, ese circuito mínimo contiene solo 12 unidades y 9 conexiones. Dos unidades destacan de inmediato: una se activa siempre que el modelo encuentra cualquier carácter de cita, la otra lleva una señal binaria que distingue entre comillas simples y dobles a lo largo del tiempo. Esa señal fluye a través de un puñado de conexiones restantes para determinar la elección final del token, una máquina literal e inspeccionable para un solo pensamiento.

Observando el incendio en el circuito de 'Cierre de Cotizaciones'

Ilustración: Observando el incendio del circuito 'Cierre de Cotización'
Ilustración: Observando el incendio del circuito 'Cierre de Cotización'

Imagina una pequeña subrutina viviendo dentro de una red neuronal: 12 unidades, 9 conexiones, un trabajo. Alimenta este escaso Sprachmodell estilo GPT-2 con una cadena de Python medio terminada, y puedes ver literalmente cómo un circuito dedicado a “cerrar la comilla” se activa, ejecuta su algoritmo y se apaga de nuevo.

El proceso comienza con una única unidad de detector. Esta neurona se activa cada vez que el modelo encuentra cualquier carácter de comillas, ya sean simples o dobles, de apertura o cierre. Su activación se convierte en una clara señal de "hay una cita aquí", no en una nebulosa probabilidad difusa.

Justo al lado, una segunda unidad se especializa aún más. Esta no se preocupa por la posición; se preocupa por el tipo. Su estado interno separa claramente las comillas simples (') de las dobles (") , una distinción de un bit codificada en activación continua pero utilizada como un booleano.

Esos dos señales se envían a un pequeño relé: una tercera unidad que actúa como una celda de memoria. Lee "apareció una cita" más "era simple o doble" y escribe esa información en el flujo residual del modelo, donde capas posteriores pueden recogerla. Esa escritura es literalmente un puñado de pesos sobrevivientes, no miles.

A partir de ahí, el circuito se comporta como un pequeño algoritmo escrito a mano: Detectar → Clasificar → Copiar → Salida. Las unidades posteriores leen la señal del tipo de cita almacenada mientras el modelo avanza a través del resto de la línea de código. Cuando llega al punto donde la cadena debería terminar, otra unidad utiliza ese dato recordado para elegir el token de cierre correcto.

Crucialmente, OpenAI puede ablacionar este circuito nodo por nodo. Elimina el detector de citas, y el modelo deja de reaccionar a las citas. Congela la unidad de seguimiento de tipos a un valor constante, y siempre cierra con la misma cita, sin importar lo que haya abierto la cadena.

Los investigadores no infieren esto a partir de mapas de calor o atribuciones de características vagos. Definen un circuito escaso mínimo, optimizan las máscaras hasta que solo quedan 12 unidades y 9 aristas, y verifican que este subgrafo por sí solo aún resuelve la tarea de `comillas_simples_dobles`. Todo lo demás puede permanecer en su valor medio y el comportamiento apenas cambia.

Para un campo que utiliza comportamientos "emergentes" difuminados a través de millones de parámetros, poder señalar una docena de unidades y decir "ese es el cerrador de citas" se siente casi mecánico. Se parece menos a estadísticas y más a código.

Un Vistazo a la Verdadera Memoria de la IA

La memoria se muestra más claramente en una tarea engañosamente simple: set_or_string. El modelo lee código Python donde una variable podría ser creada como un `set()` o como una cadena, y luego tiene que elegir entre `x.add(...)` o `x += ...`. Esa elección solo tiene sentido si el modelo recuerda cómo comenzó `x` su vida hace varios tokens.

El transformador disperso de OpenAI no solo "siente" su camino a través de patrones aquí. Cuando el código define `x = set()`, un pequeño subcircuito dedicado escribe un marcador interno en el flujo residual: una característica compacta que codifica "x es un conjunto, no una cadena". Un camino paralelo activa un marcador diferente cuando el modelo ve `x = "hola"` o inicializaciones de cadena similares.

Ese marcador no permanece en todos lados a la vez. Debido a que el modelo opera bajo una brutal escasez, aproximadamente 1 de cada 1000 pesos es no nulo y solo alrededor de 1 de cada 4 activaciones puede disparar, solo un puñado de nodos puede llevar esa señal hacia adelante. Cabezas de atención específicas aprenden a rastrear la posición de la variable y copiar su marcador de tipo a través del tiempo, paso a paso, a medida que nuevos tokens fluyen a través del Sprachmodell.

Más tarde, cuando el código llega a `x ??? algo`, una parte diferente del circuito se activa. Un pequeño grupo de lectura consulta la corriente residual en ese momento, preguntando efectivamente: "¿Qué marcador sobrevivió para x?" Si el marcador establecido domina, el circuito redirige la masa de probabilidad hacia `.add(`; si el marcador de cadena gana, impulsa `+=` en su lugar. La decisión depende de un estado interno almacenado y luego recuperado.

Los investigadores validaron esto al ablacionar nodos y bordes individuales dentro del circuito set_or_string. Si se eliminan las unidades de escritura que crean el marcador, el modelo olvida el tipo de variable; si se eliminan las unidades de lectura, ya no puede utilizar la información almacenada, a pesar de que los tokens anteriores lucían bien. El comportamiento colapsa exactamente de la misma manera que lo haría un registro de memoria dañado.

Por eso OpenAI lo enmarca como memoria deliberada genuina, no como un emparejamiento de patrones difuso. El artículo de OpenAI sobre los transformadores con ponderación escasa que tienen circuitos interpretables lo describe como un mecanismo concreto de almacenamiento y recuperación: un circuito mínimo e inspeccionable que recuerda un hecho y lo consulta más tarde para elegir la línea de código correcta.

Construyendo Puentes hacia Modelos de Producción

Los puentes son donde esto deja de ser una demostración cute de laboratorio y comienza a tocar modelos de lenguaje reales. OpenAI entrena transformadores pequeños y brutalmente escasos donde pueden ver circuitos individuales, y luego agrega redes de "puente" aprendidas que traducen entre esas activaciones escasas y un modelo denso normal del tamaño que realmente desplegarías.

Un puente funciona como un par de adaptadores. Un codificador transforma el desordenado estado oculto del modelo denso en el limpio y de baja dimensionalidad del circuito escaso; un decodificador convierte cualquier cambio en ese espacio escaso de vuelta al lenguaje nativo del modelo denso, que consiste en millones de activaciones.

Esa capa de traducción importa porque convierte la interpretabilidad en una vía de doble sentido. Los investigadores pueden encontrar una característica en el modelo escaso—digamos el circuito set_or_string que rastrea si una variable es un conjunto o una cadena—y luego usar el puente para buscar su contraparte en un modelo estilo GPT-2 a escala de producción entrenado con los mismos datos de Python.

Una vez que se acoplan a la característica coincidente, pueden pincharla. Voltea la unidad escasa "esto es un conjunto" a través del puente y observa si el modelo denso comienza a preferir `.add(` en lugar de `+=`. Empuja el circuito de cierre de comillas y verifica si el modelo grande de repente cierra incorrectamente cadenas, a pesar de que ningún peso en la red densa cambió directamente.

Esto proporciona un flujo de trabajo concreto para depurar sistemas reales, no solo configuraciones de juguete. Cuando un Modelo desplegado alucina una API o clasifica incorrectamente el contenido, los ingenieros podrían: - Usar un proxy escaso para encontrar un circuito responsable - Mapear ese circuito a través de un puente hacia el Modelo denso - Intervenir de manera sistemática para confirmar la causalidad y probar soluciones

La trampa práctica: los puentes no hacen que las redes densas se vuelvan mágicamente transparentes; se basan en un modelo escaso que ya expone su lógica interna. Pero una vez que tienes ese andamiaje, puedes empezar a imaginar híbridos donde coexisten partes escasas y densas.

Las futuras arquitecturas de modelos de lenguaje podrían enrutar comportamientos críticos para la seguridad o sensibles a regulaciones a través de circuitos escasos y auditables, mientras que la generación abierta se dejaría a bloques densos. Los puentes, entonces, no solo se convierten en herramientas de investigación, sino en el vínculo que permite que esos dos regímenes se comuniquen entre sí dentro de un sistema coherente.

El Kit de Herramientas de Código Abierto Ya Está Aquí

Ilustración: El Kit de Herramientas de Código Abierto Ha Llegado
Ilustración: El Kit de Herramientas de Código Abierto Ha Llegado

OpenAI no solo publicó un artículo; lanzó un kit de laboratorio funcional. En Hugging Face se encuentra openai/circuit-sparsity, un modelo de lenguaje al estilo GPT-2 de 0.4 mil millones de parámetros entrenado en código Python, con más del 99.9% de sus pesos establecidos en cero. Junto a esto, un toolkit completo de circuit_sparsity reside en GitHub, convirtiendo un resultado de interpretabilidad abstracto en algo que puedes tocar, experimentar y romper.

El modelo es pequeño según los estándares de 2025, pero inusualmente transparente. Solo alrededor de 1 de cada 1,000 pesos sobrevive al entrenamiento, y solo ~1 de cada 4 activaciones internas pueden activarse a la vez en neuronas, canales de atención y espacios de lectura/escritura residuales. Ese minimalismo impuesto crea circuitos dispersos que, para la misma pérdida de preentrenamiento, funcionan aproximadamente 16 veces más pequeños que la lógica equivalente en un modelo denso.

El repositorio de GitHub no solo ofrece puntos de control del modelo y un archivo readme. Agrupa una batería seleccionada de alrededor de 20 tareas mecánicas que ponen a prueba los algoritmos internos del modelo, desde `single_double_quote` y `bracket_counting` hasta el intensivo en memoria `set_or_string`. Cada tarea restringe al modelo a una elección binaria de siguiente token A/B, lo que hace que sea brutalmente obvio cuando un circuito falla.

Los investigadores también cuentan con herramientas integradas de poda y búsqueda de circuitos. El kit de herramientas puede: - Congelar nodos irrelevantes a su activación media - Enmascarar bordes hasta que el rendimiento disminuya - Optimizar para el subgrafo más pequeño que aún alcance una precisión objetivo

Lo que emerge no es un bonito diagrama colocado sobre una caja negra, sino una subred mínima que realmente ejecuta el comportamiento.

Una interfaz de visualización ligera completa el paquete. OpenAI ofrece una interfaz basada en Streamlit que te permite observar cómo se activan nodos y conexiones específicos ante determinados prompts, recorrer las posiciones de los tokens y comparar circuitos dispersos con sus homólogos densos. Puedes ver literalmente qué neurona se activa cuando el modelo decide que una variable es un conjunto en lugar de una cadena.

Lo crucial es que todo esto llega bajo una licencia Apache 2.0. Eso significa que laboratorios comerciales, grupos académicos y hackers solitarios pueden bifurcar, modificar e incorporar estos circuitos dispersos y puentes en sus propias pilas sin necesidad de gimnasia legal. OpenAI está efectivamente invitando al resto del campo a probar, extender o refutar categóricamente su afirmación: que se puede abrir un modelo de lenguaje moderno y rastrear la lógica real y funcional en su interior.

Más importante que hacer la IA más inteligente.

OpenAI ahora se encuentra en el centro de lo que Axios llamó recientemente la “economía de la IA”, una posición que se siente peligrosamente cercana a demasiado grande para caer. Sus modelos dirigen código, moderan contenido, controlan las calificaciones de edad y, cada vez más, arbitran qué información ven miles de millones de personas. Cuando el modelo lingüístico de una empresa se convierte en infraestructura crítica, su forma de pensar es tan importante como la respuesta que produce.

Los puntajes de referencia en bruto ya no resuelven el verdadero problema. Si un sistema de IA clasifica incorrectamente un código médico, no aplica adecuadamente filtros de seguridad, o inventa razonamientos legales, alguien querrá saber por qué. La escasez de circuitos ofrece algo raro en este panorama: una forma de señalar un puñado de neuronas y conexiones y decir: "estos componentes específicos produjeron esa decisión".

La presión sobre OpenAI sigue creciendo desde todos los frentes. Las startups y empresas consolidadas compiten para ofrecer APIs de clase GPT a menor precio, los reguladores antimonopolio investigan su dominancia, y las demandas por derechos de autor y difamación se acumulan en torno a cómo se entrenan y responden los modelos. Mientras tanto, OpenAI quema sumas asombrosas en GPUs, centros de datos y redes personalizadas solo para mantener sus APIs de modelos de lenguaje en línea.

Ese conjunto de riesgos cambia lo que “estado del arte” debe significar. Un aumento del 0.2% en la precisión de un estándar de codificación no ayuda cuando los reguladores preguntan por qué una decisión de moderación falló o un modelo financiero valoró incorrectamente el riesgo. Lo que OpenAI necesita—y lo que la escasez de circuitos sugiere—es inteligencia controlable, no solo más inteligencia.

Readable AI se encuentra directamente en el punto de mira de la inminente regulación. Los legisladores en la UE, EE. UU. y Reino Unido siguen proponiendo requisitos de "explicabilidad", trazabilidad de auditorías y evaluaciones de riesgo a nivel de sistema para modelos de alto impacto. Circuitos escasos ofrecen a los auditores y equipos internos de red una entidad para inspeccionar: un subgrafo concreto que implementa "cerrar la comillas" o "rastrear si esta variable es un conjunto o una cadena".

Esa es la razón por la que el lanzamiento de código abierto es importante. El modelo de Hugging Face y el repositorio openai/circuit_sparsity – Lanzamiento de código abierto de herramientas para circuitos dispersos transforman la interpretabilidad de una promesa teórica en algo que reguladores, académicos y competidores pueden examinar de verdad. Si OpenAI quiere seguir operando como una infraestructura crítica, este tipo de maquinaria de caja de cristal puede ser más relevante que el próximo billón de parámetros.

El futuro de la IA es legible.

La IA comprensible deja de ser una metáfora una vez que puedes señalar un circuito de 12 nodos y 9 aristas y decir: ahí es donde vive la decisión de cierre de cita. La escasez de circuitos lleva esa idea y la transforma en un objetivo de ingeniería: los futuros modelos no solo deberían funcionar, sino que también deberían exponer su lógica interna como componentes inspeccionables. Eso cambia la interpretabilidad de una autopsia post-hoc a una restricción de diseño.

Las próximas características como el “modo adulto” planeado de ChatGPT hacen que este cambio sea inevitable. Un sistema que infiere en silencio si eres un niño, un adolescente o un adulto no puede ocultar ese juicio en una activación indetectable. Los reguladores, auditores y probablemente los tribunales querrán saber qué señales —historial de navegación, redacción, hora del día, región— fluyeron hacia qué circuitos antes de que un modelo autorice contenido explícito.

Los circuitos escasos ofrecen un modelo para ese tipo de responsabilidad. Si un modelo de seguridad decide que “el usuario probablemente es menor de 16 años”, quieres un subgráfico pequeño y nombrado que contenga esa creencia, no mil características medio redundantes esparcidas por la corriente residual. Con la escasez de circuitos, OpenAI demuestra que para tareas de código en Python, los circuitos de comportamiento equivalente pueden funcionar ~16 veces más pequeños que sus homólogos densos manteniendo la pérdida constante.

La investigación sobre alineación depende de este tipo de localización. Los optimizadores ocultos de mesa y los objetivos emergentes se vuelven más difíciles de negar si puedes escanear sistemáticamente en busca de circuitos que rastreen poder, engaño o autopreservación. Los puentes entre modelos escasos y densos sugieren un futuro en el que puedes:

  • 1Probar un circuito de "honestidad" escaso
  • 2Mapéalo en un modelo de lenguaje de producción.
  • 3Dificultar su acceso o amplificar su influencia en los resultados

Escalar por sí solo no puede resolver estos problemas. Un modelo 10 veces más grande con 10 veces más características entrelazadas solo profundiza la caja negra. La escasez de circuitos apunta hacia una frontera diferente: AGI cuya estructura interna sea lo suficientemente legible para depurar, regular y, si es necesario, desconectar.

Si esa visión se mantiene, algunos de los trabajos más importantes en IA de esta década no buscarán otro punto decimal de precisión en los benchmarks. Buscarán algo más extraño y ambicioso: modelos cuyos pensamientos vengan acompañados de un diagrama de circuitos.

Preguntas Frecuentes

¿Cuál es la investigación sobre la escasez de circuitos de OpenAI?

Es un método en el que se entrena a un modelo de IA con más del 99.9% de sus conexiones internas eliminadas. Esto obliga al modelo a desarrollar pequeños 'circuitos' comprensibles para su lógica, haciendo que su proceso de toma de decisiones sea transparente.

¿Cómo se diferencia esto de un modelo de IA normal?

Los modelos de IA normales son 'densos', con miles de millones de caminos interconectados, lo que los convierte en una 'caja negra'. Los modelos escasos tienen caminos mínimos y limpios, lo que permite a los investigadores rastrear una decisión específica de principio a fin, como si estuvieran leyendo un diagrama de circuitos.

¿Por qué es tan importante hacer que la IA sea comprensible?

A medida que los sistemas de inteligencia artificial controlan funciones más críticas en la sociedad, desde la moderación de contenidos hasta los sistemas económicos, entender *cómo* toman decisiones es fundamental para la confianza, la seguridad y la regulación. Nos permite verificar su lógica y prevenir fallos ocultos.

¿Puedo intentarlo yo mismo?

Sí. OpenAI ha lanzado un modelo disperso de 0.4B parámetros en Hugging Face y un conjunto completo de herramientas con herramientas de visualización en GitHub, lo que permite a investigadores y desarrolladores explorar estos circuitos de primera mano.

Frequently Asked Questions

¿Cuál es la investigación sobre la escasez de circuitos de OpenAI?
Es un método en el que se entrena a un modelo de IA con más del 99.9% de sus conexiones internas eliminadas. Esto obliga al modelo a desarrollar pequeños 'circuitos' comprensibles para su lógica, haciendo que su proceso de toma de decisiones sea transparente.
¿Cómo se diferencia esto de un modelo de IA normal?
Los modelos de IA normales son 'densos', con miles de millones de caminos interconectados, lo que los convierte en una 'caja negra'. Los modelos escasos tienen caminos mínimos y limpios, lo que permite a los investigadores rastrear una decisión específica de principio a fin, como si estuvieran leyendo un diagrama de circuitos.
¿Por qué es tan importante hacer que la IA sea comprensible?
A medida que los sistemas de inteligencia artificial controlan funciones más críticas en la sociedad, desde la moderación de contenidos hasta los sistemas económicos, entender *cómo* toman decisiones es fundamental para la confianza, la seguridad y la regulación. Nos permite verificar su lógica y prevenir fallos ocultos.
¿Puedo intentarlo yo mismo?
Sí. OpenAI ha lanzado un modelo disperso de 0.4B parámetros en Hugging Face y un conjunto completo de herramientas con herramientas de visualización en GitHub, lo que permite a investigadores y desarrolladores explorar estos circuitos de primera mano.
🚀Discover More

Stay Ahead of the AI Curve

Discover the best AI tools, agents, and MCP servers curated by Stork.AI. Find the right solutions to supercharge your workflow.

Back to all posts