Claude Codificado durante 24 Horas. Los Resultados Son Asombrosos.

Llevamos al agente de codificación de IA de Anthropic a su límite absoluto con un maratón de codificación ininterrumpido de 24 horas. Los resultados revelan una impactante visión del futuro del desarrollo de software.

Hero image for: Claude Codificado durante 24 Horas. Los Resultados Son Asombrosos.
💡

TL;DR / Key Takeaways

Llevamos al agente de codificación de IA de Anthropic a su límite absoluto con un maratón de codificación ininterrumpido de 24 horas. Los resultados revelan una impactante visión del futuro del desarrollo de software.

El Reto Imposible: Una IA programa durante 24 horas

El último experimento de codificación de Anthropic suena como un desafío: conecta a Claude a un "arnés" de agente de larga duración, dale al botón de iniciar y deja que code durante 24 horas seguidas. Sin café, sin descansos, solo un modelo de IA trabajando en una masiva especificación de software mientras duermes. El objetivo: ver si un modelo de codificación moderno puede comportarse menos como un autocompletado y más como un incansable equipo de desarrolladores junior.

Las tareas largas suelen romper a los agentes de IA de maneras aburridas y predecibles. Después de unas horas, inundan su ventana de contexto, olvidan decisiones anteriores y, o bien alucinan estructura o simplemente declaran el proyecto "listo" mientras que la mitad de las características solo existen en el aviso. Las herramientas tradicionales reinician el estado, pierden el historial de conversaciones y obligan a los humanos a cuidar cada refactorización importante.

El arnés de código abierto de Anthropic ataca ese modo de fallo de manera directa. En lugar de un gran monólogo con el modelo, el arnés coordina múltiples agentes, divide el trabajo entre diferentes ventanas de contexto y persiste el estado en el disco. Se basa en un desarrollo impulsado por pruebas: define cientos de casos de prueba y una especificación de aplicación detallada desde el principio, y luego permite que los agentes iteren hasta que las pruebas finalmente saquen un resultado positivo.

El experimento de Cole Medin lleva este arnés a un extremo: un maratón de codificación de 24 horas para construir un clon funcional de la propia aplicación web de Claude, completo con proyectos, conversaciones, artefactos y cargas de archivos. El arnés activa un agente inicializador para generar una lista de características con aproximadamente 200+ casos de prueba granulares, estructura el proyecto y conecta Git desde el inicio para que cada cambio tenga un rastro. Después de eso, los agentes de codificación trabajan durante horas, implementando y corrigiendo características en función de esas pruebas.

Enmarcado como un espectáculo de YouTube, esto anticipa un futuro serio para la codificación agentiva. Agentes de IA de larga duración que silenciosamente construyen MVPs, prototipos de fondo y estructuras de interfaz de usuario completas durante la noche podrían comprimir semanas de preparación en un solo día calendario. El truco de 24 horas solo muestra lo que sucede cuando dejas de tratar a la IA como un cuadro de chat y comienzas a tratarla como un proceso.

Rompiendo la Barrera de Resistencia de la IA

Ilustración: Rompiendo la Barrera de Resistencia de la IA
Ilustración: Rompiendo la Barrera de Resistencia de la IA

La resistencia, no el cociente intelectual bruto, acaba silenciosamente con la mayoría de los experimentos de codificación de inteligencia artificial. Los agentes de larga duración se desvían, sobrescriben sus propios planes o simplemente "deciden" que han terminado una vez que la ventana de contexto se llena de código a medio hacer e instrucciones divagantes. La configuración de Anthropic ataca directamente ese modo de falla: un arnés que recuerda lo que el agente no puede.

En lugar de un nuevo agente inteligente, el arnés actúa como una capa de coordinación envuelta alrededor de las sesiones ordinarias de Claude Code. Rastrea archivos, tareas y resultados de pruebas a lo largo de horas de ejecución, generando nuevas conversaciones siempre que un hilo se vuelve demasiado pesado para mantener la coherencia. Cada nueva sesión comienza con una instantánea destilada de lo que importa, no con una transcripción desordenada de todo lo que ocurrió antes.

Los proyectos masivos se convierten en listas de tareas estructuradas. El proceso comienza a partir de una especificación de texto plano o PRD, y luego se descompone en una lista de características con cientos de comportamientos pequeños y comprobables. La ejecución de Cole Medin se centró en más de 200 casos de prueba para un clon al estilo de Claude.ai, todos generados de antemano a partir de esa única especificación.

Esas características no existen como puntos vagos. Se convierten en objetos JSON con campos como descripción, archivos afectados y criterios de aceptación específicos. El arnés puede entonces seleccionar una característica a la vez, introducir el contexto relevante en Claude y pedirle que implemente o corrija solo esa parte del sistema.

En lugar de un mega-chat de 24 horas, el sistema ejecuta docenas o cientos de "sprints" enfocados. Cada sprint es una sesión de agente de corta duración con un objetivo específico: añadir un componente, conectar una llamada a la API, hacer pasar una prueba. Cuando la ventana de contexto comienza a saturarse, el arnés cierra esa sesión y abre una nueva, sembrada con el estado actual del repositorio y la lista de tareas.

El estado vive en el disco y en git, no en la memoria del modelo. El arnés se apoya en: - La base de código misma - La lista de características en JSON - Un conjunto de pruebas en crecimiento y registros

Al externalizar el estado, el arnés convierte a un agente inconstante y olvidadizo en algo que se comporta más como un pipeline de construcción determinista, uno que puede seguir programando durante 24 horas sin perder el rumbo.

La misión: Clonar Claude.ai desde cero.

La misión de 24 horas de Claude tenía un objetivo brutalmente claro: reconstruir la aplicación web Claude.ai desde cero, sin copiloto humano, sin correcciones a mitad de camino. No se trataba de un simple chat, sino de un clon funcional de la interfaz que millones de usuarios utilizan cada día. Los mismos flujos fundamentales, el mismo sentido de pulido, funcionando de principio a fin con un código escrito completamente por una IA que nunca duerme.

Eso significa replicar toda la superficie de conversación. El agente tuvo que establecer una gestión de conversaciones persistente con el historial de mensajes, hilos secundarios y un enrutamiento adecuado a distintos proyectos. También necesitaba cargas de archivos reales y adjuntos, no solo marcadores; manejando documentos, código y PDFs que fluyen hacia el modelo y de regreso como referencias en la interfaz de usuario.

Además de eso, la especificación de Cole Medin exigía una organización a nivel de proyecto y un front-end limpio y moderno. El clon necesitaba: - Creación y cambio de proyectos - Conversaciones agrupadas por proyecto - Soporte para “artifacts” o salidas enriquecidas - Un diseño responsivo al estilo Claude con un UX ligero, no el Bootstrap genérico

Esto es exactamente el tipo de cosa en la que los agentes con experiencia deberían sobresalir: una densa mezcla de trabajo en front-end con React o Next.js, plomería de API en back-end y código de unión para mantener el estado consistente. Obliga a Claude a equilibrar el enrutamiento, la autenticación, la persistencia y el estado de la interfaz de usuario mientras se mantiene alineado con una especificación del producto legible para humanos. Ningún solo aviso puede abarcar eso; solo un sistema que descomponga el trabajo y vuelva a visitar el contexto una y otra vez tiene una oportunidad.

El propio artículo de Anthropic Harnesses Efectivos para Agentes de Larga Duración - Anthropic utiliza un clon al estilo Claude.ai como su ejemplo, completo con cientos de pruebas y un flujo de trabajo multiagente. En teoría, el método coordina a los agentes iniciadores y de codificación, establece la infraestructura y procesa más de 200 casos de prueba hasta que la aplicación aprueba. En YouTube, ese elegante diagrama se convierte en una brutal pregunta: ¿puede la misma configuración realmente lanzar un clon de Claude.ai en 24 horas sin ediciones humanas, o el artículo del blog se apoyó silenciosamente en ajustes manuales y capturas de pantalla seleccionadas?

Esos intereses hacen que esto sea más que un referente de novedad. Si un arnés más Claude puede realmente construir un clon de Claude.ai adyacente a la producción sin supervisión, eso insinúa un futuro cercano donde “iniciar una nueva aplicación” significa redactar una especificación, presionar ejecutar y regresar a un esqueleto de SaaS funcional a la mañana siguiente.

El Arquitecto: Conoce al Agente Inicializador

El Agente Inicializador actúa como el arquitecto principal del proyecto, pero con cero ego y una paciencia ilimitada. Es el primer proceso que pone en marcha el arnés de Anthropic, y todo lo que viene después depende de la calidad de su trabajo. Antes de que se codifique una sola función, este agente se sienta con la especificación de la aplicación—el pseudo-PRD para el clon de Claude.ai—y la transforma en un plan completamente estructurado.

Su trabajo suena simple: "analizar requisitos y configurar el proyecto". En la práctica, eso significa convertir unas pocas páginas de texto en un plan legible por máquina que otros agentes puedan seguir durante 24 horas seguidas sin desviarse. Sin depuración, sin perfeccionamiento de la interfaz, sin refactorizaciones, solo configuración.

El arnés obliga al Agente Inicializador a crear cuatro artefactos centrales que definen toda la construcción:

  • 1Una lista de características en JSON con más de 200 casos de prueba granulares.
  • 2Un script de inicialización para levantar el proyecto.
  • 3Andamiaje de código para el stack completo
  • 4Un repositorio de Git recién inicializado

Esa lista de características en formato JSON realiza el trabajo más pesado de manera silenciosa. Descompone la especificación del clon de Claude.ai en cientos de pequeños comportamientos verificables: iniciar una nueva conversación, subir un archivo, cambiar de proyecto, renderizar artefactos, manejar estados vacíos, y más. Cada caso de prueba se convierte en un objetivo para agentes de codificación posteriores, imponiendo una especie de desarrollo guiado por pruebas nativas de inteligencia artificial.

El script de inicialización une el entorno para que los futuros agentes no desperdicien tokens reinventando pasos de configuración. Codifica decisiones como la elección del marco, los gestores de paquetes y los comandos de desarrollo—piensa en `npm install`, inicializaciones de bases de datos y equivalentes de `npm run dev` capturados en un único punto de entrada reproducible.

El scaffolding proporciona a los agentes de codificación un mapa de la base de código antes de que toquen un solo componente. Obtienes directorios predefinidos para frontend, backend, rutas API y utilidades compartidas, además de archivos de marcador de posición que sugieren la arquitectura: enrutamiento, gestión del estado y puntos de integración para el chat de Claude, artefactos y manejo de archivos.

Git es la pieza final no negociable. El Agente Inicializador crea un nuevo repositorio, estableciendo el historial de versiones desde la primera línea, para que los agentes posteriores puedan hacer commit, diff y retroceder de forma segura. Para sistemas de codificación agentiva de larga duración, ese historial es lo único que impide que una sesión de 24 horas se derrumbe en el caos.

La lógica inquebrantable del bucle de codificación

Ilustración: La Lógica Inquebrantable del Bucle de Código
Ilustración: La Lógica Inquebrantable del Bucle de Código

La codificación depende en gran medida de su caballo de batalla principal: el Agente de Codificación. Una vez que el Agente Inicializador dibuja el plano, este agente entra en un bucle implacable, despertando con una nueva ventana de contexto, releyendo el estado del proyecto y avanzando a través de las funciones una por una. Sin charlas, sin lluvias de ideas, solo un ciclo de retroalimentación ajustado de pruebas, ediciones y commits.

En el centro se encuentra una disciplina rígida de desarrollo impulsado por pruebas (TDD). Antes de que una sola línea de código de producción cambie, el sistema ya sabe cómo se ve el “hecho” a través de una enorme lista de características en JSON, a menudo con más de 200 casos de prueba granulares. El trabajo del Agente de Codificación no es ser creativo; su tarea es hacer que esas pruebas pasen.

Cada ciclo comienza con el agente cargando un artefacto de progreso: un archivo estructurado que rastrea qué funciones existen, qué pruebas pasan y qué se rompió recientemente. A partir de ahí, elige el siguiente objetivo—por ejemplo, “soportar la carga de múltiples archivos a un proyecto” o “renderizar el historial de conversaciones con artefactos”—basándose en la prioridad y las dependencias. Esa elección ocurre dentro del aviso, pero el estado que la guía reside en el disco.

Antes de tocar la base de código, el agente ejecuta toda la suite de regresión. Eso significa que cada iteración comienza revalidando todo lo que se ha construido hasta ahora, detectando regresiones de inmediato en lugar de horas después. Si una prueba previamente exitosa falla, el agente se enfoca en corregir eso antes de agregar algo nuevo.

Solo después de que pasen las pruebas de regresión, el agente implementa la nueva característica. Edita archivos fuente, actualiza componentes, ajusta controladores de API y conecta el comportamiento de la interfaz de usuario, todo a través de la misma interfaz de herramienta. Luego vuelve a ejecutar pruebas, iterando hasta que el nuevo caso pasa o alcanza un límite configurado de intentos.

Cuando la función funciona, el arnés obliga al agente a externalizar su memoria. Actualiza el archivo de progreso con detalles: qué función se implementó, qué pruebas ahora pasan, limitaciones conocidas y los próximos pasos lógicos. Este archivo se convierte en un registro de cambios compacto y legible por máquina para la siguiente sesión.

Cada ciclo termina con un commit de Git. El arnés trata a Git no como una idea secundaria, sino como un sustrato de memoria fundamental: los diffs indican a la próxima instancia del Agente de Codificación exactamente qué cambió, los mensajes de commit resumen la intención y el historial protege contra errores catastróficos. Combinados con el archivo de progreso, estos commits permiten que una nueva ventana de contexto “recuerde” 18 horas de trabajo sin necesidad de volver a leer toda la base de código.

Más allá del CLI: El poder del SDK

Las herramientas de línea de comandos como Claude Code se sienten poderosas, pero este experimento de 24 horas las elude silenciosamente. En lugar de interactuar con una CLI, el arnés se comunica directamente con Claude a través del Claude Agents SDK en Python, tratando al modelo como un componente de software de primera clase en lugar de un comando de terminal sofisticado.

El harness de Anthropic activa agentes, programa tareas e inspecciona el estado de git completamente a través de llamadas SDK. El proceso en Python orquesta todo: creando sesiones, transmitiendo llamadas a herramientas, leyendo y escribiendo archivos, e incluso reiniciando agentes cuando se detienen. Ningún humano nunca escribe `claude code` en un prompt una vez que comienza la ejecución.

El acceso directo al SDK también convierte la elección del modelo en un detalle de configuración en lugar de una reconstrucción. El mismo arnés podría llamar a: - Claude Sonnet 4.5 para iteraciones rentables - Claude Opus 4.5 para refactorizaciones más complejas - Modelos de terceros como Code Llama o codificadores estilo GPT a través de API compatibles.

El cambio de modelo se convierte en una modificación de una sola línea en un inicializador del cliente, no en un flujo de trabajo completamente nuevo. El arnés ya trata a "Claude" como una abstracción: un agente de codificación con herramientas, contexto y un contrato. Por debajo, ese contrato puede apuntar a cualquier modelo que hable JSON y respete el protocolo.

Esta es la razón por la que las SDKs parecen el verdadero futuro de la codificación agente. Las CLIs brillan para soluciones rápidas o depuración interactiva; se descomponen cuando necesitas un estado persistente, trabajos en segundo plano o coordinación entre agentes. Los sistemas de larga duración como este aprovechan las llamadas programáticas para registro, reintentos, métricas y controles de seguridad.

El propio Inicio Rápido de Codificación Autónoma de Anthropic - Repositorio de GitHub de Anthropic incorpora esta suposición. El repositorio es solo Python, avisos y conexiones alrededor del SDK de Agentes, haciendo que todo se sienta menos como una herramienta para desarrolladores y más como un microservicio extensible para la creación de software.

Cómo ejecutar tu propio codificador de IA las 24 horas del día

Ejecutar tu propio codificador Claude de 24 horas comienza con el arnés de código abierto de Anthropic en GitHub. Dirígete al inicio rápido de codificación autónoma en el repositorio claude-quickstarts, específicamente en el directorio `autonomous-coding`, y clónalo localmente. Obtendrás una estructura lista para usar: indicaciones, conexiones de agentes y scripts para activar agentes de codificación Claude de larga duración.

La configuración se siente más cerca de configurar una herramienta de desarrollo que de una demo de juguete. Instalas dependencias (Python, Node y paquetes del proyecto a través de `npm install` o `pnpm install`), colocas tus variables de entorno en un archivo `.env` y apuntas el arnés a tus credenciales de Claude. El repositorio incluye configuraciones de ejemplo para el clon de Claude.ai, por lo que puedes modificar en su mayoría en lugar de inventar.

El control de costos se convierte en la característica no obvia que arrasa. Cole Medin menciona un truco crucial del video: utiliza un token de suscripción de Claude (el mismo que tu navegador utiliza para Claude Code) en lugar de una clave API de pago por uso. Si conectas esto a una clave de pago por uso y lo dejas funcionando 24 horas, corres el riesgo de despertar con una factura de tres o cuatro cifras.

Iniciar todo el proceso se reduce a un solo comando desde la raíz del repositorio, algo como:

- `python main.py --app-spec=app_spec.txt`

Después de presionar enter, nada emocionante sucede durante 10 a 20 minutos. Ese es el Agente Inicializador generando silenciosamente más de 200 casos de prueba, estructurando el proyecto, escribiendo el script de inicialización y preparando un repositorio de git antes de que aparezca cualquier interfaz de usuario visible.

Todo depende de tu archivo especificaciones de la aplicación. El marco de Anthropic espera un archivo de texto detallado al estilo de un PRD que describa páginas, flujos, casos límite, roles y requisitos no funcionales. Si le entregas un párrafo vago sobre un "clon de aplicación de chat", obtendrás un producto vago.

Una especificación sólida para un clon de Claude.ai se lee como algo que le entregarías a un equipo humano: estructura de URL, estados de conversación, límites de carga de archivos, comportamiento de artefactos, atajos de teclado, redacción de errores e incluso diseños para estados vacíos. El Agente Inicializador descompone eso en pruebas granulares, por lo que cada oración vaga en tu especificación se convierte en una característica vaga o ausente 12 horas después.

El Guantelete Comienza: Claude es Liberado

Ilustración: Comienza el Desafío: Claude es Liberado
Ilustración: Comienza el Desafío: Claude es Liberado

La medianoche llega, se ejecuta el comando y el arnés cambia silenciosamente de configuración a ejecución. El Agente Inicializador inicia su primera sesión, incorporando la especificación de la aplicación, generando ese extenso feature_list.json con aproximadamente 200 casos de prueba granulares y conectando la estructura inicial al estilo de Next.js, además de un nuevo repositorio de git. Una vez que escribe esos artefactos, el control se entrega al caballo de batalla: el bucle del Agente de Codificación.

Tu terminal deja de parecerse a una consola de desarrollador normal y empieza a leerse como un registro de sistema en vivo de un programador alienígena. Llamadas a herramientas fluyen cada pocos segundos: `read_file`, `write_file`, `run_tests`, `git diff`, `git commit`. Observas cómo los directorios como `app/`, `components/` y `lib/` se llenan de TypeScript, componentes de React y controladores de rutas de API, todo creado por Claude sin indicaciones tuyas después de ese primer `npm start`.

Las líneas de salida se acumulan a un ritmo que ningún humano podría sostener. Un momento el agente está construyendo un sidebar para proyectos, al siguiente está conectando hilos de conversación, luego parcha una prueba defectuosa en el panel de artefactos. El arnés mantiene las sesiones pequeñas, rotando el contexto y activando nuevas ejecuciones del Agente de Codificación mientras preserva el estado a través del sistema de archivos, el historial de git y el JSON de la lista de características.

Las manos se mantienen alejadas del teclado por diseño. Sin botones de "aprobar", sin reintentos manuales, sin ajustes a mitad de camino. Una vez que inicias `node run_harness.mjs`, el sistema se encarga de las próximas 24 horas: planificación, codificación, ejecución de pruebas y compromiso de código. La única actividad humana es observar la pantalla y revisar ocasionalmente las métricas del sistema para asegurarse de que la máquina misma no se sobrecaliente.

La seguridad y la validación son parte de casi toda acción. El arnés envuelve los comandos de shell para bloquear cualquier cosa peligrosa, limita las escrituras de archivos al directorio del proyecto y utiliza Puppeteer a través de un servidor MCP para verificar visualmente el clon de Claude.ai en un navegador sin cabeza. El agente puede:

  • 1Inicia el servidor de desarrollo
  • 2Abre localhost en Chromium.
  • 3Haz clic en proyectos, conversaciones y cargas de archivos.
  • 4Compara la interfaz de usuario renderizada con su especificación y las expectativas de prueba.

Cada pase de Puppeteer se retroalimenta en el ciclo como otra señal: ¿realmente se comportó la aplicación como se esperaba, o necesita el siguiente commit desmantelar y reescribir la mitad de la interfaz de usuario?

El Veredicto Final: Lo que una IA Construye en 24 Horas

Veinticuatro horas y cientos de ciclos de agente después, Claude emergió con algo real: una aplicación web estilo Claude.ai completamente funcional. No es un juguete, ni un prototipo estático, sino un front end en React, un backend de API y un conjunto de pruebas conectados al mismo arnés que impulsó la construcción. Cole Medin la recorre en video como cualquier producto SaaS normal, porque funcionalmente, eso es lo que es.

Visualmente, el clon aterriza sorprendentemente cerca. El diseño de la barra lateral, los hilos de chat, la lista de proyectos y la estética general de Claude se hacen presentes: ligera, limpia y familiar. Puedes iniciar conversaciones, renombrarlas y ver cómo se acumulan en un panel de historial persistente.

La interacción básica también funciona. La aplicación envía mensajes a Claude, transmite respuestas y preserva el contexto a lo largo de las turnos en una conversación. Las cargas de archivos funcionan para los casos de uso básicos, adjuntando documentos a un chat y mostrándolos en la interfaz, aunque los casos extremos con archivos grandes o inusuales todavía fallan.

Los artefactos, la característica distintiva de "aplicaciones en línea" de Claude, llegan en forma parcial. El clon puede renderizar artefactos simples, mostrarlos en un panel dedicado y mantenerlos vinculados a una conversación. Flujos más avanzados—sesiones con múltiples artefactos, herramientas complejas con estado, o la edición de artefactos en su lugar—fallan silenciosamente o se comportan de manera inconsistente.

La gestión de proyectos se sitúa en algún lugar intermedio. El agente impulsado por el arnés implementa: - Creación y eliminación de proyectos - Asignación de conversaciones a proyectos - Filtrado básico de chats por proyecto

Sin embargo, las operaciones en masa, la búsqueda robusta y las vistas entre proyectos siguen siendo inestables o faltantes, a menudo presentándose como botones no implementados o estados de interfaz de usuario inactivos.

Bajo el capó, la estrategia impulsada por pruebas da sus frutos. De aproximadamente 200+ casos de prueba generados, una gran mayoría pasa al final de las 24 horas, con fallos agrupados en torno al pulido avanzado de la experiencia del usuario y el manejo de errores oscuros. El sistema sigue funcionando hasta que el progreso se estanca, no cuando Claude se "cansa" o decide que ha terminado.

Medin llama al arnés "legítimo" en cámara, y no parece una exageración. Enfatiza que esto aún no es ingeniería de grado de producción, pero como prueba de que la codificación agentiva puede ensamblar de forma autónoma una aplicación web compleja y multifuncional en un día, la demostración impacta. Combinado con los avances más amplios de Anthropic en agentes de larga duración y modelos como Claude Opus 4.5 detallados en Introducing Claude Opus 4.5 - Anthropic, la conclusión es contundente: este flujo de trabajo es temprano, pero ya funciona.

Tu nuevo compañero de IA empieza mañana.

Tu actual “programador asistente de IA” pronto se sentirá anticuado. Arneses de larga duración como el arnés de agente de código abierto de Anthropic convierten modelos como Claude de asistentes conversacionales en trabajadores de fondo que silenciosamente procesan una acumulación durante 24 horas o más, sin perder el hilo a mitad de una reestructuración.

En lugar de supervisar una ventana de indicaciones, puedes entregar a un agente un PRD, un repositorio y un conjunto de pruebas, y luego regresar a un prototipo funcional. El experimento de Cole Medin con Claude demuestra esto de manera concreta: una instancia de Claude Code coordinada por un arnés estructura una interfaz al estilo de Claude.ai, conecta proyectos y conversaciones, y realiza cientos de pruebas durante un día completo de computación.

Para los desarrolladores, esto se parece menos a una novedad y más a un nuevo nivel de infraestructura. Piensa en los agentes como: - Constructores de prototipos durante la noche - Demonios de refactorización continua - Bots de generación de pruebas y cobertura - Asistentes de documentación y migración

Dale a uno de estos sistemas 24 horas y una lista de características en formato JSON con más de 200 casos, y obedientemente buscará marcas verdes mientras duermes.

Ninguna de estas herramientas se siente "lista para producción" aún. El arnés en el repositorio de inicio rápido de Anthropic es experimental, frágil debido a pruebas poco confiables, y propenso a las mismas alucinaciones que cualquier LLM. Pero las estrategias que incorpora—prompts orientados a pruebas, criterios de éxito estrictos, Git como fuente de verdad, coordinación multi-agente—se alinean directamente con cómo se refuerzan los sistemas de IA en el mundo real.

Ya puedes incorporar estos patrones en tu pila. Usa un agente inicializador para generar especificaciones, estructura y pruebas; restringe a un agente de codificación a modificar solo ciertos directorios; conecta la CI para ejecutar las mismas verificaciones impulsadas por el arnés antes de la fusión. Cada paso hace que tus asistentes de IA se parezcan menos a autocompletar y más a trabajadores deterministas vinculados a tu canal de trabajo.

La ingeniería agentiva cambiará lo que significa "escribir software". Los ingenieros humanos definen arquitecturas, limitaciones y puertas de revisión, mientras flotas de agentes especializados se encargan de la implementación, pruebas e integración durante docenas de horas. El experimento del clon de Claude es un boceto rudimentario de ese futuro: bases de código moldeadas menos por pulsaciones de teclado y más por la orquestación de legiones de colaboradores incansables y obsesionados con las pruebas.

Preguntas Frecuentes

¿Cuál es el Arnés Antropológico para agentes de larga duración?

Es una capa de coordinación de código abierto que permite a los agentes de codificación de IA trabajar en tareas complejas durante períodos prolongados (horas o días) al gestionar ventanas de contexto y dividir el trabajo en partes más pequeñas y comprobables.

¿Se puede usar este arnés con modelos que no sean Claude?

Sí. El arnés es independiente del modelo. Dado que es un sistema de indicaciones y archivos de artefacto, puedes intercambiar Claude Code por otros modelos como los de OpenAI o alternativas de código abierto adaptando el SDK del cliente.

¿Está este sistema de codificación autónoma listo para su uso en producción?

No, todavía es altamente experimental. Se adapta mejor a la creación rápida de prototipos, generación de pruebas de concepto y exploración del futuro de la ingeniería agentiva, en lugar de construir aplicaciones listas para producción.

¿Cómo evita el arnés las limitaciones de la ventana de contexto?

Crea una nueva y fresca ventana de contexto para cada sesión del agente de codificación. El agente se pone al día con el progreso leyendo archivos de artefactos centrales como un resumen de progreso, una lista de características y la base de código existente, asegurándose de que solo necesite contexto relevante para la siguiente tarea granular.

Frequently Asked Questions

¿Cuál es el Arnés Antropológico para agentes de larga duración?
Es una capa de coordinación de código abierto que permite a los agentes de codificación de IA trabajar en tareas complejas durante períodos prolongados al gestionar ventanas de contexto y dividir el trabajo en partes más pequeñas y comprobables.
¿Se puede usar este arnés con modelos que no sean Claude?
Sí. El arnés es independiente del modelo. Dado que es un sistema de indicaciones y archivos de artefacto, puedes intercambiar Claude Code por otros modelos como los de OpenAI o alternativas de código abierto adaptando el SDK del cliente.
¿Está este sistema de codificación autónoma listo para su uso en producción?
No, todavía es altamente experimental. Se adapta mejor a la creación rápida de prototipos, generación de pruebas de concepto y exploración del futuro de la ingeniería agentiva, en lugar de construir aplicaciones listas para producción.
¿Cómo evita el arnés las limitaciones de la ventana de contexto?
Crea una nueva y fresca ventana de contexto para cada sesión del agente de codificación. El agente se pone al día con el progreso leyendo archivos de artefactos centrales como un resumen de progreso, una lista de características y la base de código existente, asegurándose de que solo necesite contexto relevante para la siguiente tarea granular.
🚀Discover More

Stay Ahead of the AI Curve

Discover the best AI tools, agents, and MCP servers curated by Stork.AI. Find the right solutions to supercharge your workflow.

Back to all posts