TL;DR / Key Takeaways
Tu agente de IA está fallando (y tú lo sabes)
Ya conoces el patrón. Pídele a un agente de IA que renombre variables, escriba una prueba unitaria o resuma una solicitud de extracción y parece brillante. Pídele que se haga cargo de la implementación completa de una característica a través de docenas de archivos, múltiples servicios y una semana de iteraciones, y se desintegra silenciosamente en ramas a medio terminar, pruebas rotas y APIs alucinadas.
Los desarrolladores siguen intentándolo de todos modos. Crean agentes de codificación "autónomos", los conectan a GitHub, Jira y un corredor de pruebas, y luego observan cómo el sistema se detiene en refactorizaciones circulares o olvida requisitos que vio hace 20 minutos. Las métricas parecen excelentes en tareas triviales, pero en repositorios reales los agentes aún pasan por alto casos límite, hacen que el rendimiento disminuya o ignoran las restricciones de seguridad.
Por eso Vibe Coding ha permanecido en gran medida como un mito. La fantasía es así: describe una función en unas pocas frases, indica al agente tu monorepo y regresa a un PR limpio, con CI verde y pruebas de integración aprobadas. En la práctica, los modelos se desvían de las especificaciones, pierden de vista los objetivos a largo plazo y se ajustan demasiado a cualquier ventana de contexto que les hayas proporcionado por última vez.
Bajo el capó, el poder bruto de los LLM dejó de aumentar a un ritmo vertiginoso después de aproximadamente 2023. Ventanas de contexto más grandes y mejores solicitudes ayudaron, pero nunca solucionaron los problemas fundamentales de fiabilidad: uso frágil de herramientas, degradación del contexto y ninguna noción real del estado a nivel de proyecto. La ingeniería de solicitudes y la ingeniería de contexto elevaron el techo; no cambiaron la arquitectura.
Está surgiendo silenciosamente una capa diferente para solucionar eso. Agent harnesses envuelven modelos con control explícito sobre la memoria, herramientas y subagentes, convirtiendo chatbots desenfrenados en sistemas que realmente pueden mantener un plan durante horas o días. Proyectos como el arnés de larga duración de Anthropic, DeepAgent de LangChain y el arnés Linear de Cole Medin apuntan todos en la misma dirección.
Esta serie profundiza en ese cambio: cómo las arquitecturas basadas en arneses finalmente hacen que los agentes sean dignos de confianza para trabajos serios, dónde siguen fallando y qué se necesitará para que la codificación de vibra real deje de ser una demostración y comience a ser una norma.
De Prompts a Programas: El Gran Cambio de la IA
La ingeniería de prompts comenzó como la ciencia popular de hablar con GPT-3. Los desarrolladores se obsesionaron con un solo prompt, ajustando el contenido, los ejemplos y los formatos de salida para obtener mejores respuestas de una única interacción de 2,048 tokens. La unidad de trabajo era una solicitud, una respuesta, sin memoria, sin plan.
A medida que GPT‑3.5 y GPT‑4 llegaron con chat y ventanas de contexto más amplias, esa mentalidad se rompió. La ingeniería de contexto tomó el control: el problema dejó de ser “¿cuál es el prompt perfecto?” y se convirtió en “¿qué necesita ver el modelo ahora mismo de más de 100 mensajes anteriores y megabytes de documentos?” Los equipos lucharon contra la degradación del contexto, equilibrando prompts del sistema, resúmenes y canales de recuperación solo para mantener la coherencia de una sesión.
La ingeniería de contexto trata una sesión de IA como una conversación cuidadosamente seleccionada. Tú decides qué especificaciones, fragmentos de código y decisiones permanecen activas en la ventana de contexto y cuáles pasan al almacenamiento a largo plazo. Herramientas como la búsqueda vectorial, resúmenes jerárquicos y mensajes del sistema basados en roles se convirtieron en estándar solo para gestionar un solo chat extenso.
El agente aprovecha el impulso que lleva la progresión a un nivel superior. En lugar de optimizar una única llamada o una sesión individual, un harness orquesta muchas sesiones, a menudo entre varios agentes, para completar una tarea que dura varias horas o varios días. Piensa en "envía esta función de principio a fin", no en "refactoriza esta función".
Un agente moderno coordina varios elementos en movimiento a la vez: - Múltiples sesiones de LLM con diferentes roles - Almacenamiento de memoria compartido y por agente - Herramientas para la ejecución de código, pruebas y APIs externas - Puntos de control, retrocesos y puertas de revisión humana
Proyectos como los Arneses efectivos para agentes de larga duración de Anthropic, LangChain DeepAgents y el arnés Linear Agent de Cole Medin siguen todos este patrón. Un agente planifica, otro escribe código, otro ejecuta pruebas y el arnés rastrea el estado a través de docenas o cientos de llamadas. La unidad de trabajo se convierte en un gráfico de flujo de trabajo, no en un registro de chat.
Crucialmente, esto es evolución, no amnesia. Los arneses aún dependen de una ingeniería de indicaciones precisa en cada llamada y de una ingeniería de contexto disciplinada en cada sesión. Simplemente tratan esas habilidades como primitivas de bajo nivel en un programa más grande, donde el verdadero desafío es coordinar a muchos agentes imperfectos en un único sistema fiable.
Por qué la meseta de potencia de los LLM cambia todo.
La potencia de los modelos en bruto ya no sigue el gráfico de ciencia ficción que la gente imaginaba en 2020. GPT-3 a GPT-4 parecía un salto de "demostración interesante" a "podría usar esto en el trabajo", pero GPT-4.1, 4.1-mini y Claude 3.5 Sonnet parecen más un cambio incremental en latencia, costo y fiabilidad que una nueva clase de inteligencia de máquina.
Los indicadores respaldan esto. Las clasificaciones académicas han comenzado a saturarse, y los proveedores silenciosamente han cambiado de presumir sobre las puntuaciones de MMLU a destacar "tokens por segundo" y "solicitudes por dólar". Seguimos obteniendo mejores modelos, pero la curva parece más lineal que exponencial.
Los investigadores en IA dicen cada vez más en voz alta lo que antes se daba por sentado: la era de escalado está dando paso a la era de arquitectura. Lanzar 10 veces más GPU a un modelo transformer aporta cada vez menos, por lo que la verdadera acción se desplaza a cómo estructuras los sistemas alrededor de un modelo: bucles de planificación, capas de memoria, enrutadores de herramientas, evaluadores y puntos de control con intervención humana.
Ese cambio explica por qué Anthropic elabora investigaciones técnicas detalladas como Arneses Efectivos para Agentes de Larga Duración y por qué OpenAI, Google y Meta impulsan "agentes", no solo modelos de lenguaje más grandes. La vanguardia se desplaza de una única llamada a un modelo opaco a redes orquestadas de llamadas con estado y control explícitos.
Los agentes se sitúan en el centro de esta nueva pila arquitectónica. Realizan el trabajo poco glamuroso pero crítico de desglosar una solicitud de función en pasos, coordinar subagentes, gestionar la memoria y decidir cuándo preguntar a un humano en lugar de imaginar un camino a seguir.
En lugar de rezar para que GPT-5 envíe mágicamente solicitudes de extracción perfectas, los equipos pueden diseñar arneses que:
- 1Hacer cumplir los estándares de codificación y las puertas de prueba
- 2Persistir y recuperar el contexto a escala de proyecto
- 3Ruta las tareas entre los agentes planificador, codificador y revisor.
- 4Detectar bucles, regresiones y desviación de especificaciones.
Esa superficie de control es donde los desarrolladores de repente tienen influencia nuevamente. No puedes cambiar el proceso de entrenamiento de OpenAI, pero puedes decidir cuántos agentes activas, cómo hablan, qué herramientas utilizan y cuándo deben detenerse y justificarse.
Los arneses de agente, no los pesos de modelo en bruto, se convierten en el lienzo principal para la innovación. El próximo salto de "10x" en capacidad se parecerá menos a una nueva tarjeta de modelo y más a una arquitectura de agente robusta, depurable y de calidad de producción.
El Sistema de Control que Su Agente Necesita Desesperadamente
Las llamadas de LLM en bruto lucen impresionantes en una demostración, pero se comportan más como un animal poderoso y nervioso que como un compañero de trabajo confiable. Un arnés de agente es el sistema de control que envuelve a ese modelo, transformando la predicción de texto estocástico en algo que comienza a parecerse a un software confiable. Define cómo el agente recuerda, qué herramientas utiliza, cómo colabora con otros agentes y cómo se mantiene alineado a un objetivo durante horas o días en lugar de solo en un turno de chat.
Piensa en el LLM como un caballo de carreras: rápido, fuerte y completamente desinteresado en tu lista de tareas. El arnés es el freno, las riendas y la silla que restringen ese poder en un movimiento predecible. Sin él, obtienes transcripciones de codificación por vibras y APIs alucinadas; con él, obtienes un agente de codificación que realmente puede lanzar una función, ejecutar pruebas y actualizar documentación sin desviarse hacia la ficción.
La primera función del arnés: gestión de memoria. Los LLMs aún operan dentro de ventanas de contexto finitas—128K tokens, quizás 200K si pagas por ello—por lo que el arnés decide qué conservar, qué resumir y qué olvidar. Sistemas como Manus y los propios arneses de Anthropic combaten agresivamente la "degradación del contexto", eliminando instrucciones obsoletas y utilizando la recuperación para acceder solo a las partes del repositorio, tickets y decisiones anteriores que son relevantes en este momento.
Segundo trabajo: control de herramientas. Los agentes modernos llaman a todo, desde sistemas de archivos hasta pipelines de CI, y un modelo en bruto eliminará felizmente tu repositorio si el aviso lo impulsa. Los arneses controlan esas capacidades: deciden cuándo invocar una herramienta, validan salidas y hacen cumplir políticas como “las pruebas deben pasar antes de hacer commit” o “nunca tocar producción sin aprobación humana.”
En tercer lugar, el arnés coordina subagentes especializados. En lugar de un único gran mensaje que intenta “hacer toda la funcionalidad”, se pueden ver patrones como: - Agente planificador que transforma una especificación en tareas - Agente programador que edita archivos - Agente de pruebas que ejecuta e interpreta pruebas - Agente revisor que aplica normas de estilo y arquitectura
Finalmente, los sistemas de control mantienen las tareas de larga duración en el camino. Siguen el estado global, detectan bucles, establecen puntos de control y presentan puntos de decisión para los humanos. Una llamada de LLM sin procesar es sin estado y amnésica; un agente controlado puede trabajar a través de cientos de llamadas, pausarse durante la noche y reanudarse al día siguiente, aún sabiendo exactamente qué caso extremo rompió la última prueba.
Bajo el Capó: Anatomía de un Arnés Moderno
Los arneses modernos suelen abrirse con un agente inicializador que se comporta menos como un chatbot y más como un gestor de proyectos. Lee las especificaciones del usuario, inspecciona el repositorio o el entorno, y produce un plan concreto: hitos, herramientas a utilizar, archivos a modificar y criterios de éxito explícitos. El propio arnés de Anthropic describe esto como una división entre “inicializador y codificador”, donde el inicializador define el alcance antes de que se realicen cambios en el código.
Una vez que el inicializador termina, el control pasa a un agente de tareas que realmente realiza el trabajo. Este agente se ejecuta en un bucle, dando un solo paso, ejecutando herramientas y luego desechando la mayor parte de su ventana de contexto. En cada iteración del bucle, se rehidrata solo el estado suficiente de la memoria para que el modelo no se ahogue en un registro de chat de 200 mensajes.
Ese bucle suele parecerse a un sistema de control rígido en lugar de una charla libre. El agente de tareas: - Recupera la porción actual del plan y los archivos relevantes de la memoria - Propone un cambio o acción - Ejecuta herramientas (pruebas, linters, compiladores, llamadas HTTP) - Escribe los resultados y las diferencias, y luego repite
Los guardias rodean cada iteración. Las verificaciones previas a la ejecución validan que la próxima acción del agente coincida con el plan y las herramientas permitidas; las verificaciones posteriores a la ejecución verifican los resultados contra restricciones como "las pruebas deben pasar" o "sin secretos en los registros". Sistemas como LangChain DeepAgent y OutSystems Agent Workbench integran estas verificaciones como políticas que pueden fallar de manera definitiva o solicitar la revisión humana.
Los puntos de control le dan una estructura al arnés. Después de un progreso significativo —por ejemplo, un conjunto de pruebas aprobado o una integración de API completada— el arnés guarda instantáneas del estado: posición del plan, hashes de archivos, salidas de herramientas y decisiones clave. Si el agente más tarde tiene alucinaciones o corrompe un archivo, el arnés puede retroceder al último punto de control exitoso en lugar de adivinar qué salió mal.
Las transferencias mueven el contexto entre agentes especializados. Un agente planificador podría entregar un grafo de tareas estructurado a un agente de codificación; un agente de codificación podría entregar un parche más un plan de pruebas a un agente revisor. Cada transferencia utiliza esquemas estrictos para que los agentes no intercambien prosa vaga, sino un estado verificable por máquina.
Nada de esto funciona sin una capa de memoria seria. Los arneses modernos se basan en RAG para el código y los documentos, almacenes a largo plazo para decisiones, y compresión de memoria mediante resumidos o embeddings para combatir la degradación del contexto. Los puntos de interrupción con intervención humana se sitúan en la parte superior de esa pila, pausando el ciclo para aprobaciones en acciones arriesgadas—migraciones de esquema, flujos de pago o refactorizaciones sensibles a la seguridad—para que la codificación de vibras no despache silenciosamente un desastre.
El Plan de Anthropic para Agentes de Código Imparables
Anthropic publicó discretamente uno de los planes más claros para agentes de código serios y de larga duración: un arnés que convierte a Claude en algo más parecido a un ingeniero junior que a un autocompletado hablador. Su arnés para agentes de larga duración no persigue la novedad; sistematiza la planificación, ejecución y verificación para que el modelo pueda abordar tareas de codificación de varias horas sin perder el hilo.
En el núcleo se encuentra un agente inicializador que se comporta como un líder técnico. Absorbe un amplio especificación, inspecciona el repositorio, enumera las limitaciones y emite un plan estructurado: tareas concretas, listas de archivos a modificar, notas sobre dependencias y criterios de aceptación. Ese plan se convierte en el contrato para un agente programador separado que se encarga del trabajo arduo de editar archivos, invocar herramientas y ejecutar pruebas.
El arnés de Anthropic trata el estado como un problema de primera clase, no como una idea secundaria. En lugar de agrupar todo en una única ventana de contexto gigante, mantiene: - Un gráfico de tareas canónico y una lista de verificación - Historias y diferencias a nivel de archivos - Resúmenes de llamadas a herramientas anteriores y ejecuciones de pruebas
El inicializador escribe este estado; el codificador lee porciones de él, y luego añade nuevos artefactos que las llamadas futuras pueden recuperar. Ese patrón permite que el sistema salte a través de muchas ventanas de contexto pequeñas y enfocadas, mientras sigue comportándose como una sesión continua.
Las herramientas unen todo. El agente codificador noimagina ediciones de archivos; utiliza herramientas explícitas para: - Leer y escribir archivos - Ejecutar pruebas unitarias e integradas - Ejecutar linters y formateadores
Cada llamada a la herramienta devuelve una salida estructurada que el arnés registra, resume y retroalimenta selectivamente en el contexto. Las pruebas fallidas, por ejemplo, se convierten en informes de errores claros que el programador debe abordar antes de que el arnés marque una tarea como completada.
La auto-validación está presente en todas partes. El iniciador critica su propio plan en comparación con las especificaciones originales, el programador analiza las diferencias en relación con el plan, y el arnés impone bucles de control que bloquean el progreso cuando las pruebas fallan o aparecen lagunas en la cobertura. Los puntos de control humanos pueden integrarse en el mismo ciclo para cambios de alto riesgo.
El diseño de Anthropic se ajusta casi uno a uno al plano general del arnés: memoria duradera, herramientas explícitas, subagentes especializados y bucles de control estrictos. Proyectos como Linear-Coding-Agent-Harness reflejan el mismo patrón, que se está convirtiendo rápidamente en la arquitectura de facto para cualquiera que intente hacer que la "codificación de ambiente" sea más que un truco de fiesta.
El sueño de 'Vibe Coding' ahora es solo 'más o menos' real.
El codificador de vibra siempre sonó como ciencia ficción: describe una función “vibe”, ve a tomar café, y regresa a una solicitud de extracción terminada. Con arneses de agentes, esa fantasía se acerca más a la realidad, pero solo “más o menos”. Ahora puedes apuntar un agente a un repositorio de Git y hacer que planifique, edite, ejecute pruebas e itere durante horas sin tener que supervisar cada pulsación de tecla.
Los arneses hacen esto posible al envolver el modelo bruto en un sistema de control. Un arnés bien diseñado gestiona herramientas (git, ejecutores de pruebas, linters), rastrea el estado a través de docenas o cientos de llamadas y aplica puntos de control. El arnés de codificación de larga duración de Anthropic, por ejemplo, utiliza un agente inicializador para establecer un plan, y luego un bucle de codificador-tester para avanzar en la implementación y verificación.
Los arcoíris y las margaritas se detienen ahí. La codificación de vibras totalmente autónoma aún se desploma en el momento en que choca con un monolito desordenado, pruebas faltantes o requisitos de producto ambiguos. Los arneses amplifican la disciplina de ingeniería que ya tienes; no la reemplazan.
El éxito se correlaciona fuertemente con una base de código bien estructurada y herramientas avanzadas. Los agentes que realmente entregan características de manera confiable tienden a vivir en entornos con: - Alta cobertura de pruebas y retroalimentación rápida (segundos, no minutos) - Linters y formateadores estrictos (ESLint, Prettier, Ruff) - Límites claros de módulos y APIs tipadas (TypeScript, mypy)
El humano en el bucle sigue siendo innegociable para cualquier cosa que importe. Los ajustes de codificación de ambiente más efectivos insertan humanos en puntos de control críticos: validando el plan inicial, aprobando cambios arquitectónicos, revisando migraciones arriesgadas y fusionando solicitudes de extracción. Los propios ejemplos de arneses de Cole Medin se basan en etapas de revisión explícitas en lugar de tuberías de auto-fusión ciegas.
Así que la codificación de ambiente está "de vuelta", pero como un flujo de trabajo, no como un truco mágico. Te deshaces del trabajo duro: ediciones de archivos, plantillas estándar, refactorizaciones—mientras te mantienes al tanto de la intención, la arquitectura y los compromisos. La fantasía de los agentes de "configurar y olvidar" puede esperar; la versión práctica se lanza hoy, siempre que diseñes el arnés y la base de código para merecerlo.
Dos obstáculos monumentales para los agentes de IA
Los agentes envueltos en arneses aún se enfrentan a un problema difícil: la alineación a lo largo del tiempo. Los prompts cortos pueden ajustarse a las especificaciones; los maratones de codificación de 500 pasos no pueden. Incluso con el bucle inicializador–codificador de Anthropic o DeepAgent de LangChain, los modelos reinterpretan silenciosamente los requisitos, reinventan modelos de datos o "optimizan" hacia fuera restricciones que eran innegociables en el encargo original.
El desvío de alineación se presenta de maneras sutiles. Un agente de programación podría intercambiar REST por GraphQL a mitad de una refactorización, o ignorar un presupuesto de rendimiento una vez que las pruebas pasan. Los arneses añaden barandillas: puntos de control, auto-crítica, pruebas de regresión—pero nadie tiene una manera infalible de mantener un modelo grande y estocástico fiel a una arquitectura y especificación del producto a lo largo de horas o días de uso de herramientas.
Aún más difícil: la alineación debe sobrevivir a contextos cambiantes. Los requisitos evolucionan a mitad de camino, los humanos intervienen con retroalimentación parcial y los sistemas externos fallan. Los arneses de hoy aproximan la intención con heurísticas—“no tocar la autenticación,” “nunca editar este directorio,” “ejecutar pruebas cada N pasos”—sin embargo, aún se pierden objetivos de mayor nivel como “preservar la paridad de la experiencia del usuario” o “mantener esta base de código idiomática.”
Luego está el costo de construir un arnés serio. Un sistema de producción necesita: - Almacenamiento de estado y memoria persistente - Orquestación de herramientas (editores, ejecutores de pruebas, CI, ticketing, observabilidad) - Comprobaciones de seguridad, rutas de reversión y revisión con intervención humana - Evaluadores y métricas específicas del dominio
Ese conjunto se parece menos a un aviso y más a un nuevo producto. El propio marco de trabajo de Anthropic abarca múltiples agentes, etapas de planificación y capas de validación; el arnés del agente Lineal de Cole Medin une Git, rastreadores de problemas y ejecución de código. Nada de eso viene “gratis” de un SDK.
Aún no existe un estándar universal de arneses de talla única. Un backend fintech, un sistema de diseño en React y un flujo de trabajo de cuadernos de ciencia de datos requieren diferentes herramientas, diferentes verificaciones de seguridad y diferentes definiciones de "completado". Marcos como LangChain DeepAgent y plataformas como OutSystems Agent Workbench sugieren una convergencia, pero aún requieren una fuerte personalización por equipo y dominio.
Más que ser obstáculos insalvables, estos dos bloqueos marcan la próxima frontera. La carrera ahora se trata menos de un modelo ligeramente más inteligente y más de arneses reutilizables y conscientes de la alineación que hacen que la codificación del ambiente sea aburridamente fiable en lugar de ocasionalmente mágica.
Dónde Empezar: Arnés en la Naturaleza
Comienza esbozando tu agente como un flujo de trabajo con estado, no como un comando mágico. Anota las etapas concretas: ingestión de especificaciones, planificación, implementación, pruebas, refactorización, despliegue y revisión. Tu arnés se convierte en la capa que mueve el estado entre esas etapas, decide cuándo llamar al LLM y cuándo involucrar a un humano.
Para ejemplos prácticos, los DeepAgents de LangChain son el lugar más accesible para explorar. Los DeepAgents muestran cómo conectar planificadores, ejecutores y críticos, con el uso de herramientas y memoria integrados en un ciclo en lugar de una sola llamada. Puedes seguir cómo gestionan tareas de múltiples pasos como refactorizaciones a nivel de repositorio o integraciones de API de múltiples servicios.
El propio Linear Coding Agent Harness de Cole Medin en GitHub es un plano aún más contundente. Envuelve un agente de codificación en torno a los problemas de Linear, ofreciéndote flujos concretos para leer tickets, planificar cambios, editar archivos y publicar actualizaciones de nuevo en Linear. Obtienes patrones del mundo real para puntos de control, manejo de errores y cómo recuperarte cuando el modelo se desvía de las especificaciones.
Si trabajas en un stack empresarial, Agent Workbench de OutSystems te lleva aún más arriba en la escalera de abstracción. Incorpora limitaciones, observabilidad y aprobaciones con intervención humana para que puedas definir políticas como "nunca tocar producción sin revisión" o "requerir que las pruebas pasen antes de la fusión". El equipo de Outshift de Cisco mapea patrones similares para sistemas de producción en Cómo las empresas pueden aprovechar los agentes de IA para una automatización más inteligente.
Trata el diseño del arnés como un problema de arquitectura de software, no como un retoque de comandos. Identifica el estado de larga duración de tu agente (gráfico de tareas, archivos, tickets), tus herramientas (acceso al repositorio, CI, búsqueda de documentación) y tus límites de seguridad (pruebas, linters, revisión humana). Luego, codifica esos elementos como estados y transiciones explícitas en lugar de esperar que el modelo "recuerde".
Una receta práctica para empezar se ve así: - Un agente planificador que convierte especificaciones en una lista de tareas - Un agente ejecutor que edita código y ejecuta herramientas - Un agente revisor que critica las diferencias y la salida de las pruebas - Un bucle de control que decide cuándo replanificar o escalar
Una vez que piensas de esta manera, la ingeniería de indicaciones se convierte en un detalle de implementación dentro de un arnés que realmente se encarga de la fiabilidad.
El futuro es orquestado, no impulsado.
La ingeniería de prompts tuvo su tiempo, pero el centro de gravedad ha cambiado. El poder ahora reside en la orquestación: harnesses de agentes que gestionan memoria, herramientas, subagentes y puntos de control humanos, de modo que una única llamada a un LLM se convierte en un sistema coherente y de larga duración en lugar de un truco ingenioso de autocompletado.
Estamos viendo cómo la IA sigue el mismo arco que el software en sí. Los primeros “guiones” de mensajes ajustados a mano están dando paso a una sólida ingeniería de sistemas: planificadores, verificadores, pruebas de regresión, telemetría y retroceso, todo envuelto alrededor de un modelo que podría ser solo un 10-20% mejor por generación en lugar de 10x.
Resuelve los dos grandes obstáculos: la alineación a largo plazo y la fidelidad de la arquitectura, y los agentes dejarán de ser juguetes para comenzar a manejar flujos de trabajo completos. Un arnés bien diseñado puede, en principio, ejecutar un ciclo de crecimiento completo, un embudo de incorporación de extremo a extremo, o una reestructuración de varios meses de una base de código de 500,000 líneas mientras se mantiene dentro de las especificaciones.
Ese es el momento en que “asistente de codificación con IA” se convierte en “miembro del equipo de ingeniería con IA”. El mismo patrón se extiende al trabajo científico: revisiones de literatura, campañas de simulación y planificación de experimentos encadenadas a través de miles de llamadas a modelos de lenguaje grande, con el arnés imponiendo restricciones, registrando decisiones y mostrando solo las ramas críticas a los humanos.
Los desarrolladores que prosperen en esta era de agencia no serán aquellos que memoricen trucos de prompts; serán los que diseñen sistemas de control. Tu trabajo pasa de conversar con un modelo a arquitectar planificadores, críticos, enrutadores de herramientas y puertas de revisión que puedan sobrevivir días o semanas de operación autónoma.
Así que empieza pequeño, pero comienza ahora. Utiliza el arnés de larga duración de Anthropic, el arnés del agente Lineal de Cole Medin, el DeepAgent de LangChain o los patrones de ingeniería de contexto de Manus y conecta un arnés para un único flujo de trabajo doloroso que tengas hoy.
Luego, instrumentalo, rompelos y endurecelos. La próxima ola de apalancamiento en la inteligencia artificial pertenece a las personas que orquestan modelos, no a aquellos que simplemente los dirigen.
Preguntas Frecuentes
¿Qué es un arnés de agente de IA?
Un arnés de agente es un sistema construido en torno a un agente de IA para gestionar la memoria, controlar herramientas, coordinar subagentes y mantener el estado, lo que le permite realizar de manera confiable tareas complejas de larga duración.
¿Cómo se diferencia un arnés de agente de la ingeniería de prompts?
La ingeniería de prompts optimiza interacciones individuales con un LLM. Un arnés de agente es una arquitectura completa que orquesta muchas interacciones y ventanas de contexto para completar un proyecto más grande, incorporando técnicas de ingeniería de prompts y contexto dentro de su estructura.
¿Es posible la 'codificación de vibras' con arneses de agentes?
Los arneses de agentes nos acercan al 'código de vibración' (implementación de funciones sin intervención) al hacer que los agentes sean más confiables. Sin embargo, no está completamente resuelto; las tareas complejas aún requieren validación por parte de humanos y límites bien diseñados.
¿Por qué se están volviendo importantes los arneses para agentes ahora?
A medida que el poder bruto de los LLM comienza a estabilizarse, la innovación se está trasladando a los sistemas que se construyen a su alrededor. Los arneses proporcionan la estructura necesaria para desbloquear el siguiente nivel de capacidad para agentes autónomos de nivel empresarial.