TL;DR / Key Takeaways
Seu Agente de IA Está Falhando (E Você Sabe Disso)
Você já conhece o padrão. Peça a um agente de IA para renomear variáveis, escrever um teste unitário ou resumir uma solicitação de pull e parecerá brilhante. Peça para implementar um recurso completo em dezenas de arquivos, múltiplos serviços e uma semana de iteração e ele se desintegra silenciosamente em branches incompletos, testes quebrados e APIs alucinatórias.
Os desenvolvedores continuam tentando de qualquer maneira. Eles criam agentes de codificação “autônomos”, conectam ao GitHub, Jira e a um executor de testes, e depois assistem o sistema travar em refatorações circulares ou esquecer requisitos que foram vistos 20 minutos atrás. Os benchmarks parecem ótimos em tarefas simples, mas em repositórios reais os agentes ainda perdem casos extremos, regredem o desempenho ou ignoram restrições de segurança.
É por isso que Vibe Coding permaneceu principalmente um mito. A fantasia é a seguinte: descreva uma funcionalidade em algumas frases, aponte o agente para o seu monorepo e volte com um PR limpo, CI verde e testes de integração passando. Na prática, os modelos se desviam das especificações, perdem o foco em metas de longo prazo e se ajustam excessivamente ao último contexto que você os alimentou.
Nos bastidores, o poder bruto dos LLMs parou de crescer no mesmo ritmo acelerado após aproximadamente 2023. Janelas de contexto maiores e melhores comandos ajudaram, mas nunca resolveram os problemas centrais de confiabilidade: uso frágil de ferramentas, degradação de contexto e ausência de uma noção real de estado em nível de projeto. A engenharia de comandos e a engenharia de contexto empurraram os limites; elas não mudaram a arquitetura.
Uma camada diferente está surgindo de forma discreta para resolver isso. O agente aproveita os modelos com controle explícito sobre memória, ferramentas e sub-agentes, transformando chatbots descontrolados em sistemas que podem realmente manter um plano por horas ou dias. Projetos como o harness de longo prazo da Anthropic, o DeepAgent da LangChain e o harness Linear do Cole Medin apontam todos na mesma direção.
Esta série explora essa mudança: como as arquiteturas baseadas em harness finalmente tornam os agentes confiáveis para trabalhos sérios, onde ainda falham e o que será necessário para que a codificação de vibrações verdadeira deixe de ser uma demonstração e comece a ser o padrão.
De Prompts a Programas: A Grande Mudança da IA
A engenharia de prompts começou como a ciência popular de se comunicar com o GPT‑3. Os desenvolvedores se tornaram obcecados por prompts únicos, ajustando a redação, exemplos e formatos de saída para extrair melhores respostas de uma única interação de 2.048 tokens. A unidade de trabalho era uma solicitação, uma resposta, sem memória, sem plano.
Com a chegada do GPT‑3.5 e do GPT‑4, com chat e janelas de contexto maiores, essa mentalidade mudou. A engenharia de contexto assumiu: o problema deixou de ser "qual é o prompt perfeito?" e passou a ser "o que o modelo precisa ver agora entre mais de 100 mensagens anteriores e megabytes de documentos?" As equipes combateram a degradação de contexto, equilibrando prompts do sistema, resumos e pipelines de recuperação apenas para manter uma sessão coerente.
A engenharia de contexto trata uma sessão de IA como uma conversa cuidadosamente elaborada. Você decide quais especificações, trechos de código e decisões permanecem ativas na janela de contexto e quais vão para o armazenamento de longo prazo. Ferramentas como pesquisa vetorial, resumos hierárquicos e mensagens de sistema baseadas em função tornaram-se padrão apenas para gerenciar um único chat longo.
O agente aproveita um impulso que eleva a progressão a um novo nível. Em vez de otimizar uma única chamada ou uma única sessão, um harness orquestra muitas sessões, frequentemente entre vários agentes, para concluir uma tarefa que pode levar várias horas ou dias. Pense em "entregar este recurso de ponta a ponta", e não em "refatorar esta função."
Um agente moderno coordena várias partes móveis ao mesmo tempo: - Múltiplas sessões de LLM com diferentes funções - Armazenamentos de memória compartilhados e por agente - Ferramentas para execução de código, testes e APIs externas - Pontos de verificação, reverter e portões de revisão humana
Projetos como o Effective harnesses for long-running agents da Anthropic, LangChain DeepAgents e o harness Linear Agent de Cole Medin seguem todos esse padrão. Um agente planeja, outro escreve código, outro executa testes, e o harness acompanha o estado em dezenas ou centenas de chamadas. A unidade de trabalho torna-se um gráfico de fluxo de trabalho, não um registro de chat.
Crucialmente, isso é evolução, não amnésia. Os harnesses ainda dependem de uma engenharia de prompt afiada em cada chamada e de uma engenharia de contexto disciplinada em cada sessão. Eles simplesmente tratam essas habilidades como primitivas de baixo nível em um programa maior, onde o verdadeiro desafio é coordenar muitos agentes imperfeitos em um único sistema confiável.
Por que o Platô de Poder dos LLMs Muda Tudo
O poder bruto dos modelos não segue mais o gráfico de ficção científica que as pessoas imaginaram em 2020. A transição do GPT-3 para o GPT-4 parecia um salto de "demonstração legal" para "eu poderia usar isso no trabalho", mas o GPT-4.1, 4.1-mini e Claude 3.5 Sonnet parecem mais com trocas incrementais em latência, custo e confiabilidade do que uma nova classe de inteligência de máquinas.
Os benchmarks confirm isso. As classificações acadêmicas começaram a saturar, e os fornecedores silenciosamente mudam o foco de se gabar das pontuações do MMLU para promover “tokens por segundo” e “solicitações por dólar”. Continuamos a receber modelos melhores, mas a curva parece mais linear do que exponencial.
Pesquisadores de IA estão cada vez mais verbalizando o que muitos pensavam em silêncio: a era da escalabilidade está dando lugar à era da arquitetura. Jogar 10 vezes mais GPUs em um transformador traz menos retornos a cada ano, então a verdadeira ação se desloca para como você estrutura sistemas em torno de um modelo: laços de planejamento, camadas de memória, roteadores de ferramentas, avaliadores e pontos de verificação com a intervenção humana.
Essa mudança explica por que a Anthropic escreve mergulhos profundos em engenharia como Harnesses Eficazes para Agentes de Longa Duração e por que a OpenAI, Google e Meta estão promovendo "agentes", não apenas modelos de linguagem maiores. A vanguarda se move de uma única chamada de modelo opaca para redes orquestradas de chamadas com estado e controle explícito.
Os agentes harness estão no centro desta nova pilha de arquitetura. Eles realizam o trabalho pouco glamouroso, mas crítico, de dividir um pedido de funcionalidade em etapas, coordenar subagentes, gerenciar memória e decidir quando consultar um humano em vez de criar uma solução ilusória.
Em vez de rezar para que o GPT‑5 envie magicamente pull requests perfeitas, as equipes podem projetar ganchos que:
- 1Imponha padrões de codificação e portões de teste.
- 2Persista e recupere o contexto em escala de projeto
- 3Roteie tarefas entre agentes planejador, programador e revisor.
- 4Detectar loops, regressões e desvio de especificações
Essa superfície de controle é onde os desenvolvedores repentinamente ganham vantagem novamente. Você não pode alterar o treinamento da OpenAI, mas pode decidir quantos agentes você cria, como eles se comunicam, quais ferramentas utilizam e quando devem parar e se justificar.
Os harnesses de agentes, e não os pesos brutos do modelo, tornam-se a principal tela para inovação. O próximo salto de "10x" em capacidade se parecerá menos com um novo cartão de modelo e mais com uma arquitetura de agente robusta, depurável e de grau de produção.
O Sistema de Controle que Seu Agente Necessita Desesperadamente
Chamadas brutas de LLM parecem impressionantes em uma demonstração, mas se comportam mais como um animal poderoso e nervoso do que como um colega de trabalho confiável. Um arnês de agente é o sistema de controle envolto nesse modelo, transformando a previsão estocástica de texto em algo que começa a se assemelhar a um software confiável. Ele define como o agente lembra, quais ferramentas utiliza, como colabora com outros agentes e como se mantém alinhado a um objetivo ao longo de horas ou dias, em vez de apenas em uma única interação de chat.
Pense no LLM como um cavalo de corrida: rápido, forte e completamente desinteressado do seu backlog de sprints. O arreio é a cabresto, as rédeas e a sela que restringem esse poder em movimento previsível. Sem isso, você obtém transcrições de codificação vaga e APIs alucinatórias; com isso, você tem um agente de codificação que realmente pode entregar uma funcionalidade, executar testes e atualizar documentos sem se desviar para ficção fanosa.
Primeira função do harness: gerenciamento de memória. Os LLMs ainda operam dentro de janelas de contexto finitas—128 mil tokens, talvez 200 mil se você pagar por isso—então o harness decide o que manter, o que resumir e o que esquecer. Sistemas como Manus e os próprios harnesses da Anthropic lutam agressivamente contra a “degradação do contexto,” podando instruções obsoletas e utilizando recuperação para trazer apenas os trechos de repositórios, tickets e decisões anteriores que importam no momento.
Segundo trabalho: controle de ferramentas. Agentes modernos chamam tudo, desde sistemas de arquivos até pipelines de CI, e um modelo bruto irá felizmente `rm -rf` seu repositório se o prompt o induzir. As harnesses controlam essas capacidades: elas decidem quando invocar uma ferramenta, validam os resultados e impõem políticas como "os testes devem passar antes de fazer o commit" ou "nunca toque em produção sem aprovação humana."
Por fim, o harness coordena sub-agentes especializados. Em vez de um único prompt gigante tentando "fazer toda a funcionalidade", você observa padrões como: - Agente planejador que transforma uma especificação em tarefas - Agente codificador que edita arquivos - Agente de teste que executa e interpreta testes - Agente revisor que impõe estilo e arquitetura
Finalmente, os harnesses mantêm tarefas de longa duração nos trilhos. Eles rastreiam o estado global, detectam loops, definem pontos de verificação e tornam visíveis os pontos de decisão para os humanos. Uma chamada bruta de LLM é sem estado e amnésica; um agente utilizado em harness pode operar por meio de centenas de chamadas, pausar durante a noite e retomar no dia seguinte, ainda sabendo exatamente qual caso extremo quebrou a última execução de teste.
Sob o Capô: Anatomia de um Arnês Moderno
Os modernos harnesses geralmente abrem com um agente inicializador que se comporta menos como um chatbot e mais como um gerente de projeto. Ele lê a especificação do usuário, inspeciona o repositório ou ambiente e produz um plano concreto: marcos, ferramentas a serem utilizadas, arquivos a serem modificados e critérios de sucesso explícitos. O próprio harness da Anthropic descreve isso como uma divisão “inicializador–codificador”, onde o inicializador define o escopo antes que quaisquer alterações de código sejam feitas.
Uma vez que o inicializador termina, o controle passa para um agente de tarefa que realmente realiza o trabalho. Este agente opera em um loop, dando um único passo, executando ferramentas e, em seguida, descartando a maior parte de seu contexto. Cada iteração do loop reidrata apenas o estado suficiente da memória para que o modelo não se afogue em um registro de chat de 200 mensagens.
Esse loop geralmente se parece mais com um sistema de controle rigoroso do que com um bate-papo livre. O agente da tarefa: - Recupera a fatia do plano atual e os arquivos relevantes da memória - Propõe uma alteração ou ação - Executa ferramentas (testes, linters, compiladores, chamadas HTTP) - Retorna os resultados e as diferenças, e então repete
Os guias de proteção envolvem cada iteração. Verificações pré-execução validam se a próxima ação do agente corresponde ao plano e às ferramentas permitidas; verificações pós-execução verificam as saídas em relação a restrições como “os testes devem passar” ou “sem segredos nos logs.” Sistemas como LangChain DeepAgent e OutSystems Agent Workbench incorporam essas verificações como políticas que podem falhar de forma rígida ou solicitar a revisão humana.
Os pontos de verificação dão uma espinha ao harness. Após um progresso significativo—por exemplo, um conjunto de testes bem-sucedido ou uma integração de API concluída—o harness registra o estado: posição do plano, hashes de arquivos, saídas de ferramentas e decisões-chave. Se o agente posteriormente tiver alucinações ou corromper um arquivo, o harness pode voltar ao último ponto de verificação bem-sucedido em vez de adivinhar o que deu errado.
As transações movem o contexto entre agentes especializados. Um agente planejador pode passar um grafo de tarefas estruturado para um agente de codificação; um agente de codificação pode entregar um patch mais um plano de teste a um agente revisor. Cada transação utiliza esquemas rígidos para que os agentes não troquem redações vagas, mas estados verificáveis por máquina.
Nada disso funciona sem uma camada de memória séria. Os harnesses modernos dependem de RAG para código e documentos, armazenamentos de longo prazo para decisões e compactação de memória através de resumos ou embeddings para combater a degradação do contexto. Os pontos de interrupção com intervenção humana estão no topo dessa pilha, pausando o loop para aprovações em ações arriscadas—migreções de esquema, fluxos de pagamento ou refatorações sensíveis à segurança—para que a codificação intuitiva não leve silenciosamente a um desastre.
O Plano da Anthropic para Agentes de Código Imparáveis
A Anthropic publicou discretamente um dos mais claros modelos para agentes de código sérios e duradouros: um suporte que transforma Claude em algo mais próximo de um engenheiro júnior do que um autocompletador tagarela. O suporte do agente de longa duração não busca a novidade; ele sistematiza o planejamento, a execução e a verificação para que o modelo possa lidar com tarefas de codificação que duram várias horas sem perder o foco.
No cerne está um agente inicializador que se comporta como um líder técnico. Ele assimila uma especificação ampla, inspeciona o repositório, enumera restrições e gera um plano estruturado: tarefas concretas, listas de arquivos a serem modificados, anotações de dependências e critérios de aceitação. Esse plano se torna o contrato para um agente codificador separado que realiza o trabalho pesado de editar arquivos, chamar ferramentas e executar testes.
O sistema da Anthropic trata o estado como um problema de primeira classe, e não como um pensamento posterior. Em vez de empacotar tudo em uma única janela de contexto gigante, ele mantém: - Um gráfico de tarefas canônico e uma lista de verificação - Históricos e diferenças a nível de arquivo - Resumos de chamadas de ferramenta e execuções de testes anteriores
O inicializador escreve este estado; o codificador lê fatias dele e, em seguida, adiciona novos artefatos que chamadas futuras podem recuperar. Esse padrão permite que o sistema transite por muitas janelas de contexto pequenas e focadas, mantendo o comportamento de uma única sessão contínua.
As ferramentas unem tudo. O agente codificador não alucina edições de arquivos; ele chama ferramentas explícitas para: - Ler e escrever arquivos - Executar testes de unidade e integração - Executar linters e formatadores
Cada chamada de ferramenta retorna uma saída estruturada que o harness registra, resume e alimenta seletivamente de volta ao contexto. Testes falhados, por exemplo, se tornam relatórios de bugs claros que o programador deve abordar antes que o harness marque uma tarefa como concluída.
A auto-validação está presente em todos os lugares. O inicializador critica seu próprio plano em relação à especificação original, o programador analisa as diferenças em relação ao plano, e o harness impõe ciclos de controle que bloqueiam o progresso quando os testes falham ou aparecem lacunas de cobertura. Pontos de verificação humanos podem ser inseridos no mesmo ciclo para mudanças de alto risco.
O design da Anthropic mapeia quase um-para-um sobre o projeto geral de harness: memória durável, ferramentas explícitas, sub-agentes especializados e ciclos de controle rigorosos. Projetos como o Linear-Coding-Agent-Harness ecoam o mesmo padrão, que está se tornando rapidamente a arquitetura de fato para quem tenta fazer a "programação do clima" mais do que um truque de festa.
O sonho do 'Vibe Coding' agora é apenas 'meio' real.
A codificação de vibrações sempre soou como ficção científica: descreva uma funcionalidade "vibe", vá tomar um café e volte com um pull request finalizado. Com os harnesses de agente, essa fantasia se aproxima da realidade, mas apenas “meio que”. Agora você pode direcionar um agente para um repositório Git e deixá-lo planejar, editar, executar testes e iterar por horas sem precisar acompanhar cada tecla pressionada.
Os harnesses tornam isso possível ao envolver o modelo bruto em um sistema de controle. Um harness bem projetado gerencia ferramentas (git, executores de teste, linters), rastreia o estado em dezenas ou centenas de chamadas e impõe pontos de verificação. O harness de codificação de longa duração da Anthropic, por exemplo, usa um agente inicializador para definir um plano, em seguida, um ciclo de codificador-teste para trabalhar na implementação e verificação.
Arco-íris e margaridas param por ali. A codificação de vibrações totalmente autônomas ainda desmorona no momento em que atinge um monólito bagunçado, com testes ausentes ou requisitos de produto ambíguos. Os harnesses potencializam qualquer disciplina de engenharia que você já possua; eles não a substituem.
O sucesso correlaciona-se fortemente com uma base de código bem estruturada e ferramentas sofisticadas. Os agentes que realmente entregam recursos de forma confiável tendem a viver em ambientes com: - Alta cobertura de testes e feedback rápido (segundos, não minutos) - Linters e formatadores rigorosos (ESLint, Prettier, Ruff) - Limites de módulo claros e APIs tipadas (TypeScript, mypy)
O envolvimento humano continua sendo inegociável para qualquer coisa que importe. Os setups mais eficazes de codificação de vibe inserem humanos em pontos de controle críticos: validando o plano inicial, aprovando mudanças arquitetônicas, revisando migrações arriscadas e mesclando solicitações de pull. Os próprios exemplos de harness de Cole Medin se baseiam em estágios de revisão explícitos, em vez de pipelines de auto-mesclagem automáticos.
Então, o vibe coding está “de volta”, mas como um fluxo de trabalho, não como um truque de mágica. Você delega o trabalho duro—edições de arquivos, boilerplate, refatorações—enquanto se mantém por dentro da intenção, arquitetura e compromissos. A fantasia de agentes que você configura e esquece pode esperar; a versão prática é lançada hoje, desde que você projete a estrutura e a base de código para merecê-la.
Dois Obstáculos Enormes para Agentes de IA
Agentes envolvidos em cintos ainda colidem com um problema difícil: alinhamento ao longo do tempo. Prompts curtos podem manter as especificações; maratonas de codificação de 500 passos não conseguem. Mesmo com o loop inicializador-codificador da Anthropic ou o DeepAgent da LangChain, os modelos reinterpretam silenciosamente os requisitos, reinventam modelos de dados ou "otimizam" para fora as restrições que eram não negociáveis no briefing original.
A deriva de alinhamento se manifesta de maneiras sutis. Um agente de codificação pode substituir REST por GraphQL no meio de uma refatoração ou ignorar um orçamento de desempenho assim que os testes são aprovados. As ferramentas adicionam barreiras de proteção—pontos de verificação, autoavaliações, testes de regressão—mas ninguém possui uma maneira infalível de manter um modelo grande e estocástico fiel a uma arquitetura e especificação de produto ao longo de horas ou dias de uso da ferramenta.
Mais difícil ainda: a alinhamento deve sobreviver a contextos em mudança. Os requisitos evoluem durante a execução, humanos interagem com feedback parcial e sistemas externos falham. Os condicionadores de hoje aproximam a intenção com heurísticas—“não toque na autenticação,” “nunca edite este diretório,” “execute testes a cada N passos”—ainda assim, eles não capturam metas de nível mais alto, como “preservar a paridade da experiência do usuário” ou “manter este código idiomático.”
Então, há o custo de construir um sistema sério. Um sistema de produção precisa de: - Armazenamento de estado e memória persistente - Orquestração de ferramentas (editores, executores de teste, CI, gerenciamento de tickets, observabilidade) - Verificações de segurança, caminhos de reversão e revisão com intervenção humana - Avaliadores e métricas específicos de domínio
Esse conjunto parece menos um prompt e mais um novo produto. O próprio harness de longa data da Anthropic abrange múltiplos agentes, estágios de planejamento e camadas de validação; o harness do agente Linear de Cole Medin conecta Git, rastreadores de problemas e execução de código. Nada disso vem "de graça" de um SDK.
Ainda não existe um padrão universal de arreios que sirva para todos. Um backend de fintech, um sistema de design em React e um pipeline de notebook de ciência de dados desejam diferentes ferramentas, diferentes verificações de segurança e diferentes definições de "pronto". Estruturas como LangChain DeepAgent e plataformas como OutSystems Agent Workbench sugerem uma convergência, mas ainda exigem uma personalização pesada por equipe e domínio.
Em vez de serem obstáculos intransponíveis, esses dois bloqueios marcam a próxima fronteira. A corrida agora é menos sobre um modelo ligeiramente mais inteligente e mais sobre cintos reutilizáveis e conscientes de alinhamento que tornam a codificação de vibrações entediante e confiável, em vez de ocasionalmente mágica.
Onde Começar: Arnês na Natureza
Comece esboçando seu agente como um fluxo de trabalho com estado, não como um comando mágico. Escreva as etapas concretas: ingestão de especificações, planejamento, implementação, teste, reestruturação, implantação e revisão. Seu suporte se torna a camada que transfere o estado entre essas etapas, decide quando chamar o LLM e quando envolver um humano.
Para exemplos práticos, os DeepAgents do LangChain são o lugar mais acessível para explorar. Os DeepAgents mostram como conectar planejadores, executores e críticos, com o uso de ferramentas e memória interligados em um loop em vez de uma única chamada. Você pode acompanhar como eles gerenciam tarefas de múltiplos passos, como refatorações em repositórios inteiros ou integrações de APIs de múltimos serviços.
O próprio Linear Coding Agent Harness de Cole Medin no GitHub é um modelo ainda mais opinativo. Ele envolve um agente de codificação em torno de questões do Linear, oferecendo fluxos concretos para leitura de tickets, planejamento de mudanças, edição de arquivos e postagem de atualizações de volta no Linear. Você obtém padrões do mundo real para pontos de verificação, tratamento de erros e como se recuperar quando o modelo se desvia da especificação.
Se você trabalha em uma pilha empresarial, o Agent Workbench da OutSystems leva você ainda mais alto na escada da abstração. Ele incorpora diretrizes, observabilidade e aprovações com intervenção humana, permitindo que você defina políticas como “nunca tocar na produção sem revisão” ou “exigir que os testes sejam aprovados antes da fusão.” A equipe Outshift da Cisco mapeia padrões semelhantes para sistemas de produção em Como as empresas podem aproveitar agentes de IA para uma automação mais inteligente.
Trate o design do equipamento como um problema de arquitetura de software, e não como uma simples adaptação de prompts. Identifique o estado de longa duração do seu agente (grafo de tarefas, arquivos, tickets), suas ferramentas (acesso ao repositório, CI, busca em documentação) e suas medidas de segurança (testes, linters, revisão humana). Em seguida, codifique isso como estados e transições explícitas em vez de esperar que o modelo "lembre".
Uma receita prática inicial parece assim: - Um agente planejador que converte especificações em uma lista de tarefas - Um agente executor que edita código e executa ferramentas - Um agente revisor que critica as diferenças e a saída de testes - Um loop de controle que decide quando replanejar ou escalonar
Uma vez que você pensa dessa forma, a engenharia de prompts se torna um detalhe de implementação dentro de um sistema que realmente assume a responsabilidade pela confiabilidade.
O Futuro é Orquestrado, Não Impulsionado
A engenharia de prompts teve um bom momento, mas o centro de gravidade mudou. O poder agora reside na orquestração: agências que gerenciam memória, ferramentas, sub-agentes e pontos de verificação humanos, de modo que uma única chamada LLM se torne um sistema coerente e de longo prazo, em vez de um truque inteligente de preenchimento automático.
Estamos observando a IA seguir o mesmo arco que o próprio software. Os primeiros “scripts” de prompts ajustados à mão estão dando lugar a uma engenharia de sistemas robusta: planejadores, verificadores, testes de regressão, telemetria e reversão, tudo envolto em um modelo que pode ser apenas 10-20% melhor a cada geração, em vez de 10x.
Resolva os dois grandes obstáculos—alinhamento a longo prazo e fidelidade de arquitetura—e os agentes deixarão de ser brinquedos e começarão a dominar fluxos de trabalho inteiros. Um arnês bem projetado pode, em princípio, executar um ciclo de crescimento completo, um funil de onboarding de ponta a ponta ou uma refatoração de vários meses de uma base de código de 500.000 linhas, mantendo a conformidade com as especificações.
Esse é o momento em que "assistente de codificação de IA" se torna "membro da equipe de engenharia de IA". O mesmo padrão se aplica ao trabalho científico: revisões de literatura, campanhas de simulação e planejamento de experimentos encadeados por milhares de chamadas de LLM, com a estrutura impondo restrições, registrando decisões e apresentando apenas os ramos críticos aos humanos.
Os desenvolvedores que prosperarem nesta era de agência não serão aqueles que decoram truques de prompt; serão aqueles que projetam sistemas de controle. Seu trabalho muda de conversar com um modelo para arquitetar planejadores, críticos, roteadores de ferramentas e portões de revisão que possam sobreviver dias ou semanas de operação autônoma.
Comece pequeno, mas comece agora. Utilize o harness de longa data da Anthropic, o harness do agente Linear de Cole Medin, o DeepAgent do LangChain ou os padrões de engenharia de contexto da Manus e monte um harness para um único fluxo de trabalho problemático que você possui hoje.
Então, instrumente-o, quebre-o e endureça-o. A próxima onda de alavancagem em IA pertence àqueles que orquestram modelos, não àqueles que apenas os solicitam.
Perguntas Frequentes
O que é um harness para agentes de IA?
Um arnês de agente é um sistema construído em torno de um agente de IA para gerenciar a memória, controlar ferramentas, coordenar sub-agentes e manter o estado, permitindo que ele execute de maneira confiável tarefas complexas e de longa duração.
Como um agente de harness é diferente da engenharia de prompt?
A engenharia de prompt otimiza interações únicas com um LLM. Um agente harness é uma arquitetura completa que orquestra muitas interações e janelas de contexto para completar um projeto maior, incorporando técnicas de engenharia de prompt e contexto dentro de sua estrutura.
É possível fazer 'vibe coding' com harnesses de agente?
Os harnesses de agentes nos aproximam da 'codificação de vibrações' (implementação de recursos sem intervenção) ao tornar os agentes mais confiáveis. No entanto, ainda não está totalmente resolvido; tarefas complexas ainda exigem validação com intervenção humana e barreiras bem projetadas.
Por que os harnesses para agentes estão se tornando importantes agora?
À medida que o poder bruto dos LLMs começa a se estabilizar, a inovação está se deslocando para os sistemas construídos ao redor deles. As estruturas fornecem a organização necessária para desbloquear o próximo nível de capacidade para agentes autônomos de nível empresarial.