에이전트 하네스: 코딩의 끝?

원시 LLM의 힘은 정체되고 있지만, 새로운 AI 기술의 층이 복잡하고 장기적으로 진행되는 작업을 처리할 수 있는 시스템을 만들어내고 있습니다. 에이전트 활용이 게임의 판도를 바꾸고 99% 코드 자동화를 현실로 만드는 방법을 알아보세요.

Stork.AI
💡

TL;DR / Key Takeaways

원시 LLM의 힘은 정체되고 있지만, 새로운 AI 기술의 층이 복잡하고 장기적으로 진행되는 작업을 처리할 수 있는 시스템을 만들어내고 있습니다. 에이전트 활용이 게임의 판도를 바꾸고 99% 코드 자동화를 현실로 만드는 방법을 알아보세요.

우리는 LLM 성능의 한계에 직면했습니다.

누구든지 주의를 기울이면 느낄 수 있다: 불꽃놀이 쇼가 느려지고 있다. GPT-4, Claude 3 Opus, 그리고 Gemini 1.5는 분명 강력하지만, 이는 GPT-2에 비해 GPT-3가 보여준 경악할 만한 도약과는 다르다. 기준 성능 지표는 계속해서 상승하고 있지만—MMLU, HumanEval, GSM8K—원시 LLM의 실제 “와우” 요소는 더 이상 6개월마다 두 배로 증가하지 않는다.

그 둔화는 허상이지 않습니다. 그것은 경제학입니다. 현재 최전선 모델을 훈련하는 데는 수억 달러에 달하는 컴퓨팅, 데이터 큐레이션 및 엔지니어링 비용이 소요됩니다. MMLU나 Codeforces와 같은 리더보드에서 매 추가 퍼센트 포인트를 기록하기 위해서는 기하급수적으로 더 많은 GPU, 더 많은 토큰, 그리고 더 많은 인간 피드백이 필요합니다.

점진적 수익 감소가 모든 곳에서 발생하고 있습니다. 200K, 1M 토큰과 같은 더 큰 컨텍스트 윈도우가 존재하지만, 그 컨텍스트에 대한 효과적인 추론은 여전히 취약한 방식으로 실패합니다. 코드 모델은 보일러플레이트와 일반 패턴을 정확하게 처리하지만, 모든 중급 엔지니어가 코드 리뷰에서 잡아낼 수 있는 엣지 케이스를 잘못 해석하거나 API를 잘못 인식하는 경우가 발생합니다.

그래서 경계가 이동했습니다. 콜 메딘이 그의 영상에서 이를 정확히 짚어냅니다: "LLM의 원시적인 힘은 더 이상 폭발적으로 증가하지 않습니다." 그러나 그들 주위의 레이어는 증가하고 있습니다. 도구 오케스트레이션, 메모리 시스템, 다중 에이전트 조정이 벤치마크에서 0.3을 더하는 것보다 더 큰 변화들을 가져오고 있습니다.

더 빠른 CPU에서 더 나은 운영 체제로 이동하는 것으로 생각해 보세요. 에이전트 하네스, 컨텍스트 라우터, 그리고 세계 모델이 GPT-4나 Claude 3 위에 자리 잡고, 거의 동일한 기본 지능으로부터 더 많은 신뢰성을 끌어내는 것입니다. 마음의 하드웨어는 정체기에 접어들고, 그 주위의 소프트웨어 스택이 더 중요해지기 시작합니다.

이 순간을 한계가 아닌 전환점으로 재구성합니다. GPT-5가 10배 더 똑똑해지기를 기원하는 대신, 팀들은 도구, 재시도 및 장기 흐름을 관리하는 에이전트 하네스를 구축하여 현재의 모델들이 신뢰할 수 있는 동료처럼 행동하도록 하고 있습니다. 혁신의 중심이 모델의 가중치에서 시스템 설계로 바뀝니다.

포스트 벤치마크 시대라고 부르자. 미세 모델 개선도 여전히 중요하지만, 진정한 돌파구는 LLM 주위의 구조화—메모리, 계획, 검증—에서 올 것이다. 행동은 연구소의 교육 실행에서 엔지니어의 하네스 코드로 이동한다.

진정한 혁명은 '포장'입니다.

일러스트: 진정한 혁명은 '포장'이다
일러스트: 진정한 혁명은 '포장'이다

원시 모델 호출은 이제 맨바닥 실리콘처럼 보이기 시작했다: 문서 상으로는 인상적이지만, 실제로는 미약하다. Cole Medin의 주요 주장은 간결하다: 실제 핵심은 “LLM 위의 레이어”로 이동했다 — 영리한 자동 완성 엔진을 실제 작업을 신뢰할 수 있는 것으로 변환하는 오케스트레이션 논리다.

이 층은 이제 에이전트 하네스라는 이름을 가졌습니다. 이를 모델을 위한 운영 체제로 생각하세요. 제어 흐름, 메모리 및 도구 사용을 처리하여 LLM이 데모 밖에서 운영되고 생산 서비스 수준 계약(SLA) 내에서 생존할 수 있도록 합니다.

원시 LLM 호출은 상태 비저장 API 호출처럼 작동합니다. 프롬프트를 보내고 모델이 당신의 의도를 이해했기를 바라며, 도구를 무시하거나 이전 단계를 잊어버리거나 존재하지 않았던 API를 환각하는 텍스트 블록을 돌려받습니다.

같은 모델을 하네스에 넣으면 행동이 달라집니다. 하네스는 수십 개 또는 수백 개의 단계에 걸쳐 상태를 추적하고, 작업 기억을 지속시키며, 모델이 사용할 수 있는 도구, 사용 시기 및 인수에 대한 정책을 강제합니다.

현대의 하네스는 여러 기능을 결합하여 이전에 분산된 스크립트와 임시 프롬프트에 존재하던 것들을 통합합니다: - 장기 및 단기 기억 저장소 - 도구 경로 지정 및 오류 감지 재시도 - 하위 에이전트 조정 및 일정 관리 - 경계 설정, 검증 및 가시성

앤트로픽의 내부 하네스, 랭체인의 딥에이전트, 콜 메딘의 리니어 에이전트 하네스와 같은 프로젝트는 이러한 패턴이 구체화되고 있음을 보여줍니다. 단일 채팅 완료 대신, 수 시간 동안 사람의 감독 없이 실행될 수 있는 에이전트, 도구 및 상태의 그래프를 얻게 됩니다.

여기가 현재 인간 공학의 레버리지가 존재하는 곳입니다. GPT-4.5의 가중치를 조정할 수는 없지만, 몇 개의 하위 에이전트를 생성할지, 이들이 컨텍스트 창을 어떻게 공유할지, 과제를 어떻게 분해할지, 그리고 불량 도구 호출에서 어떻게 회복할지를 결정할 수 있습니다.

"10배의 GPT-6"을 기다리는 것은 요점을 놓치는 일입니다. 다음 10배의 향상은 더 나은 하니스 설계에서 올 것입니다: 더 스마트한 계획 루프, 더 풍부한 세계 모델, 로그로부터 프롬프트와 정책으로의 더 긴밀한 피드백이 그것입니다.

모델을 상품으로 여기고 하네스를 제품으로 여기는 소프트웨어 팀이 가치를 포착할 것입니다. 다른 모든 팀은 단순히 API를 호출하고 최선의 결과를 기대할 뿐입니다.

현대 에이전트 하네스 해독하기

에이전트는 소리만 거창하게 들리지만, Anthropic과 LangChain은 아주 구체적인 것을 정의합니다: LLM을 반복적으로 호출하고 상태를 추적하며 작업이 실제로 완료될 때까지 도구를 조율하는 구조화된 제어 계층입니다. Anthropic의 자체 하니스 사양은 루프, 오류 처리, 메모리 및 도구 라우팅을 관리하는 제어기를 설명하며, 모델은 다음 토큰을 예측하는 역할만 합니다. LangChain의 DeepAgent 문서는 이를 더 나아가, 하니스를 에이전트가 각 단계에서 수행하는 작업을 결정하는 프로그래머블 정책으로 구성합니다.

단순한 반복문을 넘어, 현대의 하네스는 상태 머신처럼 작동합니다. 각 단계는 “계획 중”, “도구 호출 대기 중”, “인간 대기 중” 또는 “완료됨”과 같은 상태 간의 전환을 일으키며, 각 상태에서 허용되는 사항에 대한 명확한 규칙을 가지고 있습니다. 이러한 구조는 행동을 재현 가능하고 디버깅 가능하게 만들어, 단순한 느낌이나 희망이 아닌 뚜렷한 기준을 제공합니다.

핵심 책임은 Anthropic, LangChain, 그리고 Cole Medin의 Linear Agent Harness 전반에 걸쳐 나타나는 네 가지 범주로 나눌 수 있습니다. 하네스는 지속적인 메모리를 관리하고, 도구를 제어하며, 여러 작업자를 조정하고, 장기 실행 프로세스를 감독해야 합니다. 이 중 하나라도 제거하면 에이전트는 빠르게 일회성 챗봇으로 퇴보하게 됩니다.

메모리 관리가 이제는 소형 데이터베이스 문제처럼 보입니다. 하니스는 단기 임시 저장소, 의미 기억을 위한 벡터 저장소, 장기 로그를 유지하며, 무엇을 요약할지, 무엇을 삭제할지, 무엇을 20만에서 100만 토큰으로 제한된 컨텍스트 창에 재활성화할지를 결정합니다. 또한 민감한 데이터를 차단하여 어떤 하위 에이전트가 어떤 정보를 볼 수 있는지를 규제하며, 이는 모든 기업 배포의 필수 요구사항입니다.

도구 제어는 하네스를 정책 엔진으로 변환합니다. 이는 다음을 결정합니다: - LLM이 호출할 수 있는 도구 - 인수가 검증되고 정리되는 방법 - 호출을 재시도, 디바운스 또는 병렬화하는 방법

그 정책 레이어는 프롬프트 삽입으로 인한 “프로덕션 데이터베이스 다운로드” 재앙을 방지하고, 하나의 500 오류 이후에 불안정한 API가 워크플로를 탈선시키는 것을 막습니다.

대리인 조정은 하네스를 오케스트레이션 영역으로 밀어넣습니다. 코딩 시스템은 계획, 구현, 테스트 및 리팩토링을 위한 별도의 에이전트를 생성할 수 있으며, 각 에이전트는 특정 도구와 메모리를 갖습니다. 하네스는 작업을 할당하고 결과를 병합하며, 에이전트 간 의견 불일치 시 갈등을 해결합니다. 이는 빌드 시스템이 컴파일러와 린터 출력을 중재하는 방식과 유사합니다.

10,000피트에서 바라보면 LLM은 커널처럼 보이고, 하니스는 OS 셸과 런타임처럼 작동합니다. 이는 매우 똑똑하지만 기억력이 부족한 코어 주위에서 스케줄링, I/O, 권한 및 로그 관리를 제공합니다. Anthropic의 자체 문서인 장기 작동 에이전트를 위한 효과적인 하니스 - Anthropic은 그 셸에 대한 설계 문서처럼 읽힙니다.

부서지기 쉬운 프롬프트에서 탄력적인 시스템으로

초기 생성형 AI 개발은 속아 넘어가기 쉬운 강력함을 보여주었습니다: 기발한 프롬프트를 작성하고, 기본 RAG 파이프라인을 추가한 후, 모델이 코드나 문서를 생성하는 모습을 지켜보세요. 이는 단일 작업에서는 효과적이었습니다—함수를 초안하거나, PDF를 요약하거나, 작은 벡터 저장소에서 질문에 답하는 것입니다. 그러나 그 이상으로 나아가면 모든 것이 무너졌습니다.

프롬프트만 사용하는 시스템은 기억 상실증에 걸린 인턴처럼 행동합니다. LLM에게 20만 라인의 모놀리스를 하나의 프롬프트로 리팩토링하라고 요청하면 부분적인 수정, 허구의 파일, 그리고 깨진 임포트를 받게 됩니다. 검색 기능을 추가하더라도, 단순한 RAG는 "관련" 청크를 문맥에 집어넣을 뿐이며, 상태를 추적하거나 결과를 검증하지 않고 이미 실행된 내용을 기억하지 않습니다.

복잡하고 다단계인 작업은 이러한 균열을 빠르게 드러냅니다. 오랜 시간 지속되는 작업—마이그레이션, 여러 서비스 리팩토링, 사고 대처 매뉴얼—은 분기 논리, 백트래킹, 그리고 테스트 실패나 API 비율 제한과 같은 외부 제약에 대한 인식이 필요합니다. 정적인 프롬프트는 테스트 스위트가 시간 초과될 때, 의존성이 충돌할 때, 혹은 도구가 잘못된 JSON을 반환할 때 적응할 수 없습니다.

현대의 에이전트는 그 취약성을 직접적으로 활용합니다. 단일 프롬프트 대신, 계획하고, 행동하고, 관찰하고, 수십 또는 수백 단계에 걸쳐 수정할 수 있는 제어 루프를 제공합니다. 이 하니스는 모델이 아닌 실행 그래프를 소유합니다: 도구를 호출할 시점, 재계획할 시점, 중단할 시점을 결정합니다.

재시도가 더 이상 사후적 고려사항이 되지 않습니다. Anthropic의 코딩 하네스나 LangChain의 DeepAgent와 같은 시스템은 모든 툴 호출을 구조화된 오류 처리를 통해 감싸줍니다: 네트워크 실패에 대한 자동 재시도, 툴 출력에 대한 스키마 검증, 모델이 규격에서 벗어날 때의 맞춤형 재질문 등이 포함됩니다. 이들은 각 단계를 기록하여 에이전트가 자신의 이력을 점검하고 방향을 수정할 수 있도록 합니다.

다이나믹 계획이 일급 기능으로 거듭납니다. 고정된 시퀀스 대신, 하니스는 도구 피드백을 기반으로 작업 목록을 업데이트합니다: - 계획 생성 - 도구 실행 - 예상 결과와 실제 결과 비교 - 단계 삽입, 삭제 또는 재정렬

대규모 코드베이스 리팩토링을 다시 고려해보세요. 하나의 프롬프트가 모든 것을 한 번에 다시 작성하려 할 경우, 컨텍스트 한계를 초과하고 컴파일이 불가능한 코드를 생성할 수 있습니다. 하네스 기반 에이전트는 레포를 스캔하고, 파일을 청크로 나누며, 모듈별로 리팩토링을 진행하고, 각 배치 후에 테스트를 실행하고, 실패를 감지하며, 특정 변경 사항을 롤백하고, 테스트가 통과할 때까지 반복적으로 수정할 수 있습니다.

프로덕션 등급 하네스의 구성 요소

일러스트: 프로덕션 등급 하네스의 해부학
일러스트: 프로덕션 등급 하네스의 해부학

프로덕션급 에이전트 하네스는 영리한 프롬프트처럼 보이기보다는 미니어처 운영 체제에 더 가깝습니다. LangChain의 DeepAgent 하네스, Anthropic의 내부 프레임워크, Cole Medin의 Linear 하네스는 모두 동일한 아키텍처에 수렴합니다. 이는 대형 언어 모델이 방향을 잃고 방황하는 대신 목표를 향하도록 유지하는 네 가지 핵심 구성 요소를 감싼 밀접한 루프입니다.

기반에는 상태 관리자의 역할이 있습니다. 이 모듈은 에이전트의 현재 목표, 중간 하위 목표, 단계 이력 및 실행 메타데이터(어떤 도구가 실행되었는지, 어떤 결과를 반환했는지, 실패 여부 등)를 추적합니다. DeepAgent에서는 이것이 종종 구조화된 상태 객체로 존재하며, 모든 호출을 통해 흐르며 모델에게 “우리가 어디에 있는지”와 “무슨 일이 일어났는지”에 대한 표준적인 뷰를 제공합니다.

좋은 상태 관리는 단순한 로그 기록을 넘어섭니다. 각 단계에 대한 스키마를 강제하고, 장기 작업이 실패 후 재개될 수 있도록 체크포인트를 유지하며, 시간 제한이나 토큰 예산과 같은 제약 조건을 기록합니다. 자유로운 형식의 대화 대신, 에이전트는 감사, 재생 및 테스트가 가능한 유형화된 워크플로우 내에서 실행됩니다.

주(state)와 평행하게, 툴 컨트롤러는 모든 부작용을 중재합니다. 하니스는 모델이 원시 API를 호출하거나 파일 시스템에 직접 접근하지 못하게 하며, 엄격한 입력 및 출력 계약을 가진 선별된 도구 세트를 제공합니다. LangChain에서 도구는 JSON 스키마와 안전 장치를 선언하여 컨트롤러가 인수를 검증하고 요청을 조절하며 명백히 위험한 행동을 차단할 수 있도록 합니다.

강력한 컨트롤러는 다음을 처리합니다: - 인증 및 비밀 관리 - 여러 제공업체 간의 속도 제한 및 대기 - 파일, 셸 또는 코드 도구에 대한 샌드박스 실행

메모리는 자체 모듈에 위치하여 LLM의 200K–1M 토큰 컨텍스트 제한과 실제 작업 부하를 수일에 걸쳐 연결합니다. 단기 메모리는 일반적으로 스크래치 패드로 보이며, 예산을 유지하기 위해 모델 자체에 의해 압축된 마지막 N 단계의 실행 요약입니다. 장기 메모리는 Pinecone, Weaviate 또는 pgvector와 같은 벡터 데이터베이스에 저장되며, text-embedding-3-large와 같은 모델의 임베딩으로 인덱싱됩니다.

스마트 하니스는 일시적인 작업 메모리, 지속적인 프로젝트 메모리, 그리고 글로벌 조직 지식을 구분합니다. 이들은 모든 것을 프롬프트에 다시 담는 대신, 무엇을 요약할지, 무엇을 포함할지, 무엇을 버릴지를 결정합니다.

이 모든 것을 통합하여, 디스패처/코디네이터는 중앙 루프를 운영합니다. 이 역할은 현재 상태와 메모리를 LLM에 제공하고, 모델의 "의도"(도구 호출, 하위 작업 생성 또는 출력 마무리)를 해석하며, 제어를 적절한 구성 요소로 라우팅합니다. 각 반복 과정은 상태를 업데이트하고, 메모리를 추가하며, 제약 조건을 강화하여 스토캐스틱 모델을 예측 가능한 시스템으로 전환합니다.

'바이브 코딩'이 드디어 가능해졌나요?

바이브 코딩은 농담처럼 들릴 수 있지만, 실제로 모든 개발자가 원하는 것을 설명한다는 사실을 깨닫게 되면 그렇지 않다: 결과를 명시하고, 보일러플레이트 코드를 건너뛰고, 배포하는 것이다. 이러한 맥락에서 바이브 코딩은 “사고를 분류하는 슬랙 봇을 구축하라”는 수준에서 의도를 설명하고, 시스템이 API를 발견하고, 데이터 모델을 설계하고, 모든 함수를 지켜보지 않고도 테스트를 작성하도록 허용하는 것을 의미한다.

수년 동안, 이는 환상이었습니다. 원시 LLM은 재능이 있지만 신뢰할 수 없는 인턴처럼 행동합니다. 그들은 API를 망상하고, 엣지 케이스를 무시하며, 여러 단계의 계획을 수십 번의 턴 후에 잊어버립니다. GPT-4나 Claude 3.5를 사용하더라도, 비트리비얼 시스템, 예를 들어 인증, 청구 및 분석 기능을 갖춘 전체 CRUD SaaS를 요청하면 여전히 컴파일은 되지만 실제 트래픽과 실제 데이터 아래에서는 조용히 고장 나는 코드를 생성합니다.

에이전트 헌스는 그 위험의 형태를 변화시킵니다. 그들은 “느낌”을 최상위 목표로 바꾸고, 그런 다음 모델이 도구, 메모리 및 명시적 제약의 구조 내에서 작동하도록 강제합니다. “백엔드를 작성하라” 대신에 헌스에 “생산 준비가 된 백엔드를 제공하라”고 요청하면, 헌스는 하위 작업을 조율합니다: 스키마 설계, 마이그레이션, 통합 테스트, 배포 구성.

안트로픽의 내부 프레임워크나 랭체인의 DeepAgent와 같은 현대의 하네스는 단일 LLM 호출을 신뢰하지 않습니다. 이들은 계획 → 실행 → 검증의 루프를 강제로 진행하며, 모든 단계를 기록하고 실패를 디버거 또는 인간 검토를 통해 되돌립니다. 랭체인은 Agent harness capabilities - Docs by LangChain에서 이를 명확히 문서화하고 있으며, 여기서 에이전트는 구조화된 목표를 받고 도구를 선택하며 다단계 상태를 유지합니다.

그래서 바이브 코딩은 콜 메딘이 주장하는 방식으로 "어느 정도" 실행 가능해진다. 당신은 시스템 경계에서 바이브를 맞춘다—“Q3까지 우리의 모놀리스를 서비스 지향 아키텍처로 마이그레이션하고, 지연 시간을 150ms 이하로 유지하며, 기존 인증을 재사용한다”—그리고 하네스는 이를 수백 가지 구체적인 행동으로 분해한다. LLM은 더 이상 자유 연상하지 않고, 관리되고 테스트 가능한 워크플로우 내에서 작동한다.

중요하게도, 여러분은 맨몸의 LLM 채팅 박스와 공감하고 있는 것이 아닙니다. 여러분은 자신이 설계한 강력한 시스템에 대해 고급 지시를 내리고 있습니다: 도구 스키마, 안전 장치, 관측 후킹, 롤백 전략. 창의성은 한 단계 진화합니다. 반복문을 작성하는 것에서, 실제로 로드맵을 걸 수 있는 감성 코딩을 가능하게 하는 장착 장치를 설계하는 것으로.

신규 코더: AI 시스템 아키텍트

코더들은 조용히 AI 시스템 아키텍트로 승진하고 있습니다. 컨트롤러, 서비스, 데이터베이스 매퍼를 힘겹게 다루는 대신, 그들은 모델, 도구, 워크플로우의 네트워크를 조정하여 스크립트보다 팀처럼 행동하게 만듭니다. 업무는 “기능을 작성하다”에서 “지능형 시스템이 어떻게 생각하고 행동하는지를 설계하다”로 변화하고 있습니다.

콜 메딘은 이 전환을 직설적으로 포착한다: “우리는 시스템을 설계하고, 하네스를 설계하고 있지만, 가까운 미래에 대부분의 코드를 작성하지는 않을 것이다.” 이 문장은 과장된 것처럼 들리지만, DeepSeek, Claude 또는 GPT 스타일의 에이전트가 의도의 문장에서 REST 호출, 마이그레이션 및 테스트를 연결하는 모습을 보면 그 말이 이해될 수 있다. 인간이 여전히 방향을 설정하고, 에이전트가 구조를 다룬다.

New-day 개발자들은 대리인 목표를 제품 사양만큼 정확하게 정의합니다. "청구 페이지를 구축하라"는 대신 "우리 내부 장부와 Stripe 송장을 동기화하고, 실패를 매시간 조정하며, $5,000 이상인 이상 징후를 보고하라"와 같은 방식으로 목표를 설정합니다. 이러한 목표는 도구, 하위 대리인 및 안전 장치로 전환됩니다.

도구화가 일류 장인 기술이 됩니다. 아키텍트는 다음을 위해 기능을 선택하거나 구축합니다: - API 및 내부 서비스 호출 - 벡터 스토어와 SQL 웨어하우스 쿼리 - CI/CD 및 인프라 변경 트리거

각 도구는 엄격한 스키마, 인증 경계 및 지연 예산이 필요합니다. 이러한 도구의 품질은 에이전트가 느끼는 능숙함을 결정합니다.

논리 기반 시스템은 수기로 작성된 오케스트레이션 코드를 대체합니다. 개발자들은 계획 반복 루프, 오류 재시도 정책, 메모리 전략 및 승인 게이트를 설계합니다. "워크플로우 파일"은 에이전트가 작업을 어떻게 분해하고, 언제 하위 에이전트를 생성할 수 있으며, 감사용으로 무엇을 기록하는지를 선언할 수 있습니다. 이는 자바보다는 인지에 대한 테라폼에 더욱 가깝습니다.

디버깅은 추론 흔적의 법의학 분석으로 바뀝니다. 스택 프레임을 따라가는 대신, 사고의 연쇄, 도구 호출 및 맥락 창을 검사합니다. 프롬프트를 조정하고, 도구 계약을 수정하거나, 계획자를 재구성한 다음, 시나리오를 다시 실행합니다.

프로그래머를 지우는 것이 아니라, 이 변화는 그들을 벽돌 쌓는 사람에서 건축가로 업그레이드합니다. 어려운 문제는 한 단계 상승합니다: 루프 작성에서 자신을 신뢰할 수 있고 안전하게, 대규모로 작성할 수 있는 시스템 설계로 넘어갑니다.

야생에서의 하네스: 이론에서 이익으로

일러스트: 야생에서의 하네스: 이론에서 이익으로
일러스트: 야생에서의 하네스: 이론에서 이익으로

에이전트는 지루하고 비싼 문제를 지목하는 순간 추상적인 개념에서 벗어납니다. 앤트로픽의 엔지니어링 팀은 하네스를 활용하여 대규모 내부 데이터를 대상으로 여러 시간에 걸친 데이터 분석을 수행했으며, 에이전트가 SQL 쿼리를 조정하고 결과를 요약하며 가설을 반복할 수 있도록 하여 인간의 개입 없이 작업을 진행했습니다. 그들의 설명에는 도구 오류, API 문제 및 변경된 지침에도 불구하고 여전히 사용 가능한 보고서에 도달하는 장기 워크플로우가 포함되어 있습니다.

그 Anthropic의 예시는 "봇과 대화하기"보다 자기 주도적인 데이터 분석가에 더 가깝습니다. 이 시스템은 수십 개의 도구 호출을 통해 상태를 추적하고, 중간 출력을 기록하며, 다음에 무엇을 말할지 뿐만 아니라 언제 멈출지를 결정합니다. 일회성 완료가 아닌 지속적인 서비스에 더 가까운 결과를 제공합니다.

콜 메딘의 오픈 소스 Linear-Copilot-Harness는 실제 SaaS 워크플로우에서 이러한 작업이 어떻게 이루어지는지를 보여줍니다. 이 시스템은 LLM을 Linear의 API에 연결하여 티켓을 생성하고, 분류하며, 업데이트하는 작업을 수행하고, 문제 이력, 팀 규칙, 프로젝트 이정표와 같은 맥락을 동시에 관리합니다. 취약한 "티켓 작성" 프롬프트 대신, 이 하네스는 도구, 메모리 및 가드레일을 관리하여 에이전트가 Linear에 내재된 주니어 프로젝트 관리자처럼 행동하도록 합니다.

메딘의 하네스는 다음과 같은 패턴에 의존합니다: - 작업 유형에 따른 도구 라우팅 - 선형 문제와 사용자에 맞춰 키워진 지속적인 메모리 - 도구가 실패했을 때 재계획할 수 있는 다단계 계획

동일한 패턴은 다른 수익 창출 기제로 깨끗하게 전환됩니다. 자율 재무 연구 시스템은 서류, 실적 발표, 시장 데이터를 크롤링한 다음, 특정 회사나 산업에 대한 지속적인 논제를 유지할 수 있습니다. 하네스는 문서 검색, 스프레드시트 모델링 및 위험 요약을 조정하며, 실제 자본과 관련된 모든 것에 대해 엄격한 도구 경계를 유지합니다.

자동화된 QA 테스트 에이전트는 회귀 테스트 스위트를 처음부터 끝까지 관리할 수 있습니다. 이들은 테스트를 생성하고, CI 파이프라인을 호출하며, 실패를 해석하고, 티켓을 생성하고, 수정 사항이 반영된 후에 특정 검사를 다시 실행합니다. 이 시스템은 테스트 커버리지, 과거의 일시적인 오류 및 구성 요소 소유권에 대한 장기 보존 지도를 유지하므로 에이전트는 매 실행마다 초기화되는 것이 아니라 몇 주에 걸쳐 개선됩니다.

마케팅 팀은 이미 자가 관리 캠페인 에이전트 실험을 진행하고 있습니다. 하니스는 Google Ads, Meta 및 이메일 플랫폼 전반에 걸쳐 카피 생성, 창의적 A/B 테스트, 예산 재배치 및 분석 쿼리를 조정할 수 있습니다. OutSystems Agent Workbench와 같은 기업 수준의 플랫폼이 이를 제품화하기 위해 경쟁하고 있으며, 하니스 패턴을 드래그 앤 드롭 "에이전트 레시피"로 패키징하여 기존 스택에 직접 연결할 수 있도록 하고 있습니다.

에이전트는 커널이고, 하네스는 쉘입니다.

파벨 판체카가 이 모든 것에 대한 가장 깔끔한 정신 모델을 제공합니다: LLM은 커널이고, 에이전트 하네스는 셸입니다. "마법의 에이전트"가 아니라 리눅스와 배시를 생각하세요. 커널은 원시적인 힘을 드러내고, 셸은 인간과 프로그램이 그것을 어떻게 실제로 사용하는지를 결정합니다.

운영 체제의 커널은 프로세스를 스케줄링하고, 메모리를 관리하며, 시스템 호출을 노출합니다. bash나 zsh와 같은 쉘은 이를 `ls`, 파이프, 스크립트 및 자동화로 변환합니다. Claude나 GPT를 커널로 교체하면, 당신의 하네스는 쉘이 됩니다: 사용자의 의도를 해석하고, 도구 호출을 순서대로 실행하며, 장기 실행 작업을 유지합니다.

에이전트 하네스는 단지 껍데기에 불과하다 - 파벨 판체크하를 읽으면 비유가 명확해진다. LLM “커널”은 다음을 수행할 수 있다: - 텍스트 생성 및 변환 - 구조화된 함수 호출을 통해 도구 호출 - 단기 대화 상태 유지

하네스 "쉘"은 다음을 포함합니다: - 몇 분, 몇 시간 또는 며칠 동안 실행되는 작업에 대한 프로세스 제어 - API, 데이터베이스 및 코드베이스 전반의 도구 오케스트레이션 - 시스템 충돌 시의 지속성, 로깅 및 복구

이렇게 보면, LangChain의 DeepAgent, Anthropic의 하네스 예제, 그리고 Cole Medin의 Linear 에이전트 하네스는 이국적인 AI라기보다 친숙한 OS 엔지니어링처럼 보입니다. 이들은 시스템 호출 대신 LLM 호출을 가리키도록 스케줄링 루프, 재시도, 백오프 및 상태 기계 등을 구현합니다. 마법은 “프롬프트 엔지니어링”에서 강력한 런타임 설계로 옮겨갑니다.

이 모델은 또한 원시 LLM의 이익이 점진적으로 느껴지는 이유와 하드웨어 이익이 곱하기 효과를 느끼는 이유를 명확히 합니다. 더 나은 커널이 중요하지만, 더 나은 쉘은 모든 사용자와 모든 프로세스가 그 커널과 상호작용하는 방식을 변화시킵니다. Bash는 어떤 단일 CPU 업그레이드보다도 Unix의 사용성을 더욱 향상시켰습니다.

개발자들에게 다음 단계는 명확합니다: 에이전트를 단일 애플리케이션으로 취급하는 것을 중단하고 하네스를 운영 환경으로 다루기 시작해야 합니다. 이제 우리는 단순히 커널을 호출하는 것이 아니라, 전혀 새로운 종류의 소프트웨어를 위한 셸을 만들고 있습니다.

2026 도구 키트가 여기서 시작됩니다.

에이전트 하네스는 연구 블로그에서 이력서로 이동하고 있습니다. 2026년까지 "AI에 능숙하다"고 말할 수 있는 것은 똑똑한 프롬프트를 작성하는 것이 아니라 LLM이 몇 시간 동안 업무에 집중할 수 있도록 하는 하네스를 설계하고 디버깅하며 배포할 수 있는 것을 의미합니다. 하네스 구축을 2015년의 리액트나 2018년의 쿠버네티스를 배우는 것처럼 여기세요: 처음에는 선택적이지만, 진지한 작업을 위해서는 필수가 될 것입니다.

하나의 구체적인 시스템부터 시작하세요: 30-60분 동안 리포를 관리할 수 있는 코딩 어시스턴트입니다. git, 파일 입출력, 테스트를 위한 도구 호출을 설정한 다음, 가드레일을 추가하세요: 상태 추적, 재시도 정책, 명시적 성공 기준. 성공을 측정하기 위해 구체적인 수치로 평가하세요: 버그 수정율, PR 제출 소요 시간, 인간이 에이전트를 구출해야 하는 빈도.

귀하의 주요 교재는 LangChain DeepAgent 문서입니다. 에이전트 상태, 도구 라우팅 및 다단계 계획 모델링 방식을 살펴본 후, LangChain을 가져오지 않더라도 해당 패턴을 본인의 스택으로 변환하십시오. 좋은 운영 체제 스케줄러의 소스를 읽듯이 그 디자인을 참고용으로 삼아 "견고함"이 무엇인지에 대한 참조 구현으로 취급하십시오.

앤트로픽의 엔지니어링 블로그는 필독서 중 하나입니다. 그들의 장기 데이터 분석을 위한 하니스는 작업이 몇 시간 동안 실행될 때 메모리, 로그 및 실패 모드를 관리하는 방법을 보여줍니다. 작업을 어떻게 청크화하고, 진행 상황을 체크포인트하며, 나쁜 모델 호출의 폭발 반경을 제한하는지 주목하세요.

GitHub에는 이미 많은 블루프린트가 있습니다. Cole Medin의 Linear 에이전트 하니스와 Anthropic의 예제를 연구한 후: - 하나를 포크하여 당신만의 도구로 교체하세요. - 텔레메트리 및 비용 추적 기능을 추가하세요. - 직장이나 사이드 프로젝트의 실제 작업 부하에 맞게 강화하세요.

미래의 고임팩트 AI 작업은 원시 모델을 신뢰할 수 있는 시스템으로 감쌀 수 있는 사람들의 몫이 될 것입니다. 콜 메딘이 맞다면 우리가 코딩의 99%를 에이전트에게 위임할 때, 그 에이전트가 작동하는 하네스를 설계하는 사람에게 힘이 집중됩니다. 당신은 내일의 커널을 둘러싼 껍데기를 만드는 사람이 될 수 있습니다.

자주 묻는 질문들

AI 에이전트 하네스란 무엇인가요?

에이전트 하네스는 AI 에이전트의 기억, 도구 및 상태를 관리하는 구조화된 프레임워크로, 복잡하고 장기적인 작업을 신뢰성 있게 수행할 수 있도록 보장합니다. 이는 운영 체제에서 셸이 커널을 관리하는 방식과 유사합니다.

하네스와 프롬프트 엔지니어링은 어떻게 다른가요?

프롬프트 엔지니어링이 완벽한 초기 입력을 만드는 데 집중하는 반면, 하네스는 LLM 주위에 전체 운영 시스템을 구축하여 실행 흐름을 제어하고, 도구를 관리하며, 시간 경과에 따른 오류를 처리합니다.

에이전트 하네스가 소프트웨어 개발자를 대체할까요?

그들은 개발자의 역할을 한 줄씩 코드를 작성하는 것에서 AI 에이전트가 코드를 작성하도록 안내하는 시스템(하네스)를 설계하고 엔지니어링하는 것으로 전환하여 시스템 아키텍트로서의 지위를 높일 준비를 하고 있습니다.

'바이블 코딩'과 에이전트 하네스는 관련이 있나요?

네. '바이브 코딩'—자연어로 원하는 결과를 설명하는 것—은 하네스를 활용함으로써 더욱 실현 가능해집니다. 하네스는 고급 '바이브'를 기능적이고 다단계 코드 실행으로 변환할 수 있는 신뢰성을 제공합니다.

Frequently Asked Questions

'바이브 코딩'이 드디어 가능해졌나요?
바이브 코딩은 농담처럼 들릴 수 있지만, 실제로 모든 개발자가 원하는 것을 설명한다는 사실을 깨닫게 되면 그렇지 않다: 결과를 명시하고, 보일러플레이트 코드를 건너뛰고, 배포하는 것이다. 이러한 맥락에서 바이브 코딩은 “사고를 분류하는 슬랙 봇을 구축하라”는 수준에서 의도를 설명하고, 시스템이 API를 발견하고, 데이터 모델을 설계하고, 모든 함수를 지켜보지 않고도 테스트를 작성하도록 허용하는 것을 의미한다.
AI 에이전트 하네스란 무엇인가요?
에이전트 하네스는 AI 에이전트의 기억, 도구 및 상태를 관리하는 구조화된 프레임워크로, 복잡하고 장기적인 작업을 신뢰성 있게 수행할 수 있도록 보장합니다. 이는 운영 체제에서 셸이 커널을 관리하는 방식과 유사합니다.
하네스와 프롬프트 엔지니어링은 어떻게 다른가요?
프롬프트 엔지니어링이 완벽한 초기 입력을 만드는 데 집중하는 반면, 하네스는 LLM 주위에 전체 운영 시스템을 구축하여 실행 흐름을 제어하고, 도구를 관리하며, 시간 경과에 따른 오류를 처리합니다.
에이전트 하네스가 소프트웨어 개발자를 대체할까요?
그들은 개발자의 역할을 한 줄씩 코드를 작성하는 것에서 AI 에이전트가 코드를 작성하도록 안내하는 시스템를 설계하고 엔지니어링하는 것으로 전환하여 시스템 아키텍트로서의 지위를 높일 준비를 하고 있습니다.
'바이블 코딩'과 에이전트 하네스는 관련이 있나요?
네. '바이브 코딩'—자연어로 원하는 결과를 설명하는 것—은 하네스를 활용함으로써 더욱 실현 가능해집니다. 하네스는 고급 '바이브'를 기능적이고 다단계 코드 실행으로 변환할 수 있는 신뢰성을 제공합니다.
🚀Discover More

Stay Ahead of the AI Curve

Discover the best AI tools, agents, and MCP servers curated by Stork.AI. Find the right solutions to supercharge your workflow.

Back to all posts