요약 / 핵심 포인트
프롬프트 그 이상: 당신이 무시하고 있는 98%
AI 에이전트는 근본적으로 두 가지 부분을 결합합니다. 엔진 역할을 하는 기본 대규모 언어 모델(LLM)과 전체 차량을 나타내는 harness입니다. Claude Code에 대한 결정적인 분석 결과, 아키텍처의 약 98%가 모델이 아닌 harness인 것으로 밝혀졌습니다. 이 사실은 기능적인 에이전트를 만드는 진정한 엔지니어링 역량이 이 정교한 래퍼에 있음을 강조합니다.
이 접근 방식은 이전 AI 패러다임과 극명하게 대조됩니다. Prompt Engineering은 모델 *에게* 말하는 것에 초점을 맞춰 원하는 출력을 위한 정확한 입력을 만들었습니다. Context Engineering은 모델에 필요한 데이터와 지식을 제공하여 추론 및 응답을 향상시키는 방식으로 이를 발전시켰습니다.
Harness Engineering은 단순한 통신이나 정보를 넘어 모델 *주변에* 제어 가능하고 예측 가능한 시스템을 구축하는 다음 중요한 진화를 나타냅니다. 여기에는 에이전트의 프로세스, 기능 및 오류에 대한 응답 방식 정의가 포함됩니다. Claude Code와 같은 도구를 선택할 때, 본질적으로 미리 설계된 harness를 선택하는 것입니다.
harness는 모델이 본질적으로 부족한 필수 기능을 제공하여 기본적인 텍스트 생성기를 기능적인 에이전트로 전환합니다. 여기에는 다음이 포함됩니다: - 파일 시스템 접근 - 명령어 실행 - 구조화된 워크플로우 - 시스템 모니터링 이 강력한 프레임워크는 에이전트가 환경과 안정적으로 상호 작용하고, 복잡한 작업을 자율적으로 실행하며, 모든 LLM 실수를 구조적 개선의 기회로 활용하여 진화할 수 있도록 보장합니다.
'시스템 진화' 사고방식
에이전트 개발의 근본적인 사고방식 전환은 매우 중요합니다. 에이전트 실패는 LLM의 부적절함이 아니라 시스템 설계 결함을 나타냅니다. harness engineering을 개척하는 최고의 에이전트 엔지니어들은 더 나은 모델을 기다리는 것이 패배하는 전략임을 인식합니다. 대신, 그들은 모든 실수를 에이전트의 구조적 무결성을 강화하는 기회로 보고, 엔진을 탓하기보다는 에이전트 래퍼를 진화시킵니다.
이는 핵심 원칙인 '모든 실수는 규칙이 된다'로 이어집니다. 에이전트가 파괴적인 명령을 시도하면, 엔지니어는 단순히 되돌리는 것이 아니라, 다시는 실행되지 않도록 후크를 추가합니다. 에이전트가 중요한 규칙을 오해하면, 그 특정 통찰력은 에이전트의 핵심 규칙으로 코드화되어 시스템이 해당 오류를 구조적으로 반복하기 어렵게 만듭니다. 이 접근 방식의 핵심 인물인 Mitchell Hashimoto는 이러한 반복적인 개선을 강조합니다.
이러한 끊임없는 오류 기반 반복은 탄력적이고 자체 개선되는 시스템을 구축합니다. LangChain은 harness만 수정하여 코딩 에이전트의 Terminal Bench 2.0 점수를 52.8%에서 66.5%로 인상적으로 개선하여 래퍼의 영향력을 입증했습니다. OpenAI의 Codex 팀은 유사한 원칙을 적용하여 인간이 환경을 설계하는 방식으로 5개월 만에 AI 에이전트를 통해 백만 줄 이상의 프로덕션 코드를 출하했습니다. 따라서 엔지니어는 반응적인 프롬프터에서 에이전트의 견고하고 진화하는 성능에 대한 완전한 소유권을 갖는 능동적인 시스템 아키텍트로 전환합니다.
고성능 Harness의 해부학
고성능 하네스의 해부는 엔지니어가 모든 코딩 에이전트 세션 주변에 구축하는 궁극적인 래퍼인 AI layer에서 시작됩니다. 이 레이어는 에이전트의 컨텍스트와 프로세스를 정의하며, 다음과 같은 여러 중요한 구성 요소로 이루어져 있습니다: - global rules: 일관된 동작을 위한 규칙과 패턴을 설정합니다. - skills: 복잡한 작업을 안내하는 `plan`, `implement`, `validate`와 같은 구조화된 워크플로우입니다. - hooks: 작업이나 상태를 가로채는 안전 점검 트리거입니다. - sub-agents: 특정 작업을 처리하는 전문화된 자율 엔티티입니다.
하네스 엔지니어링은 두 가지 뚜렷한 수준에서 작동합니다. 레벨 1은 단일 에이전트 세션을 위한 이 AI layer를 완벽하게 만들고, 즉각적인 환경과 상호 작용을 최적화하는 데 중점을 둡니다. 레벨 2는 여러 전문화된 에이전트 세션을 통합된 강력한 워크플로우로 조율하여 대규모 작업의 안정적인 실행을 가능하게 하고 상당한 레버리지를 발휘함으로써 이를 한 단계 더 발전시킵니다.
이러한 구성 요소들은 원활하게 통합됩니다. 예를 들어, skills는 복잡한 구현을 위한 다단계 프로세스를 정의합니다. 그런 다음 hook은 전용 검토 sub-agent를 트리거하여 커밋하기 전에 생성된 코드를 품질 표준 및 안전 프로토콜에 대해 검증함으로써 오류를 사전에 방지할 수 있습니다. 이러한 아키텍처 패턴에 대한 더 깊은 이해를 위해 Agent Harness Engineering - AddyOsmani.com과 같은 자료를 참조하십시오. 이 체계적인 접근 방식은 시스템이 모든 실수로부터 발전하도록 보장합니다.
하네스 엔지니어가 승리하는 이유
OpenAI의 Codex 팀은 하네스 엔지니어링에 대한 초기적이고 설득력 있는 검증을 제공했습니다. 그들은 단 5개월 만에 AI 에이전트가 전적으로 작성한 백만 줄 이상의 프로덕션 코드를 출시했습니다. 이 기념비적인 성과는 모델을 끝없이 미세 조정하는 것이 아니라, 인간이 실행 환경을 설계하고 강력한 harness 원칙을 활용하여 에이전트 행동을 안내함으로써 이루어졌습니다.
이러한 힘을 더욱 입증하듯이, LangChain은 코딩 에이전트의 성능을 크게 향상시켰습니다. 그들은 기본 모델을 변경하지 않고 에이전트 래퍼만 수정하여 Terminal Bench 2.0 점수를 52.8%에서 66.5%로 거의 14% 향상시켰습니다. 이러한 결과는 에이전트 개발에서 진정한 엔지니어링 레버리지가 어디에 있는지 명확하게 보여줍니다.
결과적으로, 중요한 새로운 역할인 Harness Engineer가 빠르게 부상하고 있습니다. AI Systems Engineer 또는 Agent Platform Engineer라고도 불리는 이 전문가들은 기업에서 AI 에이전트를 실행 가능하게 만드는 탄력적이고 신뢰할 수 있는 인프라를 구축하는 데 필수적입니다. 그들은 시스템이 무엇을 방지하고, 측정하고, 수정하는지에 초점을 맞춰 모델 자체를 넘어 에이전트 행동을 형성합니다.
하네스를 마스터하는 것은 인상적인 개념 증명 데모와 프로덕션 수준 AI 사이의 간극을 마침내 메우는 결정적인 기술입니다. 이는 신뢰할 수 있고, 확장 가능하며, 궁극적으로 가치 있는 진정한 자율 시스템을 구축하여 지능형 솔루션을 개발하고 배포하는 방식을 변화시키는 길입니다.
자주 묻는 질문
하네스 엔지니어링이란 무엇입니까?
하네스 엔지니어링은 대규모 언어 모델 주변에 래퍼, 즉 '하네스'를 구축하는 분야입니다. 여기에는 AI 에이전트가 복잡한 작업을 안정적이고 안전하게 수행할 수 있도록 하는 도구, 규칙, 가드레일 및 프로세스가 포함됩니다.
하네스 엔지니어링은 컨텍스트 엔지니어링과 어떻게 다릅니까?
컨텍스트 엔지니어링은 모델에 올바른 정보(모델이 아는 것)를 제공하는 데 중점을 둡니다. 하네스 엔지니어링은 모델 주변에 시스템을 구축하고, 모델의 기능, 한계 및 오류 수정 루프(모델이 할 수 있는 것과 할 수 없는 것)를 정의하는 데 중점을 둡니다.
하네스가 모델보다 더 중요하게 여겨지는 이유는 무엇입니까?
하네스는 에이전트의 신뢰성과 성능을 결정합니다. Claude Code를 분석한 결과, 98%가 모델이 아닌 하네스였습니다. 잘 설계된 하네스는 오류를 방지하고, 복잡한 다단계 작업을 가능하게 하며, 덜 강력한 모델이 더 강력한 모델보다 뛰어난 성능을 발휘하게 할 수 있습니다.
AI 하네스의 핵심 구성 요소는 무엇입니까?
하네스는 일반적으로 도구 오케스트레이션, 검증 루프(훅), 컨텍스트 및 메모리 관리 시스템, 안전을 위한 가드레일, 그리고 에이전트 성능 모니터링을 위한 관측 가능성을 포함합니다.