앤트로픽의 AI 코딩 에이전트: 24시간 테스트 결과 및 개발의 미래

💡

요약 / 핵심 포인트

우리는 앤트로픽의 새로운 AI 코딩 에이전트를 24시간 동안 멈추지 않고 코딩 마라톤을 진행하며 극한까지 밀어붙였습니다. 그 결과는 소프트웨어 개발의 미래에 대한 충격적인 통찰을 제공합니다.

불가능한 도전: AI가 24시간 동안 코딩하기

Anthropic의 최신 코딩 실험은 도전처럼 들립니다: Claude를 장시간 실행되는 에이전트 "하네스"에 연결하고, 시작 버튼을 눌러서 24시간 동안 계속 코딩하게 합니다. 커피도, 휴식도 없이, 단지 AI 모델이 방대한 소프트웨어 사양을 처리하는 동안 잠을 잡니다. 목표는 현대 코딩 모델이 자동 완성과는 다르게 tireless junior dev 팀처럼 행동할 수 있는지를 확인하는 것입니다.

긴 작업은 보통 지루하고 예측 가능한 방법으로 AI 에이전트를 무너뜨립니다. 몇 시간 후, 그들은 문맥 창을 초과하여 이전 결정을 잊고 구조를 환각하거나 단순히 프로젝트가 "완료"되었다고 선언하며 반쪽짜리 기능은 프롬프트에만 존재하게 됩니다. 전통적인 도구는 상태를 초기화하고 스레드 기록을 잃으며, 인간이 모든 주요 리팩토링을 감시해야 하는 상황을 강요합니다.

Anthropic의 오픈 소스 하네스는 그 실패 모드를 정면으로 다루고 있습니다. 하나의 거대한 독백 대신, 하네스는 여러 에이전트를 조정하고, 별도의 컨텍스트 창으로 작업을 분할하며, 상태를 디스크에 지속합니다. 이는 테스트 주도 개발에 의존합니다: 수백 개의 테스트 케이스와 상세한 애플리케이션 사양을 미리 정의한 후, 에이전트가 테스트가 최종적으로 통과할 때까지 반복적으로 작업하게 합니다.

콜 메딘의 실험은 이 하니스(harness)를 극한으로 밀어붙입니다: 24시간 동안의 코딩 마라톤을 통해 클로드의 웹 앱을 완벽하게 복제하는 작업을 진행합니다. 여기에는 프로젝트, 대화, 아티팩트 및 파일 업로드가 포함됩니다. 하니스는 초기화 에이전트를 생성하여 약 200개 이상의 세부적인 테스트 사례를 포함하는 기능 목록을 만듭니다. 이후 프로젝트의 기초를 세우고 Git을 처음부터 연결하여 모든 변경 사항이 추적되도록 합니다. 그 후, 코딩 에이전트들은 여러 시간 동안 사이클을 돌며 해당 테스트에 맞춰 기능을 구현하고 수정합니다.

유튜브 스펙타클로 포장된 이 장면은 주체적 코딩의 진지한 미래를 미리 보여줍니다. 조용히 MVP, 배경 프로토타입, 그리고 전체 UI 셸을 밤사이 구축하는 장기 운영 AI 에이전트는 몇 주에 걸친 설정을 단 하루로 압축할 수 있습니다. 이 24시간의 스턴트는 AI를 단순한 채팅 박스로 취급하는 것을 멈추고, 그것을 하나의 프로세스로 취급하기 시작했을 때 발생하는 일을 보여줍니다.

AI 체력 장벽 허물기

지속력, 즉 순수 IQ가 아니라, 대부분의 AI 코딩 실험을 조용히 실패하게 만듭니다. 장기 작동하는 에이전트는 흐트러지거나 자신의 계획을 덮어쓰거나, 단순히 맥락 창이 반 쯤 완성된 코드와 미적지근한 지시로 가득 차면 끝났다고 “결정”합니다. 앤트로픽 설정은 그 실패 모드를 직접적으로 공격합니다: 에이전트가 기억할 수 없는 것을 기억하는 하네스입니다.

스마트한 새로운 에이전트보다는, 하네스는 일반적인 Claude Code 세션 주위에 감싸인 조정 레이어 역할을 합니다. 이는 실행 시간에 걸쳐 파일, 작업 및 테스트 결과를 추적하며, 하나의 스레드가 너무 복잡해져서 일관성을 잃을 때마다 새로운 대화를 시작합니다. 각각의 새로운 세션은 중요한 사항들로 요약된 스냅샷으로 시작되며, 이전의 모든 내용이 담긴 지저분한 기록이 아닌 것입니다.

대규모 프로젝트는 구조화된 할 일 목록으로 변환됩니다. 시작점은 일반 텍스트 앱 사양 또는 PRD에서 시작하며, 이를 수백 개의 미세하고 테스트 가능한 행동을 가진 기능 목록으로 확장합니다. Cole Medin의 진행은 Claude.ai 스타일의 클론을 위한 200개 이상의 테스트 케이스를 목표로 하였으며, 모두 그 단일 사양에서 미리 생성되었습니다.

그 기능들은 모호한 총알 포인트로 존재하지 않습니다. 대신 설명, 수정된 파일, 구체적인 수용 기준과 같은 필드를 가진 JSON 객체로 변합니다. 그러면 하네스는 한 번에 하나의 기능을 선택하고 관련 맥락을 Claude에 전달하여 오직 해당 시스템의 일부만 구현하거나 수정하도록 요청할 수 있습니다.

하나의 24시간 메가 채팅 대신, 시스템은 수십 개 또는 수백 개의 집중된 “스프린트”를 실행합니다. 각 스프린트는 좁은 목표를 가진 단기 에이전트 세션입니다: 컴포넌트를 추가하거나, API 호출을 연결하거나, 테스트를 통과시키는 것입니다. 컨텍스트 창이 혼잡해지기 시작하면 하니스는 해당 세션을 종료하고 현재 저장소 상태 및 작업 목록으로 씨앗을 뿌린 새로운 세션을 엽니다.

상태는 디스크와 Git에 저장되며, 모델의 메모리에는 저장되지 않습니다. 하네스는 다음에 의존합니다: - 코드베이스 자체 - 기능 목록 JSON - 증가하는 테스트 스위트 및 로그

상태를 외부화함으로써, 하니스는 불안정하고 잊어버리기 쉬운 에이전트를 보다 결정론적인 빌드 파이프라인처럼 행동하게 만듭니다. 즉, 24시간 동안 코딩을 지속하면서도 흐름을 잃지 않게 할 수 있습니다.

미션: 클로드.ai를 처음부터 클론하기

클로드의 24시간 미션은 brutally clear 한 브리핑을 받았다: 인간의 도움 없이 처음부터 Claude.ai 웹 앱을 재구성하는 것. 장난감 채팅 박스가 아니라 매일 수백만 사용자가 방문하는 인터페이스의 실제 복제본. 동일한 핵심 흐름, 같은 세련됨, 끊임없이 작동하는 AI가 전적으로 작성한 코드로 끝까지 실행된다.

이는 전체 대화 범위를 복제하는 것을 의미합니다. 에이전트는 메시지 기록, 사이드바 스레드 및 다양한 프로젝트로의 적절한 라우팅을 통해 지속적인 대화 관리를 구축해야 했습니다. 또한 실제 파일 업로드와 첨부 파일이 필요했으며, 이는 스텁이 아닌 문서, 코드 및 PDF를 처리하여 모델 내부로 흐르고 UI에서 참조로 다시 출력될 수 있어야 했습니다.

그 외에도, 콜 메딘의 사양은 프로젝트 수준의 조직과 깔끔하고 현대적인 프론트 엔드 를 요구했습니다. 클론은 다음이 필요했습니다: - 프로젝트 생성 및 전환 - 프로젝트별 그룹화된 대화 - “아티팩트” 또는 풍부한 결과물 지원 - 원시 부트스트랩이 아닌 가벼운 UX 크롬을 갖춘 반응형 클로드 스타일 레이아웃

이것은 오랜 경력을 가진 에이전트들이 잘 수행해야 하는 바로 그런 일입니다: 프론트 엔드에서 React 또는 Next.js 작업, 백엔드 API 연결, 그리고 상태를 일관되게 유지하는 보조 코드가 혼합된 복잡한 작업입니다. 이는 Claude가 라우팅, 인증, 지속성 및 UI 상태를 주도하고 인간이 읽을 수 있는 제품 사양에 맞춰 조정해야 하는 상황을 강요합니다. 단일 프롬프트로는 이러한 작업을 커버할 수 없습니다; 오히려 작업을 분해하고 맥락을 계속해서 재방문하는 시스템만이 가능성을 가질 수 있습니다.

앤트로픽의 장기 운영 에이전트를 위한 효과적인 하네스 - 앤트로픽 기사에서는 수백 개의 테스트와 다중 에이전트 워크플로를 포함한 Claude.ai 스타일의 복제품을 사례로 들고 있습니다. 이론적으로 하네스는 초기화 에이전트와 코딩 에이전트를 조율하고, 구조를 설정하며, 200개 이상의 테스트 케이스를 처리하여 애플리케이션이 통과할 때까지 진행합니다. 하지만 유튜브에서 그 매력적인 다이어그램은 냉혹한 질문으로 바뀝니다: 같은 설정으로 실제로 인적 수정 없이 24시간 안에 Claude.ai 클론을 배포할 수 있는 것인가, 아니면 블로그 게시물이 조용히 수동 조정과 선별된 스크린샷에 의존했을까요?

이러한 이해관계는 이를 단순한 신기루 기준 이상으로 만듭니다. 만약 하네스와 클로드가 실제로 무인으로 생산 인접 클로드.ai 클론을 구축할 수 있다면, 이는 “새로운 앱 시작하기”가 사양서를 작성하고 실행 버튼을 누른 후 다음 날 아침에 작동하는 SaaS 스켈레톤을 가져오는 것을 의미하는 가까운 미래를 암시합니다.

건축가: 초기화 에이전트를 만나보세요

초기화 에이전트는 프로젝트의 수석 설계자처럼 행동하지만, 자아는 없고 무한한 인내심을 가지고 있습니다. 이는 Anthropic 하네스가 가장 먼저 실행하는 프로세스이며, 그 후의 모든 것들은 이 에이전트의 작업 품질에 따라 좌우됩니다. 단 하나의 기능이 코드화되기 전에, 이 에이전트는 앱 사양—Claude.ai 클론을 위한 의사 PRD—과 함께 앉아 이를 완전히 구조화된 계획으로 변환합니다.

그 직무는 간단해 보입니다: “요구 사항 분석 및 프로젝트 설정.” 실제로는 몇 페이지의 텍스트를 다른 에이전트가 24시간 내내 벗어나지 않고 따를 수 있는 기계가 읽을 수 있는 청사진으로 변환하는 것을 의미합니다. 디버깅도 없고, UI 다듬기도 없으며, 리팩토링도 없습니다—그저 설정만 하면 됩니다.

하네스는 초기화 에이전트가 전체 빌드를 정의하는 네 개의 핵심 아티팩트를 생성하도록 강제합니다.

1200개 이상의 세분화된 테스트 케이스를 포함한 기능 목록 JSON
2프로젝트를 시작하기 위한 초기화 스크립트
3전체 스택을 위한 코드 스캐폴딩 템플릿
4새로 초기화된 Git 저장소

그 기능 목록 JSON은 조용히 가장 많은 작업을 수행합니다. 이는 Claude.ai 클론 사양을 수백 개의 작은 검증 가능한 행동으로 확장합니다: 새로운 대화 시작, 파일 업로드, 프로젝트 전환, 아티팩트 렌더링, 빈 상태 처리 등. 각 테스트 케이스는 나중에 코드 작성 에이전트의 목표가 되어, 일종의 AI 네이티브 테스트 주도 개발을 강제합니다.

초기화 스크립트는 환경을 연결하여 향후 에이전트가 설정 단계를 재발명하며 토큰을 낭비하지 않도록 합니다. 이는 프레임워크 선택, 패키지 관리자, 개발 명령과 같은 결정들을 인코딩합니다. 즉, `npm install`, 데이터베이스 부트스트랩, `npm run dev`와 같은 동등한 작업을 하나의 재현 가능한 진입점에 담고 있습니다.

스캐폴딩은 코딩 에이전트에게 하나의 구성 요소를 만지기 전에 코드베이스의 지도를 제공합니다. 프론트엔드, 백엔드, API 경로 및 공유 유틸리티를 위한 미리 정의된 디렉토리를 제공하며, 라우팅, 상태 관리와 클로드의 채팅, 아티팩트 및 파일 처리의 통합 지점을 암시하는 자리 마련 파일도 포함되어 있습니다.

Git은 최종적으로 협상할 수 없는 요소입니다. Initializer Agent는 새로운 리포지토리를 생성하여 첫 번째 줄부터 버전 기록을 설정합니다. 이후의 에이전트들은 안전하게 커밋, diff, 롤백을 할 수 있습니다. 장기적으로 운영되는 에이전틱 코딩 시스템의 경우, 그 기록은 24시간 세션이 혼란에 빠지는 것을 방지하는 유일한 요소입니다.

코딩 루프의 끊임없는 논리

코딩 시스템의 성공은 주요 작업 주체인 코딩 에이전트에 달려 있습니다. 초기화 에이전트가 청사진을 그린 후, 이 에이전트는 끊임없는 루프에 들어갑니다. 새로운 컨텍스트 창으로 깨어나 프로젝트 상태를 다시 읽고, 기능을 하나씩 점검해 나갑니다. 대화나 브레인스토밍은 없으며, 오직 테스트, 수정 및 커밋의 긴밀한 피드백 주기만 있을 뿐입니다.

중심에는 엄격한 테스트 주도 개발(TDD) 규율이 있습니다. 생산 코드의 한 줄도 변경되기 전에, 시스템은 이미 200개 이상의 세부 테스트 사례가 포함된 방대한 기능 목록 JSON을 통해 "완료"의 모습이 무엇인지 알고 있습니다. 코딩 에이전트의 임무는 창의적이지 않고, 그 테스트들이 성공하도록 만드는 것입니다.

각 루프는 에이전트가 진행 아티팩트를 로드하는 것으로 시작합니다: 기능이 존재하는지, 테스트가 통과하는지, 최근에 무엇이 깨졌는지를 추적하는 구조화된 파일입니다. 그 다음으로, 우선순위와 의존성을 기반으로 다음 목표를 선택합니다. 예를 들어, "프로젝트에 여러 파일 업로드 지원" 또는 "아티팩트와 함께 대화 기록 렌더링" 등이 있습니다. 이 선택은 프롬프트 내에서 이루어지지만, 그 선택을 안내하는 상태는 디스크에 저장됩니다.

코드베이스를 다루기 전에 에이전트는 전체 회귀 테스트 스위트를 실행합니다. 즉, 모든 반복은 지금까지 구축된 모든 것을 재검증하는 것으로 시작하여, 문제가 발생하는 즉시 잡아내고 몇 시간 후가 아닌 즉각적으로 회귀를 예방합니다. 만약 이전에 통과한 테스트가 실패하면, 에이전트는 새로운 것을 추가하기 전에 그 문제를 해결하는 쪽으로 전환합니다.

회귀 테스트가 통과한 후에야 에이전트는 새로운 기능을 구현합니다. 소스 파일을 수정하고 구성 요소를 업데이트하며 API 핸들러를 조정하고 동일한 도구 인터페이스를 통해 UI 동작을 연결합니다. 그런 다음 테스트를 다시 실행하고 새로운 케이스가 통과하거나 시도 횟수의 설정된 한도에 도달할 때까지 반복합니다.

기능이 작동할 때, 하니스는 에이전트가 기억을 외부화하도록 강제합니다. 이 과정을 통해 진행 파일이 업데이트되며, 여기에는 구현된 기능, 현재 통과하는 테스트, 알려진 제한 사항 및 다음 논리적 단계에 대한 세부 정보가 포함됩니다. 이 파일은 다음 세션을 위한 간결하고 기계가 읽을 수 있는 변경 로그가 됩니다.

모든 루프는 Git 커밋으로 끝납니다. 하네스는 Git을 애프터스폿이 아닌 핵심 메모리 기반으로 간주합니다: 차이(dif) 정보는 다음 코딩 에이전트 인스턴스에게 정확히 무엇이 변경되었는지를 알려주고, 커밋 메시지는 의도를 요약하며, 역사(history)는 치명적인 실수로부터 보호합니다. 진행(progress) 파일과 결합된 이러한 커밋들은 완전히 새로운 컨텍스트 윈도우가 18시간의 작업을 다시 읽지 않고도 “기억”하게 해줍니다.

CLI를 넘어: SDK의 힘

Claude Code와 같은 명령줄 도구는 강력하게 느껴지지만, 이 24시간 실험은 조용히 이를 우회합니다. CLI에 의존하는 대신, 하네스는 Python의 Claude Agents SDK를 통해 Claude와 직접 대화하며, 모델을 고급 터미널 명령이 아니라 일급 소프트웨어 구성 요소로 취급합니다.

Anthropic의 하네스는 에이전트를 시작하고, 작업 일정을 조정하며, 모든 것을 SDK 호출을 통해 git 상태를 검토합니다. Python 프로세스가 모든 것을 조율합니다: 세션 생성, 도구 호출 스트리밍, 파일 읽기 및 쓰기, 에이전트가 멈출 때 재시작까지. 실행이 시작된 후에는 인간이 'claude code'를 프롬프트에 입력하지 않습니다.

직접 SDK 접근을 통해 모델 선택이 재구성이 아닌 구성 세부 사항으로 바뀝니다. 동일한 하네스는 다음을 호출할 수 있습니다: - 비용 효율적인 반복을 위한 Claude Sonnet 4.5 - 더 복잡한 리팩토링을 위한 Claude Opus 4.5 - 호환 가능한 API를 통해 Code Llama 또는 GPT 스타일 코딩 모델과 같은 서드파티 모델

모델 스왑은 클라이언트 초기화에서 한 줄의 변경으로 이루어지며, 전체 새로운 작업 흐름이 아닙니다. 하니스는 이미 "Claude"를 추상화로 간주하고 있습니다: 도구, 컨텍스트 및 계약을 가진 코딩 에이전트입니다. 그 하부에서는 그 계약이 JSON을 이해하고 프로토콜을 준수하는 어떤 모델이라도 가리킬 수 있습니다.

이것이 SDK가 주체적 코딩의 진정한 미래처럼 보이는 이유입니다. CLI는 빠른 일회성 수정이나 대화형 디버깅에서는 빛을 발하지만, 지속적인 상태, 백그라운드 작업 또는 에이전트 간 조정이 필요할 때는 한계를 드러냅니다. 이러한 장기 실행 시스템은 로깅, 재시도, 메트릭 및 보안 통제를 위한 프로그래밍적 후-hook을 활용합니다.

Anthropic의 자율 코딩 퀵스타트 - 앤트로픽 GitHub 리포지토리는 이 가정을 내재하고 있습니다. 이 리포지토리는 단순히 파이썬, 프롬프트, 그리고 에이전트 SDK를 연결하는 구조로 되어 있어, 전체적으로 개발 도구보다는 소프트웨어 생성을 위한 확장 가능한 마이크로서비스처럼 느껴집니다.

자신만의 24시간 AI 코더 운영 방법

자신만의 24시간 Claude 코더를 운영하려면 Anthropic의 오픈소스 하네스를 GitHub에서 시작해야 합니다. claude-quickstarts 레포지토리의 자율 코딩 빠른 시작 부분, 특히 `autonomous-coding` 디렉토리로 이동하여 로컬에 클론하세요. 준비된 스캐폴드가 제공됩니다: 프롬프트, 에이전트 배선 및 장기 실행 Claude 코딩 에이전트를 시작하는 스크립트가 포함되어 있습니다.

설정过程은 장난감 데모보다는 개발 도구 체인을 구성하는 것에 더 가깝습니다. 의존성(파이썬, 노드 및 `npm install` 또는 `pnpm install`을 통한 프로젝트 패키지)을 설치하고, 환경 변수를 `.env` 파일에 입력한 다음, 하니스를 Claude 자격 증명으로 지정합니다. 이 레포는 Claude.ai 클론을 위한 예시 구성 파일을 함께 제공하므로, 대부분을 수정하여 사용할 수 있습니다.

비용 관리가 불 obvious한 킬러 기능이 됩니다. 콜 메딘은 영상에서 중요한 팁을 언급합니다: 미터링 API 키 대신 클로드 구독 토큰 (당신의 브라우저가 클로드 코드에 사용하는 동일한 것)을 사용하십시오. 이를 정액제 키에 연결하고 24시간 동안 실행하면, 세 자리수나 네 자리수의 청구서로 깨어날 위험이 있습니다.

전체 프로세스를 시작하는 것은 리포지토리 루트에서 단일 명령으로 이루어지며, 다음과 같은 형식입니다:

- `python main.py --app-spec=app_spec.txt`

엔터를 누른 후 10~20분 동안 아무 흥미로운 일도 일어나지 않습니다. 그게 바로 초기화 에이전트가 조용히 200개 이상의 테스트 케이스를 생성하고, 프로젝트의 뼈대를 세우고, 초기화 스크립트를 작성하며, 시각적인 UI가 나타나기 전에 Git 리포지토리를 부트스트랩하는 과정입니다.

모든 것은 당신의 앱 사양 파일에 달려 있습니다. Anthropic의 하니스는 페이지, 흐름, 엣지 케이스, 역할 및 비기능 요구 사항을 자세히 설명한 무자비한 PRD 스타일의 텍스트 파일을 기대합니다. 만약 막연한 “채팅 앱 클론” 단락을 주면 막연한 제품이 나옵니다.

강력한 Claude.ai 클론 앱 사양서는 인간 팀에 전달할 법한 내용을 담고 있습니다: URL 구조, 대화 상태, 파일 업로드 한계, 아티팩트 동작, 키보드 단축키, 오류 메시지, 그리고 빈 상태 디자인까지. 초기화 에이전트는 이를 세분화된 테스트로 변환하여, 사양서의 각 모호한 문장이 12시간 후에 모호하거나 누락된 기능으로 변모합니다.

도전이 시작된다: 클로드가 해방되다

자정이 지나자, 명령이 실행되고, 하니스는 조용히 설정에서 실행으로 전환됩니다. 초기화 에이전트는 첫 번째 세션을 시작하며, 앱 사양을 가져오고, 대략 200개의 세부 테스트 케이스가 포함된 방대한 feature_list.json을 생성하며, 초기 Next.js 스타일의 틀과 새로운 git 저장소를 연결합니다. 이러한 아티팩트를 작성한 후, 제어는 일꾼인 코드 에이전트 루프로 넘어갑니다.

당신의 터미널은 더 이상 일반적인 개발 콘솔처럼 보이지 않고, 외계인 쌍 프로그래머의 실시간 시스템 로그처럼 읽히기 시작합니다. 도구 호출이 몇 초마다 흐릅니다: `read_file`, `write_file`, `run_tests`, `git diff`, `git commit`. 당신은 `app/`, `components/`, `lib/` 같은 디렉터리가 TypeScript, React 컴포넌트, API 라우트 핸들러로 가득 차는 것을 지켜봅니다. 이 모든 작업은 첫 번째 `npm start` 이후 당신의 프롬프트 없이 Claude에 의해 작성되었습니다.

출력 라인은 인간이 유지할 수 없는 속도로 쌓입니다. 순간에 요원은 프로젝트를 위한 사이드바를 구축하고, 다음 순간에는 대화 스레드를 연결하며, 그 후에는 아티팩트 패널에서 불안정한 테스트를 수정합니다. 하니스는 세션을 작게 유지하면서 컨텍스트를 회전시키고 새로운 코딩 에이전트 실행을 생성하며 파일 시스템, git 이력 및 기능 목록 JSON을 통해 상태를 보존합니다.

손은 디자인상 키보드에서 벗어납니다. "승인" 버튼도 없고, 수동 재시도도 없으며, 중간에 프롬프트를 수정할 수도 없습니다. `node run_harness.mjs`를 시작하면, 시스템이 다음 24시간을 책임집니다: 계획, 코딩, 테스트 실행 및 코드 커밋. 유일한 인간의 활동은 스크롤을 지켜보며 가끔 시스템 메트릭을 확인하여 기계가 과열되지 않도록 하는 것입니다.

보안과 검증이 거의 모든 작업에 스레드를 엮고 있습니다. 하네스는 위험한 모든 것을 차단하기 위해 쉘 명령을 감싸고, 파일 쓰기를 프로젝트 디렉토리로 제한하며, MCP 서버를 통해 Puppeteer를 사용하여 헤드리스 브라우저에서 Claude.ai 클론을 시각적으로 검증합니다. 에이전트는 다음과 같은 작업을 수행할 수 있습니다:

1개발 서버를 시작하세요.
2크롬에서 로컬호스트 열기
3프로젝트, 대화 및 파일 업로드를 클릭하여 확인하세요.
4렌더링된 UI를 사양 및 테스트 기대치와 비교하십시오.

각 Puppeteer 패스는 다른 신호로 루프로 피드백됩니다: 앱이 실제로 올바르게 동작했는가, 아니면 다음 커밋에서 UI의 절반을 제거하고 다시 작성해야 하는가?

최종 판결: AI가 24시간 안에 만드는 것

24시간과 수백 번의 에이전트 사이클이 지난 후, 클로드는 실제로 작동하는 풀스택 Claude.ai 스타일 웹 앱을 만들어냈습니다. 장난감도 아니고, 정적인 목업도 아닌, 리액트 프론트 엔드, API 백엔드, 그리고 동일한 하네스에 연결된 테스트 스위트가 포함되어 있습니다. 콜 메딘은 마치 일반 SaaS 제품처럼 영상을 통해 그것을 스크롤합니다. 기능적으로 보았을 때, 사실 그것이 전부입니다.

시각적으로, 클론은 놀랍게도 매우 가까운 곳에 위치합니다. 사이드바 레이아웃, 채팅 스레드, 프로젝트 목록, 그리고 전반적인 클로드의 미학이 모두 나타납니다: 밝고, 깨끗하며, 익숙합니다. 대화를 시작하고 이름을 바꾸며, 지속적인 역사 패널에 채팅이 쌓여가는 모습을 볼 수 있습니다.

핵심 상호작용도 잘 작동합니다. 이 앱은 클로드에게 메시지를 보내고, 응답을 스트리밍하며, 대화 중에 맥락을 유지합니다. 파일 업로드는 기본 사용 사례에 대해 작동하며, 문서를 채팅에 첨부하고 UI에서 표시할 수 있지만, 큰 파일이나 특이한 파일과 관련된 엣지 케이스는 여전히 오류가 발생합니다.

아티팩트, 클로드의 독특한 "인라인 앱" 기능이 부분적으로 도착합니다. 클론은 간단한 아티팩트를 생성하고 이를 전용 패널에 표시하며 대화에 연결된 상태로 유지할 수 있습니다. 그러나 더 고급 플로우인 다중 아티팩트 세션, 복잡한 상태 도구, 또는 제자리에 아티팩트를 편집하는 기능은 조용히 실패하거나 일관되지 않게 작동합니다.

프로젝트 관리는 중간 지점에 위치합니다. 헌스 드리븐 에이전트는 다음을 구현합니다: - 프로젝트 생성 및 삭제 - 대화를 프로젝트에 할당하기 - 프로젝트별 채팅 기본 필터링

그러나 대량 작업, 강력한 검색 및 프로젝트 간 뷰는 여전히 불안정하거나 누락된 경우가 많으며, 종종 구현되지 않은 버튼이나 작동하지 않는 사용자 인터페이스 상태로 나타납니다.

내부적으로 테스트 주도 전략이 효과를 발휘합니다. 약 200개 이상의 생성된 테스트 케이스 중 대다수가 24시간이 끝날 무렵 통과하며, 실패는 고급 UX 다듬기와 모호한 오류 처리에 집중됩니다. 하네스는 진행이 평탄해질 때까지 계속 순환되며, 클로드가 "피곤해"지거나 완료했다고 결정할 때가 아닙니다.

메딘은 카메라 앞에서 이 하네스를 "진짜"라고 언급하며 과대선전처럼 느껴지지 않습니다. 그는 이것이 아직 생산급 엔지니어링은 아니지만, 에이전트 코딩이 복잡한 다기능 웹 앱을 하루 만에 자율적으로 조립할 수 있다는 것을 증명하는 데모가 강한 인상을 남겼다고 강조합니다. 앤트로픽의 장기 운영 에이전트와 Claude Opus 4.5와 같은 모델에서의 전반적인 발전과 짝을 이루어 이 워크플로우는 초창기임에도 불구하고 이미 작동한다는 결론이 명확하게 전달됩니다.

당신의 새로운 AI 동료가 내일 출근합니다.

현재의 "AI 페어 프로그래머"는 곧 구식으로 보일 것입니다. Anthropic의 오픈 소스 에이전트 하네스와 같은 장기 운영 하네스는 Claude와 같은 모델을 수다스러운 어시스턴트에서 24시간 이상 백로그를 조용히 처리하는 백그라운드 작업자로 전환합니다. 리팩토링 도중에 줄거리를 잃는 일 없이 말이죠.

프롬프트 창을 지켜보는 대신, PRD, 리포지토리, 그리고 테스트 스위트를 에이전트에게 전달하고, 작업 가능한 프로토타입으로 돌아올 수 있습니다. Cole Medin의 Claude 실험은 이를 구체적으로 보여줍니다: 하네스 조정된 Claude Code 인스턴스가 Claude.ai 스타일의 인터페이스를 구축하고, 프로젝트와 대화를 연결하며, 하루 종일 수백 개의 테스트를 반복합니다.

개발자에게 이는 새로운 혁신이라기보다 새로운 인프라 계층처럼 보입니다. 에이전트를 다음과 같이 생각해 보세요: - 야간 프로토타입 제작기 - 지속적인 리팩토링 데몬 - 테스트 생성 및 커버리지 봇 - 문서화 및 마이그레이션 보조자

이 시스템 중 하나에 24시간을 주고 200개 이상의 사례로 구성된 기능 목록 JSON을 제공하면, 당신이 잠자는 동안 충실히 그린 체크를 추적할 것입니다.

아직까지 이 모든 것이 "생산 준비가 완료된" 것처럼 느껴지지는 않습니다. Anthropic의 퀵스타트 리포지토리의 하네스는 실험적인 단계이고, 불안정한 테스트에 취약하며, 다른 LLM과 마찬가지로 환각에 취약합니다. 하지만 그것이 암호화한 전략—테스트 주도 프롬프트, 엄격한 성공 기준, 진실의 출처로서의 Git, 다중 에이전트 조정—은 실제 AI 시스템을 강화하는 방법에 직접적으로 연결됩니다.

이 패턴을 스택에 이미 적용할 수 있습니다. 초기화 에이전트를 사용하여 사양, 골조 및 테스트를 생성하고, 코딩 에이전트가 특정 디렉토리만 수정하도록 제한하며, CI를 연결하여 병합 전에 동일한 하네스 기반 검사를 실행하도록 설정하세요. 각 단계는 귀하의 AI 도우미를 자동 완성과는 다르게 파이프라인에 연결된 결정론적 작업자처럼 만들어 줍니다.

주도적인 엔지니어링은 "소프트웨어 작성"의 의미를 근본적으로 변화시킬 것입니다. 인간 엔지니어들이 아키텍처, 제약 조건, 검토 기준을 정의하는 반면, 전문화된 에이전트들이 수십 시간에 걸쳐 구현, 테스트 및 통합을 처리합니다. 클로드 복제 실험은 이러한 미래의 대략적인 스케치입니다: 코드베이스는 키 입력보다 지치지 않고 테스트에 집착하는 협력자들의 군대를 조정함으로써 형성됩니다.

자주 묻는 질문

장기 작동 에이전트를 위한 앤트로픽 하네스란 무엇인가요?

복잡한 작업을 여러 시간 또는 며칠 동안 수행할 수 있도록 맥락 창을 관리하고 작업을 더 작고 테스트 가능한 조각으로 나누어 AI 코딩 에이전트가 작업할 수 있게 해주는 오픈 소스 조정 계층입니다.

이 하네스는 클로드 외의 다른 모델에서도 사용할 수 있나요?

네. 이 하네스는 모델에 구애받지 않습니다. 이는 프롬프트와 아티펙트 파일의 시스템이기 때문에 클라이언트 SDK를 조정하여 Claude Code를 OpenAI의 다른 모델이나 오픈 소스 대체 모델로 교체할 수 있습니다.

이 자율 코딩 시스템은 생산 사용을 위한 준비가 되었습니까?

아니요, 여전히 매우 실험적인 단계입니다. 생산 준비가 완료된 애플리케이션을 구축하기보다는 빠른 프로토타이핑, 개념 증명 생성, 주체적 엔지니어링의 미래 탐색에 가장 적합합니다.

하네스는 어떻게 맥락 윈도우의 한계를 피하나요?

각 코딩 에이전트 세션에 대해 새로운 신선한 컨텍스트 창을 생성합니다. 에이전트는 진행 상황 요약, 기능 목록, 기존 코드베이스와 같은 주요 아티팩트 파일을 읽음으로써 진행 상황을 파악하고, 다음 세부 작업에 필요한 관련 컨텍스트만 확보합니다.

𝕏 in ↑↗

One weekly email of tools worth shipping. No drip funnel.

one email per week · unsubscribe in two clicks · no third-party tracking

자주 묻는 질문

장기 작동 에이전트를 위한 앤트로픽 하네스란 무엇인가요?

이 하네스는 클로드 외의 다른 모델에서도 사용할 수 있나요?

이 자율 코딩 시스템은 생산 사용을 위한 준비가 되었습니까?

하네스는 어떻게 맥락 윈도우의 한계를 피하나요?

클로드는 24시간 동안 코딩했습니다. 결과는 놀랍습니다.

요약 / 핵심 포인트

불가능한 도전: AI가 24시간 동안 코딩하기

AI 체력 장벽 허물기

미션: 클로드.ai를 처음부터 클론하기

건축가: 초기화 에이전트를 만나보세요

코딩 루프의 끊임없는 논리

CLI를 넘어: SDK의 힘

자신만의 24시간 AI 코더 운영 방법

도전이 시작된다: 클로드가 해방되다

최종 판결: AI가 24시간 안에 만드는 것

당신의 새로운 AI 동료가 내일 출근합니다.

자주 묻는 질문

장기 작동 에이전트를 위한 앤트로픽 하네스란 무엇인가요?

이 하네스는 클로드 외의 다른 모델에서도 사용할 수 있나요?

이 자율 코딩 시스템은 생산 사용을 위한 준비가 되었습니까?

하네스는 어떻게 맥락 윈도우의 한계를 피하나요?

One weekly email of tools worth shipping. No drip funnel.

자주 묻는 질문

다음 읽기

이 AI 에이전트가 당신을 위한 비즈니스를 구축합니다

AI의 현실 점검: LLM을 무너뜨린 벤치마크

AI의 숨겨진 번아웃 위기

AI 트렌드를 앞서가세요