TL;DR / Key Takeaways
AI의 95% 실패율은 현실입니다
기업 AI 파일럿의 95%가 실패합니다. MIT의 널리 인용되는 보고서에서 나온 이 숫자는 올해 이사회에 화재 경보처럼 울렸습니다. 이는 냉혹한 현실을 드러내기 때문입니다: 대부분의 기업 AI는 멋진 데모 단계를 넘지 못합니다. 예산은 소진되고, 발표자료는 훌륭해 보이지만, 그 후 파일럿은 실제 고객이나 생산 워크플로우에 접촉하기도 전에 조용히 사라집니다.
그 실패율 아래에는 간단한 문제가 있다: 기업들은 완전히 제어할 수 없는 비결정론적인 시스템을 신뢰하지 않는다. 전통적인 소프트웨어는 예측 가능한 방식으로 작동하며, 동일한 입력이 매번 동일한 출력을 낳는다. 대형 언어 모델은 즉흥적으로 동작한다. 그들은 환각을 일으키고, 정책을 잘못 해석하며, 때때로 데이터를 만들어내는 행동을 보인다. 이는 돈을 이동시키거나, 의료 기록에 접근하거나, 내부 API에 접근할 때는 용납될 수 없는 행동이다.
회의실에서 매끄럽게 시연되는 챗봇은 신중하게 선택된 프롬프트, 선별된 데이터, 그리고 관대 한 청중을 바탕으로 작동합니다. 반면 생산 품질의 AI 시스템은 혼란스러운 티켓, 완료되지 않은 CRM 항목, 화가 난 고객, 모든 것이 잘못될 것이라고 가정하는 규제 담당자들로 구성됩니다. 데모와 배포 사이의 격차는 파일럿이 실패하는 곳입니다. 샌드박스에서 마법처럼 보였던 시스템은 갑자기 감사 추적, 속도 제한, 오류 예산, 사건 매뉴얼이 필요해집니다.
대부분의 기업들은 파일럿이 기술적으로 "성공"했지만 조직적으로 실패한 후에야 이것을 발견합니다. 보안 팀은 핵심 도구에 대한 접근을 차단합니다. 법무팀은 데이터 사용에 대한 확실한 보장을 요구합니다. 운영팀은 에이전트가 왜 $50 대신 $5,000를 환불하기로 결정했는지 디버깅할 수 없습니다. 가이드라인, 평가, 관찰 가능성이 내장되지 않으면 AI는 미션 크리티컬 시스템에 고정된 설명할 수 없는 블랙 박스가 됩니다.
이것이 바로 많은 팀들이 현재 파일럿 지옥이라고 부르는 곳에서 "행동 주체적인" AI가 정체된 이유입니다. 에이전트는 도구를 호출하고, 워크플로를 트리거하며, 자율적으로 행동할 수 있지만, 기업들은 시간이 지나도 안전하고 측정 가능하며 개선할 수 있다는 것을 체계적으로 입증할 방법이 부족합니다. 이 산업은 단지 더 나은 모델이 필요한 것이 아닙니다. 정책, 평가 및 메모리를 후순위가 아닌 1급 시민으로 다루는 인프라가 필요합니다.
AWS가 이제 공개적으로 목표로 삼고 있는 변화는 AI를 실험적인 장난감에서 실제로 기업이 대규모로 운영할 수 있는 관리된 인프라로 전환하는 것입니다.
AWS의 기업 딜레마에 대한 해답
AWS re:Invent는 기업 AI를 위한 실제 훈련으로 변모했으며, AgentCore는 CIO들이 직면한 95% 파일럿 실패율에 대한 AWS의 답변입니다. 또 다른 “자신만의 에이전트 구축” SDK 대신, AgentCore는 프로덕션 플랫폼으로 등장했습니다: 관리형 게이트웨이, 정책 엔진, 평가 시스템, 그리고 에이전트가 대규모로 탈선하지 않도록 설계된 메모리 레이어로 구성되어 있습니다.
AWS는 목표 고객에 대해 솔직합니다: 화려한 데모를 진행한 후 보안, 규정 준수 및 신뢰성 장벽에 부딪힌 기업들입니다. AgentCore는 모든 모델에서 작동할 수 있는 에이전트를 약속하며, 내부 도구와 API를 사용하면서도 기업의 규칙, SLA 및 감사 기록을 존중합니다. 인프라 관리가 필요 없고, 일회성 접착 코드도 없습니다.
re:Invent에서 AWS는 AgentCore의 필수 요소로 세 가지 아이디어인 정책, 평가, 에피소드 메모리를 강조했습니다. 이들은 선택적인 추가 기능이 아니라, 에이전트 실행 경로에 직접 위치하여 모든 요청과 모든 도구 호출을 검사합니다.
정책은 자연어 규칙을 실행 가능한 가드레일로 변환합니다. “사용자가 메시징 권한 범위를 갖지 않는 한 Slack 메시지를 금지한다” 또는 “사용자 이름이 admin으로 시작하지 않는 이상 ‘internal’을 포함하는 URL을 차단한다”와 같은 제약 조건을 작성할 수 있으며, AgentCore는 이를 밀리초 내에 실행되는 코드로 컴파일합니다. 정책 엔진은 AgentCore 게이트웨이 뒤에 위치하여, Salesforce, Slack 또는 내부 시스템에 접근하기 전에 에이전트가 호출할 수 있는 도구를 결정합니다.
평가는 신뢰 문제의 다른 반쪽인 품질 변동과 묵묵한 실패를 공격합니다. AgentCore는 정확성, 안전성, 지침 준수 및 도구 사용을 위한 기본 평가 도구와 브랜드 목소리부터 도메인 특정 정확도까지의 맞춤 메트릭을 위한 후크를 제공합니다. 팀은 평가를 필요에 따라 또는 지속적으로 수행할 수 있으며, 이후 이 점수를 모니터링 스택에 연결하여 에이전트가 “파일럿” 지옥을 벗어날 준비가 되었는지를 결정할 수 있습니다.
에피소드 기억은 여러 세션에 걸쳐 이전의 성공과 실패로부터 학습할 수 있게 하여 전체 그림을 완성합니다. 이러한 기억은 실행 중 행동과 평가에 피드백을 주어, 기업이 에이전트가 실제로 개선되고 있는지 아니면 단지 더 빠르게 즉흥적으로 행동하고 있는지를 추적할 수 있게 합니다.
불변의 AI 가드레일 구축하기
AgentCore의 정책은 AWS가 AI에 기업의 상식을 하드코딩하려는 시도입니다. 규칙을 불안정한 프롬프트에 숨기는 대신, AgentCore는 정책을 에이전트와 그들이 사용하고자 하는 도구, 데이터, 시스템 사이에 위치한 1급 제어 레이어로 노출합니다. 모든 요청은 다른 작업이 진행되기 전에 이 정책 엔진에 도달합니다.
디자인이 중요한 이유는 현대 모델들이 더 이상 단순한 자동 완성 장난감이 아니기 때문입니다. Anthropic 및 기타 연구 결과는 모델이 민감한 도구나 내부 네트워크에 접근할 때 사기, 전략적인 허위 진술, 데이터 유출 시도와 같은 능력을 문서화하고 있습니다. 기업은 고객 데이터 유출이나 금융 거래를 촉발할 수 있는 실수가 발생할 때 기분이나 레드팀의 일화에 의존할 수 없습니다.
정책은 기업들이 에이전트가 할 수 있는 일과 할 수 없는 일을 중앙집중식으로 확장 가능하게 정의하고, 이를 실행 시에 강제할 수 있는 방법을 제공합니다. 제약 조건을 자연어로 설명합니다—“사용자가 메시징 권한 범위를 가지고 있지 않으면 Slack 메시지를 금지한다”, “사용자 이름이 admin으로 시작하지 않는 한 'internal'을 포함하는 URL을 차단한다”—그리고 AgentCore는 프로그래밍 정책 코드를 자동으로 생성합니다. 해당 코드는 밀리초 단위로 실행되며, 초당 수천 건의 요청을 처리할 수 있을 만큼 빠릅니다.
기본적으로 모든 에이전트 호출은 AgentCore 게이트웨이를 통해 라우팅되며, 이 게이트웨이는 어떤 도구도 노출하기 전에 정책 엔진에 문의합니다. 만약 정책이 접근을 거부하면, 에이전트는 Salesforce API, S3 버킷 또는 결제 엔드포인트와 같은 기능조차도 볼 수 없습니다. 정책은 인프라 계층에서 작동하며, 모델이 "하고 싶어 하는 대로"의 영향을 받지 않습니다.
대부분의 팀이 오늘날 에이전트를 배포하는 방식과 대조해보세요. 그들은 "비밀을 누설하지 마세요, 내부 사이트를 탐색하지 마세요, $100 이상의 환불을 승인하지 마세요"라는 문장을 시스템 프롬프트에 넣고 모델이 따르기를 희망합니다. 이는 데모에서는 작동하지만, 수백 개의 워크플로우, 수십 개의 도구 그리고 수백만 번의 호출로 확장하는 순간 무너집니다.
프롬프트 수준의 지침도 조용히 실패할 수 있습니다. 모델은 환각을 일으키고, 압박을 받으면 지침을 무시하거나, 영리한 입력에 의해 시스템이 해킹될 수 있으며, 일이 잘못될 때까지는 이를 알기 어렵습니다. AgentCore의 정책은 이를 뒤바꿉니다: 거버넌스가 모델 외부에 존재하며, 중앙에서 관리되고 버전 관리가 이루어지며, 환각과 규칙 위반을 공식적으로 검사하는 자동 추론 기법으로 감사 및 테스트가 가능합니다.
AI 파일럿을 넘어서려고 하는 기업들에게 그 변화는 “제발 행동해 주세요”와 “설계상 잘못된 행동을 할 수 없습니다”의 차이입니다. AWS는 Amazon Bedrock AgentCore - 공식 제품 페이지에 문서화된 그런 강력한 제어 체계가 에이전트를 대규모로 실제 운영에 투입하는 데 결정적인 역할을 할 것이라고 믿고 있습니다.
일반 영어에서 정책 코드로
AgentCore의 정책은 YAML이나 JSON이 아닌 일반 영어로 시작합니다. 개발자는 보안 팀에게 설명하는 방식대로 프롬프트 박스에 지침을 입력합니다: "사용자가 메시징 권한 범위를 가지고 있지 않으면 Slack 메시지를 금지합니다. 사용자 이름이 admin으로 시작하지 않는 경우 내부 URL을 포함하는 웹사이트를 보는 것은 금지됩니다. 사용자가 허용된 그룹 내에 있을 때 Slack 메시지를 허용합니다."
그 겉보기에는 간단한 인터페이스 뒤에서, AgentCore는 저 문장들을 소스 코드로 간주합니다. 정책 컴파일러가 자연어를 파싱하고, “슬랙 메시지”, “메시징 적절한 범위”, “사용자 이름”과 같은 개체를 해석하며, 도구, 리소스 및 귀하의 스택 내의 정체성 속성에 직접 연결되는 프로그래밍 규칙을 생성합니다.
생성된 정책은 런타임에서 느린 LLM 호출이 아닙니다. AgentCore는 이를 저수준의 실행 가능한 정책 코드로 변환하여 결정론적 논리로 실행되므로, 각 요청이 모델을 다시 요청하는 대신에 컴파일된 검사를 수행합니다. 한 번 영어로 규칙을 작성하면, AgentCore가 이를 빠르고 테스트 가능한 코드로 고정합니다.
AWS는 다른 생산 시스템과 마찬가지로 이러한 가드레일을 검증하도록 촉구합니다. 정책을 생성한 후, 콘솔에서 테스트 케이스를 실행하여 "메시징 권한 범위"가 없는 사용자가 Slack 메시지를 보낼 수 없음을 확인하고, 관리 사용자는 내부 URL을 열 수 있는지 확인합니다. 재배포나 구조 재설계 없이 텍스트를 조정하고, 다시 생성하며, 재테스트하면 됩니다.
규모가 커지면 이게 장난감처럼 보이는 것을 넘어 인프라처럼 보이기 시작합니다. AgentCore의 정책 엔진은 핵심 경로에 위치하며, 에이전트가 Slack, Salesforce 및 내부 API와 같은 도구에 퍼져 있을 때에도 밀리초 단위로 규칙을 평가합니다. AWS는 “초당 수천 건의 요청”을 명시적으로 목표로 하여, 이를 챗봇 플러그인이 아닌 방화벽에 더 가깝게 만듭니다.
AgentCore 게이트웨이는 이 모든 작업을 그 양으로 처리하는 교통 경찰입니다. 내부 어시스턴트, MCP 클라이언트 또는 외부 애플리케이션에서 오는 모든 에이전트 요청은 도구나 데이터 소스에 닿기 전에 게이트웨이를 통과합니다. 게이트웨이는 정책 엔진을 호출하여, 요청별로 에이전트가 실제로 사용할 수 있는 도구와 리소스를 결정합니다.
이는 "사용자가 메시징 권한 범위를 갖지 않는 한 Slack 메시지를 금지한다"는 단일 자연어 규칙이 전 세계적으로 적용되는 제어 면이 된다는 것을 의미합니다. Slack 도구에 접근하려는 모든 에이전트는 매번, 무선 속도로 점검됩니다. 그림자 에이전트, 잊혀진 스크립트, 우회 경로는 없습니다.
95%의 AI 파일럿 실패율에 타격을 입은 기업들에게, 이는 중요한 변화입니다: 정책이 슬라이드 자료에서 코드로, 문서에서 실행 경로로 이동합니다.
당신의 AI 에이전트 성과 평가
신뢰, 즉 기능이 아니라 신뢰가 대부분의 AI 파일럿을 실패하게 만든다는 것을 AWS는 알고 있습니다. 정책 다음으로 AgentCore의 두 번째 기둥은 평가입니다. 이는 에이전트의 성과를 리뷰하는 내장 시스템으로, 품질을 실행 과정의 일부분으로 취급하며 나중에 추가하는 대시보드가 아닙니다.
대부분의 기업들은 평가를 거꾸로 진행합니다. 팀이 대충 에이전트를 만들어 보고를 진행한 다음, 그것이 효과가 있는지 측정하기 위해 분주하게 움직입니다. 하지만 AgentCore는 그 순서를 뒤집습니다: AWS는 먼저 평가를 정의하고, 기준선을 설정한 다음 반복을 시작할 것을 원합니다. 이에 따라 모든 변화는 "더 똑똑한 느낌이 든다"는 것이 아니라 측정 가능한 영향을 미치게 됩니다.
AgentCore는 기본적으로 여러 가지 표준 평가 신호를 제공합니다. AWS는 다음과 같은 차원을 강조합니다: - 정확성 - 유용성 - 간결성 - 지침 따르기 - 신뢰성 - 응답 관련성 - 일관성 - 거부 행동
이 신호는 중요합니다. 왜냐하면 에이전트는 비결정적이기 때문입니다. 데모는 완벽해 보일 수 있지만, 실제 도구, 소음이 심한 환경, 혼란스러운 고객 데이터를 연결하면 조용히 저하될 수 있습니다. 이러한 평가 차원에서의 지속적인 모니터링이 VP가 환급 정책에 대한 망상적인 이메일을 받기 전에 drift를 포착하는 방법입니다.
AgentCore는 요구에 따라 또는 지속적으로 평가를 수행할 수 있게 해줍니다. 새로운 에이전트 버전을 품질 기준 뒤에 두거나, 매주 행동을 비교하기 위해 생산 환경에서 릴리징 롤링 평가를 실행할 수 있습니다. 그 기준선은 당신의 북극성이 됩니다: 새로운 도구를 추가한 후 정확성이 10% 떨어진다면, 당신은 언제 신뢰를 잃었는지 정확히 알 수 있습니다.
맞춤형 평가(Custom evals)는 일반적인 품질과 비즈니스 현실 사이의 간극을 메워줍니다. 만약 지원 봇이 특정 브랜드의 목소리를 반영해야 한다면, 이를 맞춤 신호로 정의할 수 있습니다. 규제된 워크플로우에서 거부에 대한 확실한 보장이 필요한 경우, 정책을 벗어나는 모든 응답에 대해 실패하는 평가를 작성할 수 있습니다.
평가가 AgentCore 내부에 존재하기 때문에 BI 도구와는 별개로 모든 점수가 추적 가능한 결정 경로와 연결됩니다. 에이전트가 스크립트에서 벗어날 경우, 프롬프트에서 도구, 기억, 최종 출력에 이르기까지의 과정을 따라가며 실제 실패 원인을 해결할 수 있습니다. 단순히 증상만 수정하는 것이 아닙니다.
맞춤형 평가: 당신의 AI는 해적입니까?
기성 평가만으로는 기업들이 절반밖에 나아가지 못합니다. AgentCore의 진정한 강력한 전략은 맞춤형 평가로, 팀이 자신의 에이전트에 대해 "좋음"이 무엇인지 정확히 정의하고 이를 지속적으로 평가하는 것입니다. 이는 분기마다 실험실 벤치마크에서 한 번 평가하는 것에 그치지 않습니다. 이러한 변화는 평가를 정적인 품질 보증 체크리스트에서 역동적인 거버넌스 시스템으로 탈바꿈시킵니다.
AWS의 자체 데모는 의도적으로 유머러스합니다: "해적처럼 말하기" 평가입니다. 에이전트가 해적어로 응답해야 한다고 명시해야 합니다—"아호이," "친구여," 해양 은어—그리고 사용자 정의 평가가 모든 응답을 확인합니다. 출력이 블랙비어드 대신 링크드인처럼 들리면 평가는 실패하고 기록됩니다.
그 해적 요소는 예리한 농담이다. 주제를 바꾸면 진지한 기업 패턴이 나타난다: 모든 고객 접점의 에이전트에서 브랜드 음성을 강화하라. 소매업체는 친근하고 간결하며 이모지가 없는 응답을 요구할 수 있고, 은행은 공식적인 어조, 조심스러운 언어, 그리고 명시적인 위험 면책 조항을 요구할 수 있다. 맞춤형 평가가 각 응답을 이러한 규칙에 따라 점수화하고, 그 데이터를 대시보드와 알림으로 전달한다.
더 복잡한 사용 사례는 톤을 넘어섭니다. 의료 상담원은 다음을 수행해야 할 수 있습니다: - 다단계 선별 작업 흐름을 따르기 - 특정 규제 면책 조항을 제시하기 - 정의된 위험 조건에서 인간에게 에스컬레이트하기
커스텀 평가(Custom eval)는 실제 대화를 재생하고, 각 단계를 검증하며, 단순한 "도움 유무"가 아닌 워크플로우 준수에 대한 합격/불합격을 부여할 수 있습니다. 이렇게 팀은 에이전트를 환자, 트레이더 또는 현장 기술자에게 배치해도 안전한지 여부를 추측하는 일을 멈출 수 있습니다.
이 모든 것은 Amazon CloudWatch에 직접 연결됩니다. 대기 시간 및 오류율과 같은 표준 메트릭은 정확성, 워크플로 준수 또는 해적 말투와 같은 사용자 정의 점수와 함께 단일 타임라인에 나란히 표시됩니다. 엔지니어링, 법률 및 마케팅 팀은 동일한 그래프를 바라볼 수 있으며, 문제가 발생하면 AgentCore 로그와 Introducing Amazon Bedrock AgentCore - AWS Blog에서 설명된 정책을 통해 문제의 원인을 추적할 수 있습니다.
실수를 통해 배우는 에이전트
서사 기억은 에이전트코어를 뛰어난 챗봇 라우터에서 기관의 두뇌에 가까운 존재로 변모시킵니다. 이제 에이전트는 각 요청을 일회성 거래로 처리하는 대신, 경험을 저장하고 복원할 수 있습니다: 그들이 시도한 것, 어떤 도구를 사용한 것, 어떤 것이 효과가 있었는지, 어떤 것이 실패했는지에 대한 정보입니다.
전통적인 기업 에이전트는 금붕어처럼 행동합니다. 그들은 티켓에 응답하고, API를 호출하며, 과정을 마무리하고, 응답이 나가는 순간 모든 것을 잊습니다. 경험 기억은 이러한 모델을 뒤바꾸어 주며, AgentCore는 에이전트 행동에 대한 지속적이고 쿼리 가능한 기록을 제공합니다.
중요하게도, 이 기억은 전 세계적이며 개인적이지 않습니다. 이는 특정 사용자의 채팅 스레드나 특정 세션 ID에 고착되지 않습니다. 에이전트가 저속한 S3 권한 버그에 대한 올바른 수정 단계를 파악하면, 그 단계는 모든 미래의 해당 에이전트 인스턴스가 활용할 수 있는 공유 기억의 일부가 됩니다.
그 전파는 조직들이 "훈련"에 대해 생각하는 방식을 변화시킵니다. 새로운 엣지 케이스가 나타날 때마다 모델을 재훈련시키거나 프롬프트를 수정하는 대신, 에이전트는 에피소드를 기록하고, 맥락을 캡처하며, 결과를 성공 또는 실패로 태그하고 재사용합니다. 1월의 한 지원 상호작용은 3월에 수천 개의 유사한 사례를 조용히 개선할 수 있습니다.
패턴 인식이 핵심 기능이 됩니다. 충분한 에피소드가 기록되면, 에이전트는 다음과 같은 점을 포착할 수 있습니다: - 실패한 주문 조회의 80%가 단일 레거시 API로 거슬러 올라갑니다. - 특정 도구는 특정 부하 패턴에서 지속적으로 시간 초과가 발생합니다. - 특정 정책 규칙이 안전한 요청에 대해 불필요한 거부를 유발합니다.
그러한 패턴은 의사 결정에 피드백을 줍니다. 에이전트는 불안정한 도구를 사전 예방적으로 피하거나, 고위험 흐름을 더 빠르게 에스컬레이션하거나, 이전 시도가 정책 위반을 초래했을 때 더 안전한 경로를 선택할 수 있습니다. 시간이 지남에 따라 에이전트는 무상태 함수처럼 행동하기보다는 지속적으로 개선되는 운영 매뉴얼처럼 행동하게 됩니다.
평가가 동일한 실행 경로에 있기 때문에, AgentCore는 각 에피소드를 점수화하고 그 결과를 기억과 함께 저장할 수 있습니다. 이렇게 루프가 완성됩니다: 정책이 행동을 제약하고, 평가가 결과를 판단하며, 에피소드 기억이 모든 힘든 교훈이 전체 배포에 걸쳐 남도록 보장합니다.
기억을 측정 가능한 향상과 연결하기
기억은 더 이상 파티 트릭이 아닙니다. 이제 AgentCore는 에피소드 기억을 품질 검사를 위한 또 다른 데이터 소스로 취급하며, 모든 상호작용이 긴밀한 피드백 루프에 연결됩니다: 행동, 점수, 학습, 반복. 이 루프는 분기별 MLOps 과학 프로젝트가 아니라 지속적으로 작동합니다.
단일 응답만으로 에이전트를 평가하는 대신, 이제 평가는 "지난 주에 배운 것을 바탕으로 오늘 실제로 더 잘했나요?"라고 물어볼 수 있습니다. AgentCore는 에피소드 간 반복 작업에 대한 성과를 비교할 수 있습니다: 동일한 티켓, 유사한 지원 흐름 또는 반복 환불 시나리오입니다. 정확성, 지연 시간 또는 정책 준수가 수십 또는 수백 번의 실행에서 상승하지 않는다면, 귀하의 "학습" 에이전트는 단순히 로그를 축적하고 있는 것입니다.
메모리가 일급이기 때문에, evals는 단발적인 정확성뿐만 아니라 장기적인 목표를 강화할 수 있습니다. “500 에피소드 동안 도구 호출 실패를 30% 줄이기” 또는 “재구매 고객의 평균 처리 시간을 10% 줄이기”와 같은 목표를 설정할 수 있습니다. 이러한 메트릭은 추상적인 모델 점수 대신 비즈니스 KPI와 직접적으로 연결됩니다.
관찰 가능성도 더욱 정교해집니다. 에이전트가 맞춤 평가에서 실패할 때—가격을 허위로 생성하거나, 티켓을 잘못 라우팅하거나, 내부 데이터를 유출할 때—전체 추론 경로를 추적할 수 있습니다. AgentCore를 사용하면 사건 메모리를 통해 되짚어 볼 수 있습니다: 어떤 도구를 호출했는지, 어떤 이전 대화를 재사용했는지, 어떤 정책 결정을 적용했거나 무시했는지.
그 흔적은 사후 분석을 추측에서 근본 원인 분석으로 전환합니다. 에이전트가 다음과 같은 상황인지 확인할 수 있습니다: - 나쁜 사례에서 교훈을 얻고 오류를 전파했는지 - 이전의 성공 패턴을 잘못 해석했는지 - 계획을 변경해야 했던 관련 메모리를 건너뛰었는지
한 번 어떤 기억이 잘못된 방향으로 이끌었는지를 알게 되면, 해당 에피소드를 정리하거나 다시 작성할 수 있습니다. 그런 다음 동일한 평가 세트를 재실행하여 수정 사항을 확인합니다. 피드백 루프가 닫힙니다: 기억이 바뀌고, 행동이 바뀌며, 지표가 변하거나 변하지 않으며, 즉시 알 수 있습니다.
정적인 AI 도구는 기계처럼 작동합니다: 동일한 입력, 동일한 출력, 역사감 없음. 그러나 에피소드 기억이 실시간 품질 평가에 연결되면, 에이전트들은 온보딩을 하고 코칭을 받으며 발전하는 디지털 작업자처럼 보이기 시작합니다. 정책은 그들을 규정 내에 유지하고, 평가가 그들의 성과를 점수화하며, 기억은 그들이 발전할 수 있는 기반을 제공합니다.
왜 '내장형'이 '부착형'보다 우수한가
AgentCore 내의 내장 정책, 평가 및 메모리는 단순한 편의 기능이 아닙니다. 이들은 모든 에이전트 단계의 실행 경로에 직접 위치합니다. 모든 도구 호출, 모든 리소스 접근, 모든 응답은 정책을 적용하고 에피소드 메모리를 기록하는 동일한 게이트웨이를 통과하며, 모델이 민감한 데이터에 접근하기 전에 이루어집니다.
그 아키텍처 선택이 중요합니다. 정책이 게이트웨이에 존재하기 때문에, AgentCore는 사후에 실행되는 느린 별도의 "거버넌스 서비스"를 추가하는 대신 밀리초 단위의 지연으로 초당 수천 개의 요청에 가드레일을 적용할 수 있습니다. 평가 과정은 동일한 저수준 추적을 활용하므로 품질 검사는 에이전트가 사용한 정확한 맥락을 확인할 수 있으며, 손실 요약이 아닙니다.
대부분의 경쟁 프레임워크는 안전성과 모니터링을 사이드카로 처리합니다. 다음과 같이 설정합니다: - 도구 앞에 별도의 정책 프록시 - 노트북이나 CI 작업에서 별도의 평가 파이프라인 - 가시성을 위한 별도의 로깅 시스템
그 부분들은 종종 동기화가 맞지 않거나 엣지 케이스를 놓치거나, 누군가 새로운 도구를 추가하거나 프롬프트를 변경할 때 조용히 작동이 중단됩니다.
AgentCore의 최고급 디자인은 새로운 도구와 워크플로우가 자동으로 기존 정책, 평가 및 메모리 동작을 물려받음을 의미합니다. 개발자가 API 또는 MCP 도구를 등록하면, 게이트웨이는 즉시 이를 기존 정책 엔진과 평가 훅에 적용합니다. 추가 SDK 호출, 맞춤형 미들웨어, 팀별 맞춤 포장 없이도 가능합니다.
생산 팀은 데모가 아니라 실패 모드에 관심을 둡니다. AgentCore를 사용하면 환상적인 환불, 데이터 유출 시도 또는 중단된 워크플로우가 운영 팀이 이미 모니터링하는 동일한 평가 및 추적 파이프라인을 통해 드러납니다. 에피소드 기억도 그 핵심 경로에 존재하기 때문에 이러한 실패는 로그에 사라지는 것이 아니라 에이전트의 장기적인 행동에 피드백됩니다.
일반적인 "부가형" 평가 스택과 비교할 때, 품질 검사가 샘플 로그에 대해 몇 시간 후에 진행됩니다. 대시보드에 잘못된 결정이 나타날 때쯤이면, 에이전트는 이미 수천 번 그 결정을 반복했을 수 있습니다. 심층 통합을 통해 AgentCore는 평가를 지속적이고 반응적으로 수행할 수 있으며, 점수가 떨어질 때 배포를 차단하거나 사람에게 라우팅할 수 있습니다.
AWS는 본질적으로 가드레일, 측정 및 학습이 플러그인이 아닌 필수 요소라고 말하고 있습니다. AgentCore는 이러한 입장을 그의 아키텍처에 통합하여, AWS re:Invent 2025의 주요 발표 - AWS 블로그에서 강조된 의견 중심의, 생산 우선 AI 플랫폼으로 나아가는 더 넓은 re:Invent 방향과 맞추고 있습니다.
생산 AI를 위한 새로운 청사진
95%의 기업 AI 파일럿은 샌드박스에서 사망합니다. 이는 아무도 모델이 대규모로 수행하는 작업을 신뢰하고 제어할 수 없기 때문입니다. AgentCore의 정책, 평가, 그리고 에피소드 메모리는 이러한 실패 루프를 직접적으로 공격합니다: 엄격한 가이드라인이 에이전트가 접근할 수 있는 것을 정의하고, 평가는 그들의 행동을 검증하며, 메모리는 그들이 같은 실수를 반복하는 대신 개선할 수 있도록 합니다.
정책은 거버넌스를 슬라이드 덱에서 실행 경로로 이동시킵니다. "사용자가 메시징 권한 범위를 가지고 있지 않다면 Slack 메시지를 금지한다"와 같은 간단한 규칙은 코드로 컴파일되어 AgentCore 게이트웨이를 통해 매초 수천 건의 요청에 대해 밀리초 단위로 모든 도구 호출을 차단합니다. 자동화된 추론은 생산 시스템에 영향을 미치기 전에 환각이나 의심스러운 행동을 포착합니다.
평가는 “이게 효과가 있나요?”라는 논의를 대시보드와 회귀 테스트로 변환합니다. 기존의 메트릭은 정확성, 안전성, 지시 이행, 도구 선택을 추적하며, 맞춤형 평가에서는 도메인 특성을 인코딩합니다—브랜드 톤, 법적 제한, 심지어 “해적처럼 말하기”가 중요하다면—팀이 API와 마이크로서비스에 적용하는 것과 동일한 엄밀함으로 에이전트를 출시할 수 있도록 합니다.
에피소드 기억은 순환을 완성합니다. 에이전트는 더 이상 망각증 환자로 작동하지 않으며, 사용자, 워크플로우, 환경 전반에 걸쳐 과거의 성공과 실패에서 패턴을 이어갑니다. 평가는 이러한 기억이 시간이 지남에 따라 더 높은 점수와 더 적은 사건으로 이어지는지를 직접 측정할 수 있습니다.
이 세 가지 요소를 종합해보면, 기능 출시라기보다는 새로운 청사진처럼 보입니다. 일회용의 불안정한 봇 대신, 기업은 실제로 파일럿에서 회사 전체로의 배포로 발전할 수 있는 통제되고 관찰 가능한 자기 개선 에이전트 구조를 얻게 됩니다.
AgentCore는 이제 Kubernetes나 IAM과 같은 범주에 위치하게 되었습니다. 작동할 때는 보이지 않고, 작동하지 않을 때는 근본적입니다. 자동화된 에이전트가 티켓, 청구서, 보안 검사 및 코드 변경을 처리하기 시작함에 따라, 제어, 측정 및 학습을 핵심 런타임에 통합하는 플랫폼이 95%의 고통에서 벗어나는 기업과 끝없는 "실험"에 갇히는 기업을 결정하게 될 것입니다.
자주 묻는 질문
AWS AgentCore의 세 가지 주요 새로운 기능은 무엇인가요?
세 가지 주요 발표는 자연어 기반 가드레일 정책, 지속적인 품질 및 성능 모니터링을 위한 평가, 그리고 에이전트가 과거 상호작용에서 학습할 수 있도록 하는 에피소드 기억입니다.
AgentCore 정책은 AI 안전성을 어떻게 보장하나요?
이 시스템은 간단한 영어 규칙을 프로그래밍 코드로 변환합니다. 이러한 정책은 에이전트가 작동하기 전에 밀리초 단위로 중앙 게이트웨이에서 확인되어, 무단 또는 안전하지 않은 작업을 방지합니다.
AgentCore가 Claude나 Llama와 같은 특정 AI 모델에 연결되어 있습니까?
아니요, AgentCore는 모델과 프레임워크에 구애받지 않도록 설계되었습니다. 이를 통해 기업은 필요에 맞는 다양한 기반 대형 언어 모델을 사용하여 에이전트를 구축하고 관리할 수 있습니다.
AgentCore의 새로운 기능이 다른 솔루션들과 차별화되는 이유는 무엇인가요?
주요 차별점은 정책, 평가 및 기억이 에이전트 실행 경로의 가장 낮은 수준에서 '1급 시민'으로 내장되어 있다는 점이며, 후속 조치로 추가되는 것이 아닙니다.