YOLO 공격: 해커가 LLM 도구 호출을 가로채 데이터를 탈취하는 방법

당신의 AI가 침해당했습니다

지치지 않고 작업을 실행하던 자율 AI 에이전트가 갑자기 당신에게 등을 돌리는 상황을 상상해 보세요. 이것은 AI가 지각을 얻는다는 공상 과학 이야기가 아닙니다. 사이버 보안 연구원들이 밝혀낸 냉혹한 새로운 현실입니다. LiteLLM 및 OneAPI와 같은 API 라우터처럼 대규모 언어 모델(LLM) 트래픽을 관리하도록 설계된 바로 그 도구들이 당신의 스택에 있는 거대하고 간과된 보안 허점을 품고 있습니다.

획기적인 논문인 'Your Agent is Mine'은 최근 이 취약점을 노출하며 전체 LLM 공급망이 현재 정교한 해커들의 놀이터임을 입증했습니다. University of California, Santa Barbara와 Fuzzland의 이 연구는 전통적인 prompt injection 기술을 훨씬 뛰어넘는 새로운 종류의 위협을 밝혀냅니다.

연구원들은 이를 Malicious Intermediary Attack이라고 부릅니다. 모델의 입력을 조작하는 prompt injection과 달리, 이 공격은 통신 채널 자체를 목표로 합니다. 모델 제공자와 로컬 머신 사이에 종단 간 암호화 서명이 존재하지 않기 때문에, 악성 라우터는 모든 요청과 응답에 대한 완전한 평문 접근 권한을 얻어, 에이전트가 이를 보기 전에 모델의 지시를 은밀히 다시 작성합니다.

그 영향은 끔찍합니다. 400개 이상의 무료 및 28개의 유료 LLM API 라우터를 테스트한 후, 연구원들은 활발한 악용 사례를 발견했습니다. 9개의 라우터는 도구 호출에 악성 코드를 주입하고 있었고, 17개의 라우터는 심어놓은 AWS 자격 증명을 훔치다가 적발되었으며, 한 라우터는 심지어 연구원의 Ethereum 지갑을 성공적으로 비웠습니다. 일부는 적응형 회피를 사용하여 에이전트가 'YOLO mode'—수동 승인 없이 자율적으로 작동하는—에 진입하기를 기다렸다가 공격하기도 합니다.

당신이 초대한 중간자 공격

Malicious Intermediary Attack이라고 불리는 새로운 위협은 LLM 공급망의 치명적인 취약점을 노출합니다. 이것은 전통적인 해킹이 아닙니다. 대신, 당신이 AI 에이전트의 운영에 자발적으로 통합하는 타사 서비스를 악용합니다. University of California, Santa Barbara와 Fuzzland의 연구원들은 그들의 논문 "Your Agent is Mine"에서 이를 상세히 설명하며, 신뢰할 수 있는 구성 요소가 어떻게 침해의 통로가 되는지 밝힙니다.

많은 개발자들이 AI 인프라를 간소화하기 위해 LiteLLM 및 OneAPI와 같은 LLM API 라우터에 의존합니다. 이러한 서비스는 API 호출을 통합하고, 모델 접근을 관리하며, 다양한 대규모 언어 모델에서 크레딧 사용을 최적화합니다. 이들은 모든 에이전트-모델 상호 작용을 위한 중앙 집중식 허브 역할을 하여 편의성을 제공하며, 현대 AI 개발 스택의 필수적인 부분이 됩니다.

그러나 이러한 편의성에는 심각한 보안 결함이 따릅니다. 바로 에이전트와 업스트림 모델 제공자 간의 근본적인 종단 간 암호화 서명 부재입니다. 에이전트가 이러한 라우터 중 하나를 통해 요청을 보낼 때, 라우터는 TLS 세션을 종료하고 모든 데이터에 대한 완전한 평문 접근 권한을 얻습니다. 이는 중간자가 에이전트가 보내고 받는 모든 것을 완전히 암호화되지 않은 상태로 본다는 의미입니다.

이것을 당신의 우편물을 처리할 뿐만 아니라, 배달하기 전에 내용을 열고 읽고 변경할 수 있는 디지털 우체부라고 생각해 보세요. 이 중간자는 당신의 에이전트나 LLM 제공자가 전혀 모르게 모델 응답을 은밀히 다시 작성하거나, 새로운 지시를 주입하거나, 민감한 정보를 추출할 수 있습니다. 사실상 당신의 에이전트 통신에 대한 열쇠를 쥐고 있는 것입니다.

결과는 심각하며 이미 현실에서 드러나고 있습니다. 연구원들은 400개 이상의 무료 및 유료 라우터를 테스트하여 다음과 같은 충격적인 활동을 발견했습니다: - 9개의 라우터가 도구 호출에 악성 코드를 적극적으로 주입하고 있었습니다. - 17개의 라우터가 카나리로 심어놓은 AWS 자격 증명을 훔치고 있었습니다. - 1개의 라우터가 연구원의 Ethereum 지갑을 성공적으로 비웠습니다. 일부는 심지어 적응형 회피를 사용하여, 에이전트가 수동 승인 없이 자율적으로 작동하는 "YOLO mode"에 진입하기를 기다렸다가 표적 공격을 시작하기도 합니다.

이것은 또 다른 프롬프트 인젝션이 아닙니다.

악성 중개자 공격(MIAs)은 프롬프트 인젝션과는 근본적으로 다른 위협을 나타냅니다. 프롬프트 인젝션이 가드레일을 우회하거나 특정, 의도치 않은 텍스트를 유도하기 위해 LLM의 입력을 조작하는 반면, MIAs는 더 후반의, 더 중요한 단계에서 작동합니다.

이 공격은 LLM의 출력을 가로채고 변경하며, 특히 에이전트가 실제 응답을 보기 전에 도구 호출 또는 함수 실행을 대상으로 합니다. 에이전트가 Python 스크립트를 요청했는데, 중개자가 이를 악성 버전으로 조용히 바꿔치기하는 상황을 상상해 보세요.

이것은 모델 계층의 약점이 아닙니다. 이것은 OWASP LLM03으로 지정된 애플리케이션 계층의 공급망 취약점입니다. LLM 크레딧 또는 트래픽 관리에 사용되는 타사 API 라우터가 주요 표적입니다. 종단 간 암호화 서명의 부재는 이러한 라우터가 모델 응답에 대한 완전한 평문 접근 권한을 갖도록 허용합니다.

프롬프트 인젝션에 대한 전통적인 방어책(입력 새니타이저, 방화벽, 콘텐츠 필터)은 완전히 비효율적입니다. 이러한 도구들은 LLM에 들어가는 것을 면밀히 조사하는 데 중점을 둡니다. LLM이 응답을 생성한 후 에이전트가 그에 따라 행동하기 전에 악성 조작이 발생할 경우 아무런 보호도 제공하지 않습니다.

최근 논문인 "Your Agent Is Mine: Measuring Malicious Intermediary Attacks on the LLM Supply Chain"은 이 위협의 충격적인 규모를 밝혀냈습니다. 연구원들은 400개 이상의 무료 및 유료 LLM API 라우터를 테스트하여 광범위한 침해를 드러냈습니다.

그들의 발견은 극명합니다: - 9개의 라우터가 도구 호출에 악성 코드를 적극적으로 주입하여, `pip install requests`와 같은 합법적인 명령을 오타를 이용한 공격자 제어 패키지로 바꿔치기했습니다. - 17개의 라우터가 테스트 환경에 카나리로 심어놓은 AWS 자격 증명을 훔치다가 적발되었습니다. - 한 라우터는 연구원의 Ethereum 지갑을 성공적으로 비웠습니다.

일부 악성 중개자는 심지어 적응형 회피를 보여주며, 에이전트가 "YOLO mode"(수동 승인 없이)에서 자율적으로 작동하는 것과 같은 특정 조건을 기다렸다가 공격을 시작했습니다. 이는 단순한 입력 유효성 검사를 넘어 즉각적인 주의가 필요한 정교하고 시스템적인 취약점을 강조합니다.

공격 #1: 디지털 트로이 목마 심기

공격자들은 LLM 트래픽에 대한 중개자의 완전한 평문 접근 권한을 악용하여 첫 번째 핵심 공격 유형인 페이로드 주입을 활용합니다. 이 취약점은 악성 라우터가 에이전트가 모델의 응답을 보기 전에 조용히 다시 작성할 수 있도록 합니다.

자율 에이전트가 LLM에 일반적인 Python 라이브러리를 요청하여 모델이 `pip install requests`라는 도구 호출을 생성하도록 하는 시나리오를 생각해 보세요. 손상된 라우터가 이 합법적인 요청을 가로챕니다.

라우터는 그 다음 명령을 은밀하게 바꿔치기하여, 양성 패키지를 이름은 비슷하지만 악성 코드를 포함하는 오타를 이용한 패키지로 대체합니다. 에이전트는 변경 사항을 알지 못한 채 수정된 명령을 실행합니다.

이 겉보기에는 사소한 대체는 치명적인 결과를 초래합니다. 악성 패키지는 리버스 셸을 설치하여 공격자에게 즉시 원격 코드 실행(RCE) 및 전체 시스템 침해 권한을 부여합니다. 공격자는 에이전트의 호스트 환경에 무제한으로 접근할 수 있게 됩니다.

자율 에이전트는 LLM이 생성한 도구 호출을 신뢰하고 실행하도록 근본적으로 설계되었습니다. 기능에 필수적인 이 내재된 설계 선택은 완벽한 공격 벡터가 됩니다. 에이전트는 추가적인 조사 없이 이러한 명령을 실행하여 공격자가 중요한 시스템에 임의의 코드를 주입할 수 있는 직접적인 파이프라인을 엽니다.

연구원들은 400개 이상의 무료 및 유료 LLM API 라우터에 대한 광범위한 연구에서 9개의 라우터가 도구 호출에 악성 코드를 적극적으로 주입하고 있음을 확인했습니다. 이는 이 취약점이 LLM 공급망에 미치는 즉각적이고 광범위한 위협을 보여줍니다.

공격 #2: 조용한 데이터 사이펀

악성 페이로드를 적극적으로 주입하는 것 외에도, 공격자들은 두 번째로, 똑같이 교활한 전술인 비밀 유출(Secret Exfiltration)을 사용합니다. 이 공격은 수동적이고 보이지 않으며, 신뢰하는 LLM 라우터를 조용한 데이터 사이펀으로 변모시킵니다. 에이전트의 행동을 수정하지 않고, 단순히 관찰하고 수집합니다.

중요한 중개자 역할을 하는 라우터는 에이전트와 대규모 언어 모델(LLM) 사이를 흐르는 모든 데이터에 대한 완전한 평문 접근 권한을 가집니다. 이 특권적인 위치를 통해 모든 들어오고 나가는 트래픽을 지속적으로 스캔할 수 있습니다. 그들은 정교한 regex 패턴을 배포하여 민감한 정보를 드러내는 특정 고엔트로피 문자열을 끊임없이 검색합니다. 이러한 조용하고 지속적인 감시는 공격을 탐지하기 매우 어렵게 만들며, 어떤 가시적인 행동도 변경하지 않고 전적으로 백그라운드에서 작동합니다.

공격자들은 클라우드 인프라, 코드 저장소 및 금융 자산에 대한 무제한 접근 권한을 부여하는 고가치 자격 증명을 특별히 노립니다. 여기에는 다음이 포함됩니다: - 클라우드 환경 및 데이터 저장소를 잠금 해제할 수 있는 AWS 키 - 비공개 코드베이스 및 개발 파이프라인에 대한 접근을 제공하는 GitHub 토큰 - 암호화폐 보유를 제어하고 전송하는 데 필수적인 Ethereum 개인 키 일단 획득되면, 이러한 비밀은 공격자가 중요한 시스템을 손상시키고, 지적 재산을 훔치거나, 디지털 지갑을 비울 수 있는 직접적이고 인증되지 않은 경로를 제공합니다.

"Your Agent is Mine" 연구의 연구원들은 LLM 공급망 전반에 걸쳐 이 위협의 놀라운 확산성을 밝혀냈습니다. 공개 커뮤니티 및 상점에서 400개 이상의 무료 및 유료 라우터를 면밀히 조사한 후, 그들의 발견은 극명하고 즉각적이었습니다. 그들은 카나리로 심어놓은 AWS credentials를 17개의 라우터가 적극적으로 훔치고 있음을 확인했으며, 이는 겉보기에 무해해 보이는 이들 중개자 내에 광범위하고 활발한 취약점이 있음을 보여줍니다.

조사는 데이터 절도를 넘어선 더욱 충격적인 결과를 밝혀냈습니다. 한 악성 라우터가 연구원의 Ethereum wallet을 성공적으로 비웠습니다. 이 단일하고 파괴적인 사건은 비밀 유출의 치명적인 재정적 잠재력을 강조합니다. 귀하의 자율 AI 에이전트는 손상된 중개자를 통해 민감한 명령과 데이터를 알지 못하고 라우팅함으로써, 자신의 재정적 파멸 또는 인프라의 완전한 손상에 대한 무의식적인 공범이 됩니다.

연구원들의 '허니팟' 내부

"Your Agent is Mine" 연구원들은 LLM 공급망 내의 치명적인 취약점을 노출하며, 해커들이 중개 서비스를 어떻게 악용하는지 밝혀냈습니다. 그들의 논문은 손상된 API 라우터가 에이전트 요청에 대한 완전한 평문 접근 권한을 얻는 "악성 중개자 공격(Malicious Intermediary Attack)"을 상세히 설명합니다. 이는 응답이 시스템에 도달하기 전에 은밀한 조작을 가능하게 합니다.

그들의 조사는 전례 없는 규모로, 400개 이상의 무료 및 유료 라우터를 테스트했습니다. LiteLLM 또는 OneAPI와 같은 서비스를 통해 LLM 크레딧을 관리하는 이들 중개자는 공개 커뮤니티와 Taobao 및 Shopify와 같은 주요 상점에서 확보되었습니다. 이 연구는 실제 공격을 관찰하기 위한 거대한 'honeypot'을 효과적으로 만들었습니다.

이 광범위한 연구의 결과는 극명했습니다. 연구원들은 다음을 발견했습니다: - 9개의 라우터가 도구 호출에 악성 코드를 적극적으로 주입하고 있었습니다. - 17개의 라우터가 자격 증명 도용에 관여했습니다. - 1개의 라우터가 연구원의 Ethereum 지갑을 성공적으로 비웠습니다. 이러한 통계는 광범위하고 활발한 위협 환경을 확인시켜 줍니다.

Enjoying this? Get one like it in your inbox each morning.

one email a day · unsubscribe in two clicks · no third-party tracking

자격 증명 도용을 추적하기 위해 연구원들은 영리한 canary 방법을 사용했습니다. 그들은 테스트 요청 내에 가짜 AWS keys, GitHub tokens 및 Ethereum private keys를 전략적으로 심었습니다. 이 'canary'들이 나중에 외부 행위자에 의해 사용되었을 때, 이는 라우터가 민감한 데이터를 빼돌렸다는 것을 명백히 증명했습니다. 이러한 수동적이고 보이지 않는 데이터 유출은 심각한 위험을 초래합니다.

일부 악성 중개자는 adaptive evasion을 포함한 고급 전술을 보여주었습니다. 이 라우터들은 수동 승인 없이 자율적으로 작동하는 'YOLO mode'에 에이전트가 진입하는 것과 같은 특정 조건을 기다렸다가 공격을 시작했습니다. 이러한 발견에 대한 더 깊은 기술적 통찰력을 얻으려면 Malicious Intermediary Attacks on LLM Supply Chain - Emergent Mind 연구를 살펴보십시오. 이 정교한 접근 방식은 AI 에이전트 위협의 진화하는 특성을 강조합니다.

'YOLO Mode'를 기다리는 중

'Your Agent is Mine' 연구 논문에서 가장 충격적인 사실은 악성 중개자의 존재뿐만이 아닙니다. 그들의 교활함입니다. 연구원들은 손상된 라우터가 잠복하여 에이전트의 행동을 관찰한 후 표적 공격을 시작하는 정교한 기술인 adaptive evasion 사례를 발견했습니다. 이러한 인내심 있는 접근 방식은 성공적이고 파괴적인 공격의 가능성을 극적으로 높여 기존 보안 조치를 덜 효과적으로 만듭니다.

공격자들은 종종 연구원들이 'YOLO Mode'라고 부르는 것을 기다립니다. 이 중요한 상태는 자율 AI 에이전트가 수동 승인 없이 작동하여 완전히 감독되지 않은 상태로 명령을 실행하고 시스템과 상호 작용할 때 발생합니다. 에이전트가 YOLO Mode에 진입하면 중개자는 의심스러운 활동을 표시할 수 있는 인간의 감독에 구애받지 않고 자유롭게 행동할 수 있습니다.

악성 라우터는 자율성을 기다릴 뿐만 아니라 활동 수준도 모니터링합니다. University of California, Santa Barbara 및 Fuzzland 연구원들이 관찰한 일부 중개자는 공격을 시작하기 전에 특정 수의 요청(때로는 최대 50번의 이전 호출)을 기다립니다. 이러한 지연된 실행은 정상적인 트래픽 패턴에 섞여 들어가 개발자와 보안 팀이 탐지하기 매우 어렵게 만듭니다.

이러한 공격의 정밀성 또한 마찬가지로 우려스럽습니다. 일부 악성 라우터는 특히 개발 환경을 표적으로 삼습니다. 그들은 Rust 또는 Go와 같은 특정 프로그래밍 언어를 사용하여 구축된 프로젝트를 인내심 있게 스캔한 후 종속성 표적 악성 코드를 주입합니다. 이를 통해 공격자는 해당 생태계에서 일반적으로 사용되는 툴체인 또는 라이브러리의 취약점을 악용하여 매우 관련성 높고 효과적인 페이로드를 전달할 수 있습니다.

그 함의를 고려해 보십시오: 복잡한 개발 작업을 맡은 AI 에이전트가 자신도 모르게 손상된 중개자를 통해 트래픽을 라우팅합니다. 라우터는 에이전트의 초기 무해한 작업, 예를 들어 문서를 가져오거나 간단한 데이터 분석을 수행하는 것을 관찰합니다.

에이전트가 자율 운영으로 전환되거나 사전 정의된 요청 임계값에 도달할 때까지 조용히 기다립니다. 그런 다음, 에이전트가 Rust 프로젝트용 패키지를 설치하려고 할 때, 악성 라우터는 합법적인 종속성을 타이포스쿼팅된 공격자 제어 버전으로 바꿔치기하여 즉시 reverse shell을 허용하거나 민감한 데이터를 유출합니다. 이러한 조용하고 계산된 공격은 위협 환경의 심오한 변화를 강조합니다.

LiteLLM: 이론이 현실이 될 때

2026년 3월, "Your Agent is Mine" 연구의 이론적 위험은 LiteLLM compromise로 인해 냉혹한 현실이 되었습니다. 이 세간의 이목을 끄는 사건은 연구자들이 식별한 취약점이 추측에 불과한 것이 아니라 실제 환경에서 적극적으로 악용되어 널리 사용되는 LLM API router를 프로덕션 시스템에 대한 정교한 사이버 공격의 벡터로 변모시켰음을 입증했습니다.

공격자들은 다양한 LLM으로 요청을 라우팅하고 API keys를 관리하는 것을 단순화하도록 설계된 인기 있는 Python 패키지인 LiteLLM에 대해 교묘한 dependency confusion 공격을 실행했습니다. 그들은 소프트웨어의 특정 버전에 악성 코드를 주입하여 합법적인 설치를 스파이 활동 도구로 조용히 전환했습니다. 이 정교한 공급망 공격은 AI agent 운영의 핵심 경로 내에서 겉보기에 무해해 보이는 타사 구성 요소가 제기하는 심각한 위험을 보여주었습니다.

그 결과는 즉각적이고 심각했으며, 손상된 버전을 사용하는 모든 조직에 영향을 미쳤습니다. LiteLLM 인스턴스는 자신도 모르게 데이터 유출 통로가 되어 사용자로부터 중요한 운영 정보를 훔칠 수 있게 했습니다. 공격자들은 다음을 포함한 수많은 민감한 데이터를 성공적으로 유출했습니다: - cloud credentials - SSH keys - Kubernetes secrets

이 실제 침해는 Malicious Intermediary Attacks의 위협을 학술 논문의 범위를 훨씬 넘어선 것으로 명확하게 입증했습니다. 이는 손상된 중개자를 통해 라우팅될 때 자율적인 AI agents가 어떻게 자신도 모르게 스스로를 파괴하는 도구가 되어 중요한 인프라 접근 권한을 유출하는지 보여주며 연구 결과를 확고히 했습니다. 이것은 또 다른 prompt injection이 아닙니다. 이는 LLM supply chain에 대한 근본적인 신뢰 위반입니다.

타사 LLM routers에 의존하는 조직은 이제 핵심 인프라에 대한 실질적이고 즉각적인 위험에 직면해야 합니다. LiteLLM 사건은 냉혹한 경고 역할을 합니다. AI stack의 보안은 가장 약한 고리만큼만 강력하며, 이는 종종 공급망 깊숙이 있는 검증되지 않거나 손상된 구성 요소입니다. 공격자들은 이러한 중개 계층을 적극적으로 표적으로 삼고 있으며, 전체 LLM ecosystem에 걸쳐 엄격한 심사 및 종단 간 암호화 무결성의 시급한 필요성을 강조합니다. 위협은 여기에 있습니다.

신뢰 사슬의 끊어진 고리

비용을 관리하거나 접근을 통합하기 위해 자주 배포되는 LLM API routers는 중요한 신뢰 경계에서 작동합니다. LiteLLM 및 OneAPI와 같은 서비스를 포함한 이러한 중개자들은 종종 투명한 파이프로 취급됩니다. 그러나 이들은 통신 체인의 활성 참여자이므로 악의적인 행위자의 주요 표적이 됩니다. 이러한 근본적인 기술적 실패는 전체 LLM supply chain을 손상에 노출시킵니다.

표준 TLS encryption은 이러한 위협으로부터 피난처를 제공하지 않습니다. TLS가 에이전트와 라우터 간의 연결을 보호하지만, 라우터 자체는 해당 세션의 종단점입니다. 라우터는 모든 수신 요청과 발신 응답을 완전히 복호화합니다. 이는 중개자에게 민감한 데이터 및 도구 호출에 대한 완전한 평문 접근 권한을 부여하여 재암호화 및 전달 전에 조용한 수정을 허용합니다.

"Your Agent is Mine" 논문의 연구자들은 이러한 시스템적 취약점을 강조했습니다. 그들은 현재 LLM 생태계가 '중개자에 대한 취약한 신뢰'에 의존하며, 이는 그들의 연구 결과에서 일관되게 배신당했음을 결론지었습니다. 그들의 연구는 9개의 라우터가 악성 코드를 적극적으로 주입하고 17개가 AWS credentials를 훔치는 것을 적발하여, 이러한 깨진 신뢰를 직접적으로 보여주었습니다.

악의적인 중개자에 대한 유일한 강력한 방어는 cryptographic envelopes를 포함합니다. 이 메커니즘은 LLM 제공업체가 정식 응답에 암호화 서명을 하도록 요구합니다. 에이전트가 모델의 출력을 받으면, 서명을 독립적으로 검증하여 메시지의 출처를 증명하고 어떤 중개자도 콘텐츠를 변조하지 않았음을 보장합니다.

제공업체 서명 응답을 구현하면 LLM 제공업체에서 에이전트로 직접 이어지는 변경 불가능한 신뢰 체인이 생성됩니다. 이러한 검증 가능한 출처가 없으면 모든 API router는 페이로드 주입 및 비밀 유출의 잠재적 벡터로 남습니다. 이러한 아키텍처적 변화는 LiteLLM 침해와 같은 사건을 방지하고 재정적 손실로부터 보호하는 데 중요합니다. 이는 Researchers discover malicious AI agent routers that can steal crypto - Cryptonews.net와 같은 보고서에 자세히 설명되어 있습니다. 이것이 자율 에이전트를 보이지 않는 조작으로부터 보호하는 유일한 방법입니다.

오늘 AI 에이전트를 무장하는 방법

개발자와 조직은 즉각적인 과제에 직면해 있습니다: 악의적인 중개자 공격(Malicious Intermediary Attacks)의 은밀한 위협으로부터 AI 에이전트를 강화해야 합니다. 한때 투명하다고 여겨졌던 LLM 공급망은 이제 다른 핵심 인프라와 동일한 엄격한 보안 태세를 요구하는 중요한 공격 표면으로 드러났습니다. 사전 예방 조치는 더 이상 선택 사항이 아니라 민감한 데이터와 운영 무결성을 보호하는 데 필수적입니다.

LiteLLM 또는 OneAPI와 같은 API router든, LLM 크레딧을 관리하는 맞춤형 프록시든, 모든 제3자 중개 서비스를 고려할 때 극도의 경계가 가장 중요합니다. "Your Agent is Mine" 연구는 위험을 분명히 보여주었습니다: 9개의 라우터가 악성 코드를 적극적으로 주입했고, 17개는 AWS credentials를 훔쳤으며, 심지어 하나는 Ethereum wallet을 비웠습니다. 가능한 경우, 조직은 이러한 중요한 구성 요소를 자체 호스팅하여 데이터 흐름에 대한 직접적인 통제를 유지하고 검증되지 않은 외부 엔티티에 대한 의존도를 제거하는 것을 우선시해야 합니다. 피할 수 없다고 판단되는 모든 제3자 서비스에 대해서는 철저한 보안 감사가 필수적입니다.

에이전트의 실행 환경 내에 직접 강력한 클라이언트 측 방어를 구현하십시오. 결정적으로, 모든 도구 호출 및 명령에 대해 페일-클로즈 정책(fail-closed policy)을 채택하십시오. 기본적으로 모든 것을 허용하는 대신, 승인된 함수, API, 셸 명령만 명시적으로 허용 목록에 추가하십시오. 이는 악성 명령이 주입되더라도 실행되는 것을 방지합니다. 또한, 어떤 조치가 취해지기 전에 모델 출력에서 의심스러운 패턴, 예상치 못한 도구 호출 또는 확립된 행동과의 편차를 면밀히 검사하기 위해 응답 측 이상 감지(response-side anomaly screening)를 배포하십시오. 인간의 감독이나 자동화된 검사를 우회하는 제약 없는 "YOLO mode"로 에이전트를 작동시키지 마십시오.

장기적인 해결책은 주요 모델 제공업체의 근본적인 변화를 요구합니다. OpenAI, Google, Anthropic은 모든 LLM 응답에 대해 종단 간 암호화 서명(end-to-end cryptographic signatures)을 공동으로 개발하고 구현해야 합니다. 이러한 서명은 출력의 무결성과 진정성을 검증하여, 에이전트가 받은 응답이 모델이 생성한 것과 정확히 일치하며 어떤 중개자도 손대지 않았음을 보장할 것입니다. 이 중요한 보안 기본 요소는 변조를 즉시 감지할 수 있게 함으로써 악의적인 중개자 공격(Malicious Intermediary Attacks)을 효과적으로 무력화할 것입니다.

LLM 공급망을 확보하려면 업계 전체의 공동 노력이 필요합니다. 엄격한 보안 관행을 채택하는 개별 개발자부터 프로토콜 수준에서 암호화 신뢰를 내장하는 선도적인 AI 기업에 이르기까지, 체인의 모든 연결 고리가 강화되어야 합니다. 그래야만 우리가 권한을 부여하는 자율 에이전트를 진정으로 신뢰할 수 있으며, 이들이 타협의 무의식적인 도구가 아닌 강력한 동맹으로 남도록 보장할 수 있습니다.

자주 묻는 질문

LLM 보안에서 'YOLO' 공격이란 무엇인가요?

'YOLO' 공격은 손상된 API 라우터가 LLM이 수행하는 도구 호출을 가로채고 변경하는 악성 중개자 공격의 한 유형입니다. 이는 AI 에이전트가 'You Only Look Once' (YOLO) 모드에 진입하여 인간의 승인 없이 자율적으로 작동할 때 공격자가 공격을 가하는 상황에서 이름이 유래되었습니다.

YOLO 공격은 프롬프트 인젝션과 어떻게 다른가요?

프롬프트 인젝션은 LLM을 속여 오작동하게 만듭니다. YOLO 공격은 모델 자체를 목표로 하지 않고, 공급망을 목표로 합니다. 악성 라우터는 모델의 합법적인 출력(명령과 같은)이 생성된 후 이를 다시 작성하여, 후처리 방식의 중간자 공격이 됩니다.

LLM API 라우터는 무엇이며 왜 취약점인가요?

LLM API 라우터는 비용 최적화 또는 로드 밸런싱을 위해 여러 LLM 제공업체에 대한 요청을 관리하는 서비스입니다. 이는 사용자와 모델 제공업체 사이에 위치하며 모든 데이터에 대한 완전한 일반 텍스트 접근 권한을 가지므로, 악성 라우터가 무엇이든 읽거나 수정할 수 있게 되어 취약점이 됩니다.

개발자는 이 공격으로부터 AI 에이전트를 어떻게 보호할 수 있나요?

개발자는 모든 타사 서비스를 검증하고, 신뢰할 수 없는 API 라우터 사용을 피하며, 도구 호출에 대한 클라이언트 측 검사를 구현해야 합니다. 궁극적인 해결책은 모델 제공업체가 응답의 출처와 무결성을 확인하기 위해 종단 간 암호화 서명을 구현하는 것입니다.

Found this useful? Share it.

For builders

Want Stork to write one of these about your product?

Send us a URL. We use the product, form a view, and publish what we actually think — in 8 languages, labeled Sponsored, with no copy approval on your side. That last part is what makes it worth quoting.

See how it works$500 · AI tools & software only

당신의 AI 에이전트가 은밀히 해커가 됩니다