TL;DR / Key Takeaways
새로운 AI 경제가 이미 도래했습니다.
유행 주기의 그래프는 잊어버리세요. 매튜 버만은 그의 포워드 퓨처 라이브 패널에서 AI 금광 경쟁이 조용히 새로운 단계로 접어들었다고 선언합니다. 원초적인 모델 능력도 여전히 중요하지만, 이제 진짜 전쟁은 효율성, 지연 시간, 그리고 누가 기반 모델을 지속적이고 수익성 있는 제품으로 전환할 수 있는지를 중심으로 돌아갑니다. 이제 경주에서 중요한 질문은 “누가 가장 큰 모델을 가지고 있는가?”가 아니라 “누가 가장 낮은 쿼리당 비용, 최소한의 마찰로, 글로벌 규모에서 지능을 제공할 수 있는가?”입니다.
그의 스트림에서의 대화는 더 이상 추상적인 AGI 타임라인을 중심으로 진행되지 않습니다. 이는 AI 팩토리의 구축으로 심화됩니다: 하이퍼스케일 데이터 센터, 온프레미스 클러스터, 그리고 지속적인 추론을 위해 조정된 엣지 배포입니다. 버먼과 그의 게스트들은 미래학자가 아닌 운영자처럼 이야기하며, 활용률, 와트당 처리량, 그리고 기존 워크플로우에 모델을 어떻게 연결할 것인지에 대해 고민합니다. 이를 통해 규정 준수나 예산을 초과하지 않도록 하면서 말이죠.
여기서 언급된 AI 공장은 연구실보다 산업 공장에 더 가깝습니다. 이들은 칩과 전력을 위한 예측 가능한 공급망, 데이터 및 미세 조정을 위한 표준화된 "조립 라인", 밀리초 및 가용성의 '구'로 측정되는 SLA를 필요로 합니다. 기업들은 이제 모델 파라미터 수에 대해 묻기 전에 RPO, SOC 2, 그리고 공급업체 잠금 현상에 대해 질문합니다.
버먼의 패널은 이 새로운 AI 경제의 네 가지 기둥을 나열합니다. 하드웨어 부문에서는 Groq의 써니 마드라가 초저지연 LPU를 추진하고; 모델 부문에서는 구글 딥마인의 로건 킬패트릭이 제미니와 구글의 에이전트 로드맵을 대표하며; 자본 부문에서는 이머전스 캐피탈의 조셉 플로이드가 성장 단계 SaaS를 대변하고; 에이전트 부문에서는 Augment의 가이 구르-아리가 실제 회사의 워크플로우 자동화에 초점을 맞추고 있습니다. 이들은 실리콘에서 사용자 인터페이스까지 스택을 매핑합니다.
각 기둥은 동일한 방정식의 다른 부분을 해결합니다. 하드웨어는 추론 비용을 줄여야 하고, 모델은 최첨단을 유지하면서도 제어 가능해야 하며, 자본은 신규성 소진 이후에도 생존할 수 있는 비즈니스 모델에 자금을 지원해야 하고, 에이전트는 API 호출을 측정 가능한 생산성으로 전환해야 합니다. 이 모든 것은 독립적으로 작동하지 않습니다.
대화 전반에 걸쳐 중앙 긴장이 흐르고 있다: 바이럴 데모와 실제로 확장 가능한 시스템. 버먼은 2026년을 위한 단순한 필터로 계속 돌아온다: 이 네 개의 레이어가 CFO가 파일럿이 아닌 다년 계약을 체결할 만큼 충분히 긴밀하게 통합될 수 있는가? 이것이 기존의 벤치마크 점수보다도 새로운 AI 경제의 형성을 정의하고 있다.
당신의 LLM이 너무 느립니다. 속도가 새로운 경쟁력입니다.
대기 시간, 모델 크기가 아니라, AI 플랫폼 전쟁에서 누가 승리할지를 결정할 것입니다. Groq의 Sunny Madra는 2026년까지 대부분의 AI 자금이 학습이 아닌 추론에 몰릴 것이라고 주장합니다. 사용자들이 실제로 제품을 느끼는 것이 바로 그 영역이기 때문입니다. 3000억 개 매개변수 모델이 응답하는 데 3초가 걸리면, 100밀리초 이내에 답하는 더 작고 저렴한 모델에 지는 것입니다.
전통적인 GPU 스택은 러시아워의 교통체증에 갇힌 스포츠카와 같다: 명목상으로는 빠르지만 실제로는 예측할 수 없다. GPU는 수천 개의 스레드, 컨텍스트 전환, 혼합된 작업 부하를 조율하기 때문에 토큰 응답 시간이 급격하게 변동한다—한 순간은 50ms, 다음 순간은 400ms일 수 있다. 이러한 지연은 실시간 음성 에이전트와 같은 경험에 치명적이다. 인간은 약 200ms 이상의 지연을 감지하기 때문이다.
Groq의 LPU 아키텍처는 확정성을 추구하며 기존 방식을 반전시킵니다. 일반적인 컴퓨팅 대신, LPU는 고정 실행 경로를 가진 토큰별 파이프라인을 실행하므로, 부하가 걸린 상황에서도 지연 시간을 토큰당 실질적으로 측정할 수 있습니다. 예를 들어, ~10 ms/토큰과 같은 수치입니다. 개발자들은 평균이 아닌 보장에 기반하여 제품을 설계할 수 있습니다.
토큰당 비용이 10배에서 100배로 급락하고 지연 시간이 예측 가능해지면, 전체 제품 카테고리가 열리게 됩니다. 150ms 이내에 듣고, 추론하며, 대답하는 실시간 에이전트는 갑자기 전화 센터의 IVR이 아닌 인간 대화처럼 느껴집니다. 복잡한 사고의 연쇄 추론—내부 심사숙고의 수백 또는 수천 개의 토큰—은 더 이상 지나치게 느리고 비싸지 않게 됩니다.
경제적 중력이 변화합니다. 지원 에이전트가 상호작용당 $3 대신 $0.10의 비용이 든다면, 기업은 거의 모든 접점을 AI 레이어를 통해 라우팅할 수 있습니다. 만약 코딩 보조 도구가 로컬에서 1초 이하에 멀티 스텝 리팩토링을 실행할 수 있다면, 개발자들은 맥락 전환을 중단하고 AI에 의존하여 지속적인 페어 프로그래밍을 시작할 것입니다.
미래의 "승리 스택"은 "최고 모델이 승리하는" 모습보다는 "충분히 좋은 모델이 극도로 빠르고 저렴한 추론 인프라에서 작동하는" 모습에 가까워 보입니다. 이 스택은 다음을 결합합니다: - 강력하지만 반드시 최전선의 LLM은 아닌 모델 - LPU 또는 최적화된 ASIC과 같은 특화된 추론 하드웨어 - 인프라 층에서의 공격적인 컴파일, 캐싱 및 배치 처리
사용자들은 자신의 어시스턴트를 구동하는 모델이 무엇인지 묻지 않을 것이다; 그들은 단지 어시스턴트가 즉시 반응하고 거의 비용이 들지 않는지 느낄 뿐이다. 속도가 경쟁의 우위가 되고, 추론 반도체가 전장이 된다.
구글의 '개인 지능' 에이전트 계획
구글 딥마인드의 로건 킬패트릭은 제미니의 로드맵을 일반적인 모델에서 지속적인 “개인 지능”으로의 변화로 설명합니다. 단순히 프롬프트에 응답하는 것이 아니라, Gmail, 캘린더, 드라이브, 문서 및 크롬을 넘어 연결되어 항상 신호를 받아들여 당신이 요청하기 전에 필요한 것을 예측합니다.
그것은 당신의 여행 패턴, 반복 회의 및 읽지 않은 스레드를 아는 스탠딩 에이전트인 제미니를 의미하며, 그 후 적극적으로 답변을 초안하고, 갈등을 재조정하며, 관련 파일을 찾아냅니다. 매일 아침 "자동 브리핑"을 생각해보세요: 현재 프로젝트에 맞춘 주요 이메일, 회의, 문서 및 뉴스가 제공되며, 일반적인 피드가 아닙니다.
이를 위해 구글은 대규모로 사용자 컨텍스트에 Gemini를 직접 연결해야 합니다. 킬패트릭의 비전은 메시지, 이벤트, 작업, 브라우징과 같은 개인 그래프의 구조화된 조각을 노출하는 API를 의미하며, 이는 이를 사용하는 모든 앱에 대해 엄격한 범위 설정, 철회 및 감사를 보장합니다.
개발자들은 세 가지 핵심 기본 요소를 요구할 것입니다: - 세부적인 데이터셋별 권한 (예: “일정은 읽기만 가능, 이메일은 불가능”) - 에이전트의 행동과 데이터 접근에 대한 검증 가능한 로그 - 에이전트가 사용자 데이터를 유출하거나 누설하지 못하도록 하는 샌드박스 환경
구글은 안전성을 코드화하는 정책 수준의 가드레일이 필요하며, 단순히 모델의 행동에 의존해서는 안 됩니다. 기본적으로 접근을 거부하는 시스템, 시간 제한이 있는 토큰, 디바이스 내 필터, ‘보기 전용’ 모드, 그리고 관리자가 회사의 스택 내에서 어떤 제미니 기반 에이전트가 실행될 수 있는지를 중앙에서 관리할 수 있도록 하는 기업 제어 장치가 필요합니다.
프라이버시와 신뢰는 이 전략의 중심에 있습니다. 크롬의 30억 이상의 사용자 수, 지메일의 18억 계정, 안드로이드의 30억 이상의 활성 기기는 구글에게 전례 없는 맥락을 제공하지만, 만약 어떤 행위자가 부적절하게 행동하거나 데이터를 과도하게 수집할 경우 거대한 책임이 될 수 있습니다.
순다르 피차이는 강력한 에이전트와 기존 웹 생태계 간의 충돌 경로를 이미 경고했습니다. 만약 제미니가 모든 것을 요약한다면, 퍼블리셔들은 페이지뷰, 광고 노출, 그리고 직접적인 관계를 잃게 될 것이며, 특히 에이전트가 검색, 안드로이드, 크롬 내에서 직접 답변을 제공할 때 그렇습니다.
Google는 공개 웹을 폭발시키지 않기 위해 퍼블리셔를 에이전트 경제의 일급 참가자로 대우해야 합니다. 이는 구조화된 '에이전트 피드', AI 답변에 대한 수익 공유, 명확한 통합 훅을 의미할 수 있으며, 하드웨어 플레이어인 Groq가 여전히 건강한 앱 및 콘텐츠 생태계에 의존하면서 저지연 추론 플랫폼을 제공하는 방식과 유사합니다.
VC 필터: AI 홍보에서 진정한 가치를 분리하기
“AI 기반” 피치덱에 대한 신혼여행은 몇 달 전에 끝났습니다. Emergence Capital의 파트너 조셉 플로이드(Joseph Floyd)는 이제 투자자들이 먼저 직설적인 질문을 던지는 시장을 묘사합니다: 이것이 실제로 손익계산서 항목에 영향을 미치나요, 아니면 단지 OpenAI의 API로 포장된 세련된 데모일 뿐인가요?
VC들은 단위 경제학에 대해 심도 있게 분석하고 있습니다. 창립자들은 기능 체크리스트나 모호한 생산성 주장을 넘어서 AI가 고객 획득 비용, 총 이익률 또는 확장 수익을 어떻게 변화시키는지를 보여줘야 합니다.
CAC는 첫 번째 스트레스 테스트가 됩니다. 스타트업이 영업 접근 방식에 AI 코파일러를 추가할 경우, 플로이드(Floyd)는 아웃바운드 전환율이 20-30% 상승하거나, 영업 사원들이 소진되거나 이탈하지 않고 2-3배 더 많은 계정을 처리할 수 있다는 증거를 원합니다.
마진은 동일한 압박을 받습니다. "AI 자동화"를 주장하는 팀은 고객당 지원 티켓 수가 줄어들거나, 해결 시간이 짧아지거나, 연간 반복 수익($1 백만)당 인력 수가 측정 가능하게 줄어들어야 하며, 단순히 추론으로 인한 클라우드 비용 증가만으로는 부족합니다.
방어 가능성이 조용히 새로운 해자 집착으로 자리 잡았습니다. 모델 상품화—제미니, GPT-4.1, 클로드, 오픈 가중치—플로이드에 따르면 원시 모델 접근성은 더 이상 차별화 요소가 아닙니다; 모든 사람이 동일한 API를 몇 센트의 비용으로 호출할 수 있습니다.
진정한 보호막은 세 가지 자산 주위에 형성됩니다: - 독점적이거나 복제하기 어려운 데이터 - 운영에 깊숙이 연결된 독특하고 높은 마찰의 워크플로우 - 임베디드 파트너십이나 기존의 SaaS 발자국과 같은 유통 장점
독점 데이터는 S3 로그 버킷 이상의 의미가 있습니다. 이머전스 지원 창립자들은 레이블이 붙은 워크플로우, 결과 데이터, 고객별 온톨로지에 대해 이야기하며, 이는 그들의 모델이 공공 모델이 보지 못하는 패턴을 학습하게 하여 성능 격차를 확대합니다.
워크플로우의 깊이 또한 중요하다. 단지 크롬 확장 프로그램이나 채팅 사이드바로만 존재하는 AI 제품은 취약해 보인다. 반면, 청구서 승인, 코드 배포 또는 거래 예측의 방식을 재편하는 제품은 비즈니스를 망가뜨리지 않고는 제거하기 어려운 존재가 된다.
Emergence의 B2B SaaS 관점에서 가장 강력한 AI 스타트업은 도구와 같기보다는 내장된 두뇌를 가진 기록 시스템처럼 보입니다. 이들은 핵심 데이터 위에 자리 잡고, 애플리케이션 전반에서 작업을 조정하며, 작업이 시작되고 측정되는 기본적인 장소가 됩니다.
ROI가 최종 판단자가 됩니다. 플로이드는 팀들이 가치를 얻는 데 걸리는 시간을 분기 단위가 아닌 주 단위로 수치화하고, AI가 실제로 워크플로를 변경한다면 순 달러 유지율(net dollar retention)이 120% 이상 상승해야 하며, 확장이 선택이 아닌 필연적으로 느껴져야 한다고 강조합니다.
AI 인력의 부상: 에이전트가 당신의 일을 어떻게 바꿀 것인가
사람의 삶을 조종하는 SF 에이전트는 잊어버리세요; 가이 구리-아리는 당신의 이메일함을 조용히 관리하는 에이전트를 구축하는 데 집중하고 있습니다. 그의 팀은 Augment에서 LLM 기반 에이전트를 현대 지식 작업을 정의하는 도구들인 Gmail, Salesforce, Jira, Notion 및 수많은 내부 대시보드에 직접 연결합니다. 그 의무: 수천 개의 작은 작업에서 몇 분을 절약하여 전체 역할이 다르게 보이도록 하는 것입니다.
Augment의 고객들은 먼 미래의 목표로 시작하지 않습니다. 그들은 이메일 분류부터 시작합니다. 상담원들은 인바운드 스레드를 읽고, 의도를 분류하며, 응답을 작성하고, 메시지를 적절한 사람이나 시스템으로 전달합니다. 영업 팀의 경우, 또 다른 상담원이 CRM을 자동으로 업데이트합니다. 전화를 기록하고, 노트를 동기화하며, 기회를 종료시킴으로써 영업사원들이 하루의 30~40%를 데이터 입력에 소비하는 것을 막아줍니다.
하나의 신과 같은 "슈퍼 에이전트" 대신에, 구르-아리는 좁고 신뢰할 수 있는 작업자들의 군집을 주장합니다. 한 에이전트는 주간 파이프라인 보고서를 전문으로 하고, 또 다른 에이전트는 고객 건강 점수를 수집하며, 세 번째 에이전트는 청구 불일치를 조정합니다. 각 에이전트가 하루에 사용자당 5-10분만 절약하더라도, 5,000명의 직원이 있을 경우 연간 수백만 달러의 생산성이 향상됩니다.
이 모듈형 접근 방식은 기업이 채택을 단계적으로 진행할 수 있게 합니다. 한 회사는 먼저 세 가지 에이전트를 도입할 수 있습니다: - 지원 대기열을 위한 이메일 분류 - 자동 CRM 관리 - 재무 및 운영을 위한 표준 보고서 생성
그것들이 신뢰할 수 있는 것으로 입증되면—한 자리 숫자의 오류율, 측정 가능한 시간 절약—팀들은 더 복잡한 작업 흐름으로 확대된다. Gur-Ari는 이를 단일 어시스턴트가 아닌 AI 인력을 구축하는 것으로 설명한다: 에이전트를 고용하고, 직무 설명서를 제공하며, 그들의 지표를 관찰한다.
모델 성능이 이제는 배포를 차단하는 경우가 드물어졌습니다. GPT-4급 시스템은 이미 견고한 이메일, SQL 쿼리 및 요약을 작성할 수 있습니다. 진짜 장벽은 신뢰성, 보안 및 감사 가능성입니다: 고객 데이터를 다루는 에이전트를 신뢰할 수 있는가, 그리고 지난 화요일 오후 3시 17분에 정확히 무엇을 했는지 확인할 수 있는가?
Augment는 엄격한 범위와 전체 작업 로그로 이 문제를 해결합니다. 에이전트는 최소 권한 액세스 아래 작동하며, 모든 API 호출이 기록되고, 인간은 결정 과정을 단계별로 재생할 수 있습니다. 규제 산업인 금융, 의료, 대형 SaaS에서는 감사 추적이 없으면 배포가 불가능합니다. 시연에서 모델이 아무리 똑똑해 보여도 마찬가지입니다.
이 혁명을 이끄는 'AI 공장'
AI는 이제 콘크리트, 구리, 냉각탑에서 운영됩니다. 하이퍼스케일러들은 모델 업그레이드와 써니 마드라가 주장하는 인퍼런스 수요의 폭발에 발맞추기 위해 500메가와트 이상의 전력을 끌어내는 전용 AI 공장을 세우기 위해 경쟁하고 있습니다.
마이크로소프트, 구글, 아마존, 메타는 조용히 “기존 지역에 GPU 추가”에서 AI 전용 데이터 센터 설계로 전환하였으며, 맞춤형 전력 변전소와 현장 변전소를 포함하고 있습니다. 마이크로소프트는 새로운 AI 인프라에 1,000억 달러 이상을 투자하기로 한 것으로 알려져 있으며, 구글과 아마존은 수년 간의 수십억 달러 규모의 자본 지출 계획을 세우고 뒤따르고 있습니다.
이들 건물 안에서는 NVIDIA가 여전히 지배하지만 혼자가 아니다. 하이퍼스케일러들은 이제 다양한 가속기를 조합하고 있다: NVIDIA H100/B100, AMD Instinct 부품, 그리고 AWS의 Trainium과 Inferentia, Google의 TPU v5p, Meta의 MTIA와 같은 자체 개발 칩들로, 각각 다른 모델 크기와 작업 부하에 맞춰 조정되어 있다.
그 조합은 가혹한 최적화 퍼즐을 만들어냅니다. 클라우드 팀은 이제 단순히 "몇 개의 GPU?"를 결정하는 것이 아니라, 어느 실리콘, 어떤 상호 연결, 어느 지역이 현지 전력망 제한이나 규제 경고를 발동시키지 않고 필요한 메가와트를 제공할 수 있는지도 결정해야 합니다.
버먼은 그의 뉴스레터에서 이 점을 계속 강조해 왔습니다: AI 데이터 센터는 이미 세계 전기 사용량의 2-3%를 차지하고 있으며, 일부 예측에서는 2030년까지 AI 관련 수요가 4-6%로 증가할 것으로 보고 있습니다. 노던 버지니아, 더블린, 오리건의 일부 지역의 지역 유틸리티는 전력망이 충분히 빠르게 확장되지 않기 때문에 새로운 데이터 센터의 연결을 지연하거나 제한하기 시작했습니다.
반발이 커지고 있습니다. 지역 사회 단체들은 모라토리엄을 추진하고, 규제 기관들은 냉각을 위한 물 사용을 면밀히 조사하며, 정부는 AI 챗봇이 제한된 전력 자원을 주택과 교통과 경쟁해야 하는 이유를 묻고 있습니다. 이러한 정치적 압박은 하이퍼 스케일러 간의 무기 경쟁과 직접적으로 충돌하고 있습니다.
그 배경 속에서 성능 대 전력 효율성은 선택 사항이 아닌 생존의 수치가 됩니다. Groq의 LPU 제안—더 낮은 지연 시간, 더 높은 초당 토큰 수, 더 나은 전력 효율성—은 갑자기 전력망 제한, ESG 요구사항, 그리고 기업의 비용 모델과 일치하게 됩니다.
구글의 보다 효율적인 제미니 배포와 에이전틱 워크로드에 대한 노력은 로건 킬패트릭이 암시한 바와 같이 인프라 전략 문서와 구글 딥마인드 – 공식 사이트와 같은 자원에서도 드러납니다.
API 래퍼를 넘어서: 현재 VC들이 실제로 지원하는 것
조셉 플로이드(Joseph Floyd)는 분명히 말합니다: "API 래퍼" 시대는 끝났습니다. 이머전스 캐피탈(Emergence Capital)은 이제 AI 제안을 한 가지 잔인한 기준으로 평가합니다—이 제품이 핵심에 기계 지능이 없다면 존재할 이유가 있는가, 아니면 AI가 SaaS에 붙여진 단순한 화려한 기능에 불과한가?
플로이드에게 AI 네이티브 워크플로우는 작업이 이루어지는 방식을 재구성하며, 단순히 버튼 클릭 속도를 향상시키는 것이 아닙니다. 이메일을 자동으로 작성하는 판매 플랫폼은 점진적인 개선일 뿐; 파이프라인을 지속적으로 모니터링하고, 접근 방식을 초안하며, 계정을 재우선순위화하고, 최소한의 인간 입력으로 채널 전반에 걸쳐 캠페인을 실행하는 시스템은 완전히 새로운 워크플로우입니다.
진정한 AI 원주율 제품은 작업 자체의 피드백 루프에 모델을 내장합니다. 그들은 행동을 관찰하고, 선호를 학습한 후, 자발적으로 조치를 취하기 시작합니다. 재무의 이상 징후를 표시하거나, 코드 변경을 제안하거나, 규칙을 명시적으로 지시받지 않고도 지원 티켓을 분류하는 것입니다.
이는 대부분의 창립자들이 과소평가하는 시장 진입 문제를 발생시킵니다. 당신은 정적인 소프트웨어를 판매하는 것이 아니라, 사용과 데이터로부터 계속 배우기 때문에 첫째 날, 서른째 날, 삼백육십오째 날에 각각 다르게 작동하는 도구를 판매하고 있습니다.
플로이드(Floyd)는 팀들이 진화를 설명하는 GTM 플레이북을 설계하도록 독려합니다. 초기 수용자는 명확한 내러티브를 얻습니다: 첫 주에는 기본 가치를, 네 번째 주에는 눈에 띄는 개선을, 두 번째 분기에는 고객 데이터를 바탕으로 모델이 미세 조정되면서 자동화가 증가합니다.
성공적인 AI 기반의 시장 진입 전략(GTM)은 종종 측정 가능한 상승과 연결된 침투 및 확장 전략에 의존합니다. 투자자들은 "일일 프롬프트"와 같은 허세 지표가 아닌 30-50% 사이클 타임 단축, 10-20% 수익 증가 또는 인원 수에 무관한 확장과 같은 지표를 보고 싶어 합니다.
신흥 우승자들은 두 가지 패턴을 따릅니다. 하나는 방어 가능한 인프라 스택의 일부를 소유하는 것으로, Groq의 LPU 하드웨어나 전문화된 벡터 데이터베이스를 생각해 볼 수 있습니다. 다른 하나는 강력한 데이터 플라이휠과 복제하기 어려운 코퍼스를 통해 특정 수직 시장을 지배하는 것입니다.
수직 리더들은 시간이 지남에 따라 앱보다 인프라에 더 가까워 보입니다. 수백만 개의 계약, 주석 및 결과를 흡수하는 법률 AI나 임상 기록과 결과 데이터를 기반으로 조정된 헬스케어 어시스턴트는 일반적인 LLM API 사용자가 결코 보지 못하는 독점 신호를 축적합니다.
데이터 플라이휠은 장난감과 플랫폼을 구분 짓습니다. 고객이 제품을 사용할수록 더 많은 라벨이 붙은 상호작용, 수정사항, 엣지 케이스를 포착하게 되어, 이는 모델 성능을 직접 향상시키고 잠금 효과를 심화시킵니다.
플로이드의 필터는 간단하고 무자비하다: 다른 모델 제공업체로 전환하면 대부분의 이점이 사라진다면, 당신은 회사를 가진 것이 아니라 기능을 가진 것이다. 이를 이해하는 창립자들이 2026년에도 여전히 투자 조건서를 받고 있다.
디지털 공동 파일럿을 신뢰할 수 있을까요?
봇이 당신이 자는 동안 HR 시스템, 인박스, CRM을 들여다보는 것을 믿을 수 있을까요? 가이 구르-아리는 기업이 확신을 가지고 "예"라고 대답할 수 있을 때까지 에이전트가 철저히 제어되어야 한다고 주장합니다. 다음 단계의 AI는 더 스마트한 채팅이 아니라 운영 관리와 추적 가능성에 관한 것입니다.
신뢰성은 이제 "보통 올바른 답변을 제공한다"는 의미를 넘어서고 있습니다. 기업들은 에이전트를 위한 Git 기록을 원합니다: 모든 작업, 입력, 도구 호출 및 의사 결정 경로의 변조 불가능한 로그입니다. AI가 급여나 할인에서 오류를 일으킬 경우, 팀은 SaaS 도구와 내부 시스템 전반에 걸쳐 이전 상태로 복원할 수 있는 원클릭 롤백 기능이 필요합니다.
그것은 공급업체들이 완전한 감사 가능성 스택을 구축하도록 유도하고 있습니다: 시간 스탬프가 있는 추적, 구조화된 추론 로그, 재생 가능한 세션. 에이전트 인지 및 워크플로우를 위한 Datadog 또는 Splunk와 같습니다. 만약 공동 파일럿이 1,000개의 Salesforce 기록을 변경했다면, 보안팀은 누가 이를 승인했는지, 어떤 프롬프트가 이를 촉발했는지, 그리고 어떤 정책이 이를 허용했는지를 확인할 것으로 예상합니다.
보안과 데이터 프라이버시는 체크리스트에서 더욱 중요한 요소로 자리잡고 있습니다. 에이전트들은 이메일, 인사 플랫폼 및 CRM에서 작업하기를 원하지만, CISO들은 확장되는 위험 범위를 보고 있습니다. 하나의 타협된 에이전트 키로 인해 갑자기 임원의 이메일을 읽고 인사 보상 기준을 가져올 수 있습니다. 제로 트러스트는 선택이 아니라 설계 제약입니다.
현대 에이전트 스택은 점점 더 인간 접근 모델을 반영하고 있습니다. 기업이 요구하는 사항은 다음과 같습니다: - 공유 서비스 계정이 아닌 사용자별 OAuth 및 SSO - 도구별 세분화된 범위(“읽기 전용 일정,” “첨부파일 없음”) - 프롬프트가 모델에 도달하기 전에 즉시 수정 및 데이터 손실 방지
실제 배포로 가는 길은 공격적으로 점진적인 모습을 보이고 있습니다. Gur-Ari와 다른 이들은 회사들이 낮은 위험의 고빈도 작업으로 시작하는 것을 보고 있습니다: 상태 이메일 작성, 티켓 요약, 비핵심 CRM 필드 업데이트. 이러한 작업은 실제 데이터를 다루지만, 문제가 생겨도 분기 실적에 큰 영향을 미치지 않습니다.
에이전트가 99% 이상의 성공률과 깨끗한 감사 추적을 통해 수천 개의 이러한 마이크로 워크플로를 실행할 수 있음을 입증하면, 기업은 기회를 넓힙니다. 그때 비로소 AI가 수익 운영, 조달 승인 또는 인사 워크플로에 적용되도록 허용하는데, 여기서 단 하나의 잘못된 행동이 법적 검토를 촉발할 수 있으며, 슬랙에서의 눈 롤링에 그치지 않습니다.
전쟁터가 모델에서 생태계로 이동하다
벤치마크는 GPT-3와 PaLM 간의 경주처럼 보였을 때 의미가 있었습니다. 그러나 지금은 GPT-4.1, Claude 3.5 Sonnet, 그리고 Gemini 1.5 Pro가 대부분의 작업에 '충분히 좋다'고 여겨지면서, 기본 모델 점수는 교통으로 가득한 도시에 있는 슈퍼카 랩 타임에 대해 논쟁하는 것처럼 느껴집니다. 힘은 단일 모델에서 실리콘, 소프트웨어, 그리고 배포를 하나의 복합 루프로 결합하는 생태계로 이동하고 있습니다.
하드웨어는 그 스택의 기초에 자리 잡고 있습니다. NVIDIA가 여전히 대부분의 학습을 차지하고 있지만, 추론(inference)은 빠르게 분산되고 있습니다: Groq의 LPU 아키텍처는 70B-파라미터 모델에서 50ms 이하의 엔드 투 엔드 응답 시간을 제공합니다. 반면, GPU 클러스터는 대규모에서 300ms 이하로 안정적으로 유지하는 데 종종 어려움을 겪습니다. 이러한 지연(latency) 차이는 단순히 더 기분이 좋게 느껴지는 것이 아니라, AI 공동 조종사(co-pilot)가 IDE, 인박스, 또는 CRM 내에서 사용자들이 키보드 단축키로 돌아가지 않고도 실시간으로 사용할 수 있는지를 결정합니다.
그 실리콘 위에 모델 인텔리전스는 제품이 아닌 기능이 됩니다. Llama 3.1과 Phi-3 같은 오픈 소스 모델들은 매월 능력 격차를 줄이고 있으며, 특히 독점 데이터로 조정할 때 더욱 그렇습니다. Sunny Madra의 주장은 강력하게 와 닿습니다: 누구든지 가장 빠르고, 가장 저렴하며, 가장 예측 가능하게 그 모델을 운영하는 사람이 모든 작업 흐름에 참여할 권리를 얻습니다.
구글의 답변은 배급의 중력에 기반하고 있습니다. 검색, 안드로이드, 그리고 워크스페이스에 연결된 제미니는 로건 길패트릭의 "개인 지능" 에이전트가 수십억 명의 사용자와 페타바이트의 행동 데이터에 즉시 접근할 수 있도록 합니다. 모든 문서 수정, 미트 전사, 그리고 지메일 스레드는 더 나은 제안, 요약, 자동 행동을 위한 훈련 신호가 됩니다.
Groq는 반대 전략을 취합니다: 추론 계층을 소유하고, 그 위에 오픈 소스 모델과 독립 개발자들이 몰려오도록 합니다. 이 전략은 모델을 서로 교환 가능한 카트리지로 간주하며, Groq 하드웨어와 도구를 지속적인 플랫폼으로 삼습니다. 낮은 대기 시간의 API와 투명한 가격 책정은 SaaS 창립자와 기업들이 프로덕션 작업을 위해 Groq에 표준화하도록 유도합니다.
조셉 플로이드(Joseph Floyd)와 같은 투자자들은 이를 네 가지 기둥으로 구성된 게임으로 봅니다: 하드웨어, 모델, 개발자 도구, 그리고 유통. Emergence Capital – 공식 웹사이트는 방어력이 있는 AI 기반 기업들이 이 네 가지를 플라이휠로 결합한다고 설명합니다: - 더 빠르고 저렴한 하드웨어가 새로운 실시간 애플리케이션을 가능하게 합니다 - 새로운 앱이 독점적인 워크플로우와 데이터를 생성합니다 - 더 나은 데이터가 모델과 에이전트를 개선합니다 - 우수한 제품이 더 많은 사용자, 수익 및 자본을 유치합니다
가장 빠르게 그 루프를 닫는 사람이 2026년 AI 경제의 규칙을 정한다.
대리적 시대를 위한 행동 계획
AI의 대리인 혁명은 완벽한 전략 문서를 기다리지 않습니다. 향후 18-24개월 동안 승자는 에이전트를 작업을 위한 새로운 실행 환경처럼 다루는 사람들일 것입니다: 빠르고, 관찰 가능하며, 단순한 채팅 창이 아닌 고빈도 작업 흐름에 직접 연결된 상태로 말이죠.
건축업자와 개발자들은 지연 시간에 집착해야 합니다. 응답 시간이 1~2초를 넘으면 사용자가 이탈하며, 10초가 지나면 참여도가 급격히 떨어집니다. 이는 추론을 중심에 놓이게 합니다: Groq 스타일의 LPU, NVIDIA GPU 변형, 그리고 AWS, Google Cloud, Azure의 새로운 전문 하드웨어 API를 실험하여 1,000 토큰당 비용과 실제 응답 시간을 벤치마킹하십시오.
하나의 고통스러운 반복 작업에 집중한 제품 베팅. “모든 수신 지원 이메일의 우선순위를 정하다”, “CRM + 이메일에서 판매 브리핑 준비하기”, 또는 “ERP 내보내기에서 월간 장부 마무리하기”라고 생각해보세요. 도구를 관찰하고, 결정하고, 행동한 후, 인간을 위한 요약을 제공하는 주도적인 워크플로우를 설계하세요. 강력한 가드레일과 재생 가능한 로그로 이 루프를 소유하도록 합니다.
투자자들은 기초 모델이 상품화된다고 가정해야 합니다. 스타트업이 추론 비용을 낮추거나 더 나은 인프라를 협상하지 못하면 총 마진이 무너집니다. 다음 사항에 대해 팀을 압박하세요: - 작업당 단위 경제성, 좌석당이 아님 - 독점 데이터 우위 - 워크플로우 종속성 및 전환 비용
사용자가 아닌 데이터와 프로세스의 깊이에 따라 사용이 증가하는 제품을 찾아보세요. 2026년의 방어 가능한 해자는 특정 도메인의 독점적인 온톨로지로, 수천 개의 고객 워크플로우에 통합되어 실제 결과를 기반으로 지속적으로 조정되는 모습입니다.
비즈니스 리더들은 대담한 시도가 아닌 샌드박스가 필요합니다. 내부의 저위험 에이전트부터 시작하세요: 문서 간 지식 검색, 회의 요약, 티켓 분류 또는 비용 분류. 이러한 파일럿을 사용하여 고객이나 돈과 접촉하기 전에 보안, 개인 정보 보호 및 감사에 대한 기관 플레이북을 구축하세요.
데이터 접근 및 보존 규칙 수립 인간 승인 절차 기준 설정 에이전트의 잘못된 행동 시 사건 대응 절차 마련
자주 묻는 질문
전문화된 AI 하드웨어인 Groq의 LPU에 대한 주요 주장은 무엇인가요?
LPUs와 같은 특수 하드웨어는 AI 추론의 대기 시간과 토큰당 비용을 대폭 낮춥니다. 이는 실시간 대화형 AI 경험을 대규모로 실현 가능하고 저렴하게 만들어, 경쟁의 초점을 모델 학습에서 모델 서비스로 전환합니다.
AI 에이전트는 단순한 챗봇을 넘어 어떻게 발전하고 있나요?
그들은 사용자 맥락을 이해하고 여러 응용 프로그램(이메일, CRM, 문서) 간의 복잡한 작업을 조율할 수 있는 '개인 지능' 시스템으로 변모하고 있습니다. 목표는 단순히 질문에 답하는 것이 아니라 전체 워크플로우를 자동화하는 능동적인 도우미를 만드는 것입니다.
현재 벤처 캐피탈리스트들이 AI 스타트업에서 찾고 있는 것은 무엇인가요?
VC들은 초기의 열기를 넘어, AI 네이티브 워크플로우, 독자적인 데이터 보호 장치, 고객을 위한 명확한 ROI를 가진 스타트업을 우선시하고 있다. 그들은 단위 경제성과 상품화된 기본 모델에 대한 방어력을 면밀히 검토하고 있다.
'에이전틱 워크플로우'란 무엇인가요?
에이전틱 워크플로우는 AI 에이전트가 복잡한 목표를 달성하기 위해 다양한 소프트웨어 도구 간에 상호 연결된 일련의 작업을 자동화하는 프로세스입니다. 예를 들어, 에이전트는 판매 CRM을 모니터링하고, 성과 보고서를 생성한 다음, 팀에 보낼 요약 이메일을 작성할 수 있습니다.