TL;DR / Key Takeaways
폭발적인 주장: AGI가 이미 도래했나요?
세계 최초의 AGI-AGI 가능한 모델. 통합 AI가 오늘 아침 새로운 시스템을 소개하며 단순한 대규모 언어 모델이 아니라 “자율적으로 계획하고, 학습하며, 다양한 양식에서 행동할 수 있는” 아키텍처라고 주장했습니다. 이 회사는 모델이 텍스트, 코드, 이미지 및 실시간 도구를 단일 루프에서 처리하며, 이를 ‘고급’이라는 표현이 아닌 AGI-AGI 가능하다고 명시적으로 마케팅하고 있다고 전했습니다.
이번 발표의 중심에는 Integral AI의 창립자 다니엘 권이 있으며, 그는 구글의 Brain 및 DeepMind 팀에서 수석 연구원으로 일했습니다. 그곳에서 그는 대규모 강화 학습과 멀티모달 트랜스포머에 대해 작업한 것으로 알려져 있습니다. 권의 이력서에는 정책 경량 방법에 대한 연구, 트랜스포머 기반 에이전트에 대한 초기 작업, 내부 제미니 프로토타입에서의 경험이 포함되어 있어, 대부분의 AI 스타트업들이 흉내낼 수 없는 기술적 신뢰성을 Integral에 부여합니다.
인티그럴은 자사의 시스템이 4000억 개의 매개변수를 가진 백본을 운영하며, 미세한 전문가 레이아웃을 사용한다고 주장합니다. 이는 Nvidia의 Neotron 3와 다른 희소 모델들과 유사한 개념이지만, 도구를 호출하고 웹을 탐색하며 소프트웨어 인터페이스를 운영할 수 있는 "대리적 컨트롤러"에 연결되어 있습니다. 이 회사는 이미 모델이 다단계 스프레드시트 감사, 대규모 코드베이스 리팩토링, 익숙하지 않은 UI를 화면 픽셀과 텍스트 지침만으로 탐색하는 모습을 시연하고 있습니다.
시장은 즉각적이지만 불균형적으로 반응했습니다. X에서는 여러 저명한 연구자들이 AGI 언어를 이전의 과대 선전된 출시와 비교하며, OpenAI와 Google이 GPT-5급 및 Gemini 모델에 대해 보다 신중한 표현을 사용한 점을 지적했습니다. Integral이 공유한 초기 기준 점수—MMLU, GSM8K 및 맞춤형 "지식 작업" 스위트—는 강력하지만 명백히 초인적인 점수는 아니며, 이는 학계와 독립 평가자들로부터 회의론의 물결을 불러일으켰습니다.
그러나 투자자와 기업 구매자들은 이를 완전히 무시하지는 않았다. 실제 소프트웨어를 신뢰성 있게 운영할 수 있는 도구 호출 에이전트는 포춘 500대 기업의 자동화 팀이 원하는 것이며, 인테그랄은 파일럿 고객들이 이미 재무, 법률 및 운영 워크플로우에서 이 모델을 운영하고 있다고 주장한다. 데모가 제3자 복제를 견딜 수 있다면, “AGI-AGI 능력”은 단순한 슬라이드 덱의 형용사를 넘어서 새로운 제품 카테고리처럼 보이기 시작할 것이다.
그것은 전체 산업에 걸쳐 날카로운 질문을 남깁니다: 인테그럴 AI가 주목을 끌기 위해 AGI라는 용어를 선점하는 것인가, 아니면 전 구글 관계자가 조용히 챗봇보다는 주니어 동료처럼 행동하는 세계 최초의 시스템을 출시한 것인가?
'AGI 가능성 해독하기': 과대광고 대 지평선
인티그럴 AI는 “AGI-AGI 능력” 주장을 좁고 기술적인 개념에 의존합니다: 즉, 방대한 사전 큐레이션된 데이터 세트에 의존하는 대신 환경에서 자율적으로 학습할 수 있는 모델입니다. 그들의 설명에 따르면, 이 시스템은 원시 이미지 스트림, 인터페이스, 문서 및 센서 데이터를 관찰하고, 그에 따라 자신의 내부 정책을 즉각적으로 업데이트합니다. 이는 정적인 대형 언어 모델보다 강화 학습 에이전트에 더 가깝습니다. 회사는 이렇게 지속적으로 적응할 수 있다면 인공지능 일반 지능이 출현할 수 있는 기초가 마련된다고 주장합니다.
그 정의는 대부분의 연구자들이 AGI를 의미하는 바를 조용히 회피하고 있습니다. 주류 AI 연구에서 AGI는 인간 수준의 일반 지능을 의미합니다: 거의 모든 분야에서 유연하게 이해하고, 계획하며 행동할 수 있는 능력으로, 개인과 비교할 만한 강인성, 전달성 및 상식이 포함됩니다. 그런 기준으로 볼 때, “AGI-AGI-가능”은 “기술적으로 흥미로운” 것처럼 들리지 “기계가 이제 우리의 인지 동료”가 되었다고 말하는 것보다는 더 합니다.
Integral AI가 분야와 방향성 면에서 일치하는 부분은 지각, 추론, 행동을 통합된 에이전트로 수행할 수 있는 모델을 향한 추진입니다. 이 회사는 다음을 수용하는 단일 시스템을 설명합니다: - 텍스트, 이미지 및 영상 - GUI 상태와 API 응답 - 가능성 있는 실제 센서 또는 로봇 데이터
그런 다음 행동을 선택합니다: 인터페이스 클릭, 도구 호출, 코드 발행 또는 계획 업데이트. 이는 OpenAI, Google 및 GLM-4.6V를 106B 매개변수와 9B Flash 변형으로 갖춘 Zhipu와 같은 회사들이 구축하기 위해 경쟁하고 있는 동일한 에이전틱, 다중 모드 스택입니다.
증거를 살펴보면 격차가 드러납니다. Integral AI의 공개 데모는 지금까지 초기 연구 프로토타입과 유사하며, UI 탐색, 장난감 로봇, 제한된 퍼즐 해결의 짧은 클립으로 구성되어 있고, 명확한 수치는 없습니다. 표준화된 벤치마크가 없고, MMLU, MMBench 또는 AgentBench와 같은 테스트에서 직접적인 비교 결과가 없으며, 자율 학습이 기존의 미세 조정을 능가한다는 것을 보여주는 절제 연구도 없습니다.
그와 같은 수사와 실적 간의 괴리는 중요합니다. "세계 최초의 AGI-AGI-가능"이라는 주장은 GPT-4급 모델이 임의의 작업을 강력히 처리하고, 온라인으로 적응하며, 자신의 추론을 설명할 수 있다는 기대를 설정합니다. 몇 가지 기대 이하의 데모를 출시하는 것은 익숙한 이야기를 암시합니다: 기초 연구는 실제일 수 있지만, 마케팅은 이미 과학을 몇 바퀴 앞서 달리고 있습니다.
중국의 비전 있는 도약, GLM-4.6V
중국의 AI 생태계는 불명확한 "AGI-AGI 가능" 주장에 대한 구체적인 반례를 만들어냈습니다: Zhipu AI의 GLM-4.6V는 이미 강력한 시각 및 추론 능력을 갖춘 다중 모달 모델입니다. Integral AI AGI 발표가 자율 학습에 대한 대담한 약속에 의존하는 반면, GLM-4.6V는 보다 검증하기 쉬운 기준, 매개변수 및 작동 코드를 통해 입지를 다지고 있습니다.
GLM-4.6V는 단일 경로로 텍스트, 이미지, 스크린샷 및 전체 문서 페이지를 수용하는 오픈 소스 다중 모드 비전-언어 모델로 등장합니다. 이 모델은 이미지를 단순히 캡션하는 것에 그치지 않고, 밀집된 PDF, 복잡한 UI, 다이어그램 및 수학적 그래프를 파싱하면서도 장기적인 문맥을 유지합니다.
Zhipu는 서로 다른 배포 현실을 목표로 하는 두 가지 변형 모델을 제공합니다. 전체 GLM-4.6V는 클라우드 규모의 작업에 대해 약 1,060억 개의 매개변수를 갖고 있으며, GLM-4.6V-Flash는 저지연성의 온디바이스 또는 엣지 시나리오를 위해 약 90억 개의 매개변수로 축소됩니다.
두 모델 모두 128K-토큰 범위의 컨텍스트 윈도우를 지원하여, 수십 페이지 또는 수백 페이지에 걸쳐 있는 실제 문서에 대해 중요합니다. 이 용량은 콘텐츠를 손실이 있는 조각으로 나누지 않고도 종합 계약 검토, 기술 문서 분석 또는 멀티 스크린 앱 사용법 안내와 같은 작업을 가능하게 합니다.
벤치마크에 따르면, Zhipu는 GLM-4.6V를 유사한 매개변수 규모의 오픈 비주얼 언어 모델 중 최첨단으로 소개하고 있습니다. 내부 및 제3자 테스트는 다음과 같은 강력한 성과를 강조합니다: - 문서 이해 - 스크린샷 및 GUI 분석 - 다이어그램 및 차트 해석 - 시각적 질문 응답 및 수학적 추론
GLM-4.6V가 많은 서구 경쟁자들과 차별화되는 점은 모달리티 간의 통합 추론입니다. 스크린샷, 스캔한 양식, 텍스트 쿼리를 함께 입력할 수 있으며, 모델은 OCR을 LLM 위에 덧붙이는 대신 레이아웃, 텍스트 및 시각적 단서를 하나의 추론 문제로 추적합니다.
그 디자인은 GLM-4.6V를 구글의 제미니 비전 스택과 오픈AI의 GPT-4.1/4.2V 계층에 대한 믿을 수 있는 오픈 경쟁자로 만들어줍니다. 개발자들은 자신이 호스팅하고, 세밀하게 조정하며, UI 자동화, 기업 검색 또는 컴플라이언스 워크플로우를 위한 에이전트에 통합할 수 있는 모델을 얻게 되어, 모든 것을 폐쇄형 API에 맡길 필요가 없습니다.
당신의 프롬프트가 곧 구식이 될 이유
프롬프트는 조용히 레거시 UI로 변하고 있습니다. GLM‑4.6V와 같은 모델은 단순히 귀하의 말을 읽는 것이 아니라, 귀하의 화면을 보고, PDF를 해석하며, 100,000개 이상의 혼합된 텍스트와 이미지에서 구조를 추적합니다. 이는 AI에게 "말하는" 방식이 장황한 서술에서 제품 사양에 더 가까운 형태로 변화함을 의미합니다.
단락 긴 요청을 작성하는 대신, 모델에게 분석 대시보드의 스크린샷을 제공하고 “월간 트렌드에 기반해 자동화하고 이상치를 슬랙으로 보내줘.”라고 입력합니다. GLM‑4.6V는 차트 축, 범례, 필터, 심지어 UI 크롬을 검사하여 기본 데이터 모델을 추론할 수 있습니다. 당신의 텍스트는 목표가 되고, 스크린샷은 모델이 실제로 reasoning 하는 맥락이 됩니다.
핵심 기능은 네이티브 다중 모드 함수 호출입니다. 이미지를 OCR 처리하거나 레이아웃을 수동으로 설명할 필요 없이, GLM‑4.6V는 원본 이미지, 도표 또는 문서 페이지를 도구와 에이전트에 직접 전달합니다. 단일 호출로 다음을 묶을 수 있습니다: - 20페이지 스캔한 계약서 - 제품 스크린샷 - 짧은 텍스트 지침
그 패키지는 모델이 "보았던" 내용을 기반으로 코드를 검색, 다시 작성, 실행하거나 외부 API를 트리거할 수 있는 도구 체인을 통해 흐릅니다.
프롬프트 엔지니어링은 복잡한 주문을 다루는 기술로서 구식으로 보이기 시작합니다. 모델이 MRR 위젯을 시각적으로 찾아 숫자를 읽을 수 있을 때, “‘MRR’라는 이름의 상단 오른쪽 카드에서 월별 변화를 식별하라…”라고 드러내어 말할 필요가 없습니다. 어려운 부분은 표현에서 범위 설정으로 전환됩니다: 제약 조건, 데이터 소스, 권한 및 허용 가능한 실패 모드를 정의하는 것입니다.
상호작용은 수다스러운 대화에서 자율 에이전트를 위한 목표 설정으로 전환됩니다. 당신은 피그마 보드를 가리키며 “이 흐름을 작동하는 온보딩 경험으로 바꾸고, 우리 Stripe 샌드박스에 연결해줘.”라고 말합니다. 에이전트는 GLM-4.6V의 비전 스택을 사용하여 레이아웃, 계층 및 문구를 이해한 후, 당신이 모든 단계를 설명하지 않아도 코드 도구, 디자인 시스템 및 배포 파이프라인을 호출합니다.
모델이 공동 시각-텍스트 추론에서 더욱 향상됨에 따라, 프롬프트는 미션 브리프와 더욱 유사해집니다. 당신은 아티팩트(스크린샷, 화이트보드 사진, 대시보드)를 제공하고 간결한 목표를 제시합니다. 시스템은 당신이 보여주는 것과 실행해야 할 것 간의 번역을 처리합니다.
AI 경제가 완전히 뒤바뀌었다.
최고급 다중 모달 AI는 현재 비디오에 손을 대는 사람에게 벌칙을 가합니다. OpenAI, Anthropic, Google의 최전선 API는 토큰당 요금을 부과하며, 비디오 파이프라인은 토큰 수를 폭발적으로 증가시킵니다. 각 프레임이나 샘플링된 주요 프레임이 텍스트가 되고, 각 자막과 기록 청크가 합산됩니다. 1080p 영상 몇 시간을 GPT‑4o나 Claude 3.5 Sonnet을 통해 처리하면 청구서가 수백 달러로 뛰어오르는 것을 목격할 수 있습니다.
GLM‑4.6V는 오픈 웨이트와 공격적인 가격 책정이라는 두 가지 각도에서 문제에 접근합니다. Zhipu AI는 106B 매개변수 클라우드 모델을 서구 경쟁자들보다 훨씬 낮은 가격으로 제공하며, 일부 중국 공급자는 입력 토큰 100만 개당 $0.30 미만, 출력 100만 개당 $0.90이라는 가격을 제시합니다. 감시 피드, UI 기록 또는 고객 지원 화면 캡처에서 수천만 개의 토큰을 처리할 때, 이 차이는 예산 항목이 됩니다.
그런 다음 GLM‑4.6V‑Flash가 있습니다. 이는 로컬 및 엣지 배포를 위해 조정된 9B 매개변수 형제 모델입니다. 팀은 고급 GPU 몇 대 또는 사양이 잘 갖춰진 워크스테이션에서 이를 실행할 수 있으며, 하드웨어에 대해 한 번만 비용을 지불하고 본질적으로 무제한의 스크린샷, PDF 및 다이어그램을 처리할 수 있습니다. 지속적인 작업 부하—보안 카메라, 산업 모니터링, 게임 플레이 분석—에서는 로컬 추론이 호출당 비용 지불에서 고정 비용 인프라로 경제성을 전환합니다.
이 가격 압박은 OpenAI와 Anthropic이 여전히 프리미엄 SaaS 공급자처럼 행동하는 시장에 노크를 합니다. 그들의 멀티모달 등급은 다음을 포함합니다: - 이미지 및 비디오 입력에 대한 토큰당 높은 가격 - 엄격한 사용 제한 - 불투명한 초과 요금 정책
GLM‑4.6V 및 Qwen, LLaVA, NVIDIA NeMo와 유사한 모델들은 또 다른 전략을 제안합니다: 스택을 소유하고 필요할 때만 임대하세요. 이는 대규모의 예측 가능한 작업에서 기존 업체들을 압박하고 독점 API는 "최전선 성능이 필요할 때만" 사용하는 틈새 역할로 전락시킵니다.
더 저렴하고 강력한 비전-언어 모델은 이제 복잡한 AI 시스템을 구축할 수 있는 사람들을 변화시키고 있습니다. 자카르타의 한 스타트업은 7자리 API 예산 없이도 지역 송장과 배송 양식에 GLM-4.6V-Flash를 맞춤 조정할 수 있습니다. 두 명의 독립 스튜디오가 플레이어의 PC에서 전적으로 운영되는 실시간 HUD 및 미니맵을 읽는 인게임 코치를 출시할 수 있습니다.
다중 모달 모델이 접근 가능해지고 충분한 수준이 되면서 제약은 돈에서 상상력으로 옮겨갑니다. 다음 AI 제품의 물결—자율 UI 테스터, 항상 대기 중인 공장 검사자, 문서 원주율 코파일럿—은 더 이상 대규모로 최전선 토큰을 구매할 수 있는 기업에만 국한되지 않습니다.
Nvidia의 조용한 혁명: PC에서 힘을 끌어내다
Nvidia의 최신 로컬 AI 파워를 위한 움직임은 Neotron 3로, 30억 개의 매개변수를 가진 전문가 혼합 언어 모델로 오픈 가중치를 제공합니다. 속도와 효율성을 위해 설계되었으며, 소형 장치 모델과 클라우드 기반 최전선 시스템 간의 간극을 겨냥하고 있습니다. Nvidia는 Neotron 3가 표준 벤치마크에서 GPT-4.1-OSS 및 Qwen 3 30B와 같은 다른 ~30B 모델보다 더 뛰어난 성능을 발휘하며, 실제 배포에 적합할 만큼 가볍다고 주장합니다.
전문가 혼합(Mixture-of-Experts, MoE)은 일반적인 밀집 모델 경제를 뒤집습니다. 모든 토큰에 대해 모든 매개변수를 활성화하는 대신, Neotron 3는 128명의 전문가를 사용하되 토큰당 6명만 활성화합니다. 그래서 316억 개의 매개변수 중 대부분이 특정 단계에서 비활성 상태로 유지됩니다. 이는 중간 크기의 LLM에 가까운 컴퓨팅 자원으로 훨씬 더 큰 모델의 용량을 제공합니다.
자신의 하드웨어에서 강력한 AI를 실행하고 싶다면 아키텍처가 중요합니다. MoE는 Neotron 3가 현대 GPU에서 높은 처리량을 달성하면서도 대화형 사용에 충분히 낮은 지연 시간을 유지할 수 있도록 합니다: 코딩 어시스턴트, 로컬 코파일럿 또는 기계에서 절대적으로 벗어나지 않는 개인 문서 채팅. 여러분은 예측 가능하고 통제 가능한 속도를 위해 약간의 절대적 최첨단 성능을 포기합니다.
개인정보 보호와 주권이 이 변화의 중심에 있습니다. Neotron 3와 같은 모델은 워크스테이션, 엣지 서버 또는 소규모 비즈니스 NAS에서 운영되며, 다음을 처리합니다: - 민감한 계약서 및 이메일 - 소스 코드 및 빌드 로그 - 내부 분석 및 대시보드
어떠한 프롬프트나 임베딩도 공급업체의 클라우드를 통과할 필요가 없습니다. 이는 통합 AI와 같은 기업들이 제시하는 클라우드 전용 "세계 최초 AGI-AGI 가능" 주장과는 극명한 대조를 이룹니다. 이들은 개인 인프라 대신 거대한 중앙 집중 시스템을 홍보합니다; 그 비전을 보려면 Integral AI, 세계 최초 AGI-AGI 가능 모델 발표 - 비즈니스 와이어를 참조하세요.
Neotron 3는 Nvidia가 시장이 다음에 어디로 갈지 생각하는 신호를 전합니다: 단순히 하이퍼스케일 데이터 센터가 아니라, 개인과 소규모 팀이 자신의 조건에서 진지한 모델을 로컬로 실행하는 PC급 AGI 시대의 도구입니다.
GPT-5.2의 놀라운 '경제적 가치'로의 전환
GPT-5.2는 많은 일반 사용자들에게 실망스러운 결과로 다가왔습니다. 소셜 피드에는 그것을 “중간 수준”, “퇴보했다” 또는 “5.1보다 나아진 것이 없다”라고 평가하는 비교 글들이 가득했습니다. 그러나 기업 내부에서는 초기 사용자들이 조용히 다르게 보고했습니다: 지식 작업에서 갑자기 이상하게도 뛰어난 능력을 가진 모델이었습니다.
OpenAI 자체 차트는 이러한 단절을 설명합니다. 학술 기준의 미세한 이득을 추구하기보다는 GPT‑5.2는 경제적으로 유용한 작업 수행 능력을 측정하는 합성 기준인 GDP‑V(국내총생산‑가치)에 초점을 맞추고 있습니다. 이 축에서 OpenAI는 GPT‑5.2가 5.1의 점수를 대략 두 배로 증가시켰다고 주장하며, 이는 그들이 보여준 단일 세대에서의 가장 큰 점프 중 하나입니다.
GDP‑V는 실제로 재무제표에 나타나는 항목을 테스트합니다: RFP 작성, 보고서 구조화, 복잡한 스프레드시트 정리, 모호한 핵심 사항을 임원 준비 완료 프레젠테이션으로 변환하는 것입니다. GPT‑5.2는 이러한 편향을 반영합니다. 이는 원시 브리프에서 PowerPoint 프레젠테이션을 작성하고, Excel에서 데이터를 정리 및 조정하며, 다단계 비즈니스 워크플로를 보다 적은 착각과 손길로 처리하도록 조정되었습니다.
창의적인 글쓰기, 독특한 아이디어 회의, 그리고 개방적인 대화는 대상이 아니었기 때문에 덜 매력적으로 느껴집니다. GPT-5.2를 소설, 팬 아트 프롬프트, 또는 철학적 토론을 위한 더 강력한 GPT-4로 사용하는 사용자들은 이 새로운 성격에 직면하게 됩니다: 더 보수적이고, 더 문자적으로, 더 "컨설턴트"처럼 느껴지며 "공저자"와는 거리가 있습니다. CFO에게는 이것이 기능이지만, 소설가에게는 다운그레이드처럼 느껴집니다.
이 전환은 시장이 어디로 이동했는지를 드러냅니다. 최전선 모델의 훈련 및 운영 비용은 수천만 달러에 달하며, 무료 채팅봇과 잠자리 이야기에서는 이러한 소모 속도를 정당화할 수 없습니다. OpenAI는 GDP에 기여하는 분야인 금융, 컨설팅, 법률, 운영, 기업 소프트웨어 및 내부 자동화에 대해 명확히 최적화하고 있습니다.
전략적 잠금이 형성되고 있는 것을 볼 수 있습니다. 세계적 수준의 모델:
- 1파워포인트 및 보드 팩
- 2엑셀 모델링 및 시나리오 분석
- 3정책, 계약 및 준수 워크플로우
슬롯은 Microsoft 365, 고객 CRM 및 내부 도구에 직접 통합됩니다. GPT-5.2는 일반적인 챗봇 업그레이드라기보다는 “세계 최초의 AGI-AGI 능력” 경쟁이 이제 분기별 수익을 통해 진행된다는 신호입니다.
AI 슈퍼 에이전트의 부상
힘은 원초적인 모델에서 그 주위에 감싸인 슈퍼 에이전트로 이동하고 있습니다. Manis 1.6과 Poetic은 얇은 오케스트레이션, 메모리, 자기 비판의 층이 어떻게 일반적인 LLM을 프롬프트를 기다리는 챗봇이 아니라 자율적인 동료처럼 보이는 시스템으로 변화시킬 수 있는지를 보여줍니다.
Manis 1.6은 기본 모델을 중심으로 여러 도구와 하위 에이전트를 연결함으로써 이를 강화합니다. 요청을 원자적 작업으로 나누고, 각 작업을 특화된 루틴으로 라우팅한 다음, 결과를 통합하여 "이 시장에 대해 조사하고 출시 계획을 작성하라"는 최소한의 인간 개입으로 자동화된 탐색, 클러스터링 및 작성을 포함하는 몇 시간의 작업으로 변환됩니다.
Poetic은 추론의 영역에서 더욱 발전했습니다. 기존의 LLM 위에 구축되어, 새로운 최첨단 모델을 훈련시키는 대신, 시스템이 답변을 확정하기 전에 자신의 가설을 테스트하고 수정하도록 유도하는 영리한 추론 구조와 자체 감사 루프를 추가하여 ARC-AGI 벤치마크를 무너뜨렸습니다.
ARC-AGI는 패턴 매칭에 대해 악명이 높을 정도로 적대적입니다. 이는 작은 시각 퍼즐에 대해 추상적 사고를 요구합니다. Poetic은 기본 모델을 다음과 같은 과정으로 감싸줍니다: - 후보 규칙을 나열합니다. - 각 규칙을 예시에서 시뮬레이션합니다. - 일관성이 없는 가설을 버립니다. - 통과하는 규칙 집합이 나올 때까지 반복합니다.
그 아키텍처는 Poetic의 ARC-AGI 성능을 전형적인 LLM 기준 이상으로 끌어올렸으며, AGI-AGI 가능한 행동은 단순히 더 큰 매개변수 수에서 오는 것이 아니라 "두뇌 주변의 더 나은 두뇌"에서 올 수 있음을 암시합니다. 제품 설계 선택 — 작업을 어떻게 분해하고, 출력을 검증하며, 에이전트가 도구를 호출하도록 하는 방법 — 이 기본 가중치만큼이나 중요해지기 시작합니다.
이것이 “AGI는 제품 디자인에서 나올 가능성이 높다”는 표현이 슬로건처럼 느껴지지 않고 로드맵처럼 느껴지는 이유입니다. 에이전틱 스캐폴딩은 정적 모델을 시스템으로 전환하여 계획하고, 기억하며, 스스로 수정하는 기능을 부여합니다. 이것은 검색 기반 연구 에이전트부터 테스트를 실행하고, 실패를 이분하고, 스스로 회귀를 패치하는 코드 리팩토링 도구에 이르기까지 다양합니다.
사용자들은 이미 이것을 대화가 아닌 자율적인 작업으로 경험하고 있습니다. 시적인 스타일의 에이전트는 벤치마크 슈트와 평가 하네스를 처리하고, 마니스와 같은 플랫폼은 브라우저, CLI, 클라우드 API를 아우르는 여러 시간을 소요하는 워크플로를 관리한 후 최종 보고서, 대시보드 또는 코드베이스 차이를 제공합니다.
GLM-4.6V 및 Neotron 3와 같은 모델에 연결된 이 슈퍼 에이전트는 스크린샷, PDF 및 로컬 파일을 지속적인 지시 없이 시각화하고 읽으며 행동할 수 있습니다. 챗봇 UI는 작업 티켓으로 변모하며, 결과를 설명하면 에이전트가 분해하고 실행하며 감사하고, 실제로 인간의 결정이 필요한 경우에만 당신에게 연락합니다.
AI 금광에서 신호와 노이즈 구분하기
마케팅 부서는 AGI-AGI 기능을 갖춘 모델에 대해 큰 소리로 떠들고 있지만, 엔지니어들은 실제로 워크플로우를 변화시키는 시스템을 조용히 배포하고 있습니다. GLM-4.6V, Neotron 3, 그리고 Poetic와 같은 에이전틱 플랫폼은 모두 같은 방향을 가리킵니다: 실용적이고 자동화된 멀티모달 AI로, 챗봇처럼 행동하기보다는 인프라처럼 작용합니다.
다중 모드 기능은 이제 "이미지를 볼 수 있다"는 것 이상의 의미를 가집니다. GLM-4.6V는 텍스트와 함께 스크린샷, PDF, 다이어그램을 처리하고, 100K+ 토큰에 걸쳐 장기 문맥 추론을 수행하며, UI를 클릭하거나 전체 계약을 파싱하는 에이전트를 구동합니다. 프롬프트는 긴 설명을 단일 고수준 목표로 축소되어 시스템이 스스로 분해합니다.
동시에 효율적인 로컬 모델들이 클라우드 AI의 독점을 깨뜨리고 있습니다. NVIDIA의 Neotron 3는 30B 매개변수 혼합 전문가 모델을 7B에서 끝나던 하드웨어 예산에 맞추어 압축하며, 128명의 전문가 중 토큰당 6명만 활성화됩니다. GLM-4.6V-Flash는 비전-언어 추론을 9B 매개변수 패키지로 압축하여 하이퍼스케일러 GPU 농장 대신 워크스테이션이나 엣지 박스에 배치할 수 있게 합니다.
에이전틱 스택은 이 기초 위에 구축됩니다. Manis 1.6이나 Poetic과 같은 시스템은 여러 모델, 도구 및 검색 파이프라인을 통합하여 맥락을 기억하고, 작업을 예약하며, 앱 간에 작동하는 지속적인 "AI 슈퍼 에이전트"로 구성됩니다. 가치는 기본 모델에서의 단일 IQ 점프보다는 이러한 모델을 도구, 기억 및 자율성에 연결하는 데서 더 크게 발생합니다.
그에 비해 “세계 최초의 AGI”라는 화려한 헤드라인들은 대조적입니다. Integral AI의 세계 최초 AGI-AGI 가능 주장과 여기 프로파일된 스타트업의 유사한 피칭은 주로 검증되지 않은 이야기로 남아 있습니다: 전 구글 베테랑 스타트업, 세계 최초 AGI 모델을 구축했다고 주장. GLM-4.6V의 벤치마크 우승, Neotron 3의 효율성 수치, GPT-5.2의 GDP 가치 집중은 측정 가능하다고 할 수 있습니다.
산업은 인간처럼 모든 작업을 학습할 수 있는 일반 지능과는 거리가 멀다. 대신, “AI를 사용하다”를 “AI가 그냥 했다”로 조용히 전환하는 쌓아진 자동화된 다중 모드 시스템에 훨씬 가까워졌다.
새로운 AI 환경에서의 당신의 다음 움직임
새로운 오픈 소스 멀티모달 스택으로 직접 경험을 쌓아보세요. Ollama나 vLLM을 통해 GLM‑4.6V‑Flash (9B)를 로컬에서 실행하고, SigLIP이나 CLIP과 같은 오픈 비주얼 인코더와 결합하여 스크린샷 에이전트, PDF 리더 및 GUI 봇을 프로토타이핑하세요. 이렇게 하면 긴 비디오나 문서 작업에 대해 $10 이상의 GPT‑5.2 토큰을 소모하지 않고도 작업할 수 있습니다.
개발자들은 채팅 상자가 아닌 파일 중심으로 입력 방식을 재설계해야 합니다. 사용자들이 다음을 드래그할 수 있는 흐름을 구축하세요: - 200페이지 PDF - 피그마 내보내기 - 엑셀 스크린샷 - 짧은 비디오 클립
그렇다면 모델이 레이아웃, 표, 다이어그램을 직접 처리하게 하여 사용자가 텍스트를 복사하여 붙여넣도록 강요하지 않도록 하세요.
기술 리더들은 “하나의 모델, 하나의 프롬프트”라는 생각을 멈추고 모델 오케스트레이션에 대한 생각을 시작해야 합니다. 생산 워크플로우를 위해 저렴한 라우팅 및 분류를 위한 소규모 로컬 모델(30B 파라미터의 Neotron 3)을 연결하고, 어려운 추론을 위한 강력한 클라우드 모델 및 검색, RAG, 코드 실행을 위한 전문 도구들을 활용해야 합니다.
스타트업을 운영한다면, 당신의 차별점은 더 이상 "우리는 GPT-5.2를 사용합니다."가 아닙니다. 당신의 차별점은 능동적 시스템 설계입니다: 당신의 스택이 문제를 어떻게 단계별로 나누고, 도구를 선택하며, 모델을 호출하고, 실패에서 회복하는지입니다. 모든 에이전트에 로깅, 추적 및 단계별 비용을 장착하여 워크플로가 왜 $0.03 또는 $3의 비용이 드는지를 알 수 있도록 하세요.
열정적인 사람들은 프롬프트 엔지니어링을 넘어 의도적으로 연습해야 합니다. AutoGen, CrewAI 또는 오픈 포에틱 스타일 에이전트와 같은 레포를 클론한 다음, 시각을 위해 GLM‑4.6V로 교체하고 텍스트를 위해 로컬 Neotron 3 인스턴스를 사용하여 다중 에이전트 조정이 실제 하중에서 어떻게 작동하는지 확인해 보세요.
텍스트만 입력으로 가정하는 모든 워크플로우를 재고해야 합니다. 계약 검토는 주석이 달린 PDF를 의미하며, 붙여넣은 조항이 아닙니다. 고객 지원은 로그, 스크린샷 및 통화 기록을 의미합니다. 분석은 CSV, 대시보드 및 차트 이미지를 의미하며, 이 모든 것이 하나의 다중 모드 컨텍스트 창에 통합됩니다.
이제 앞서 나간다는 것은 다음을 이해하는 것을 의미합니다: - 비용과 대기 시간에 맞는 올바른 오픈 모델 선택하기 - 도구를 호출하고, 탐색하며, 자율적으로 계획하는 에이전트 설계하기 - 가드레일, 메모리 및 피드백 루프 조정하기
프롬프트 엔지니어링은 시스템을 설계하는 더 큰 작업의 일부분이 된다. 이 시스템은 관찰하고, 읽고, 결정하고, 행동할 수 있다.
자주 묻는 질문
'AGI-가능' 모델이란 무엇인가요?
'AGI 가능' 모델은 기존 데이터셋 없이 자율적으로 새로운 작업을 학습할 수 있는 AI 시스템을 설명하는 용어로, 특히 로봇공학이나 에이전트 환경에서 사용됩니다. 이는 모든 인지 작업에서 인간 수준의 지능을 의미하는 진정한 AGI와는 구별됩니다.
GLM-4.6V는 AI 프롬프팅을 어떻게 변화시키나요?
GLM-4.6V는 텍스트를 넘어서는 변화된 프롬프트를 제공합니다. 원래의 멀티모달 도구 호출 기능을 통해 사용자는 이미지, 문서 및 스크린샷을 직접_context_로 제공할 수 있어 AI가 수동 텍스트 설명 없이 시각 정보를 '보고' 작업할 수 있습니다.
NVIDIA의 Neotron 3와 같은 로컬 LLM은 왜 중요한가요?
로컬 LLM은 개인정보 보호, 속도 및 비용 절감에 중요합니다. 장치에서 실행됨으로써 민감한 데이터가 클라우드로 전송되는 것을 방지하고, 지연 시간을 줄이며, 자주 사용하는 API 기반 토큰 비용을 없앱니다.
Poetic이 ARC-AGI 벤치를 뛰어넘는 것이 가지는 중요성은 무엇인가요?
포에틱의 성공은 돌파구가 단순히 더 큰 모델에 관한 것이 아니라 더 스마트한 아키텍처에 관한 것임을 보여줍니다. 기존의 LLM 위에 사고 및 자기 감사 레이어를 구축함으로써, 절반도 되지 않는 비용으로 우수한 성능을 달성하며 에이전트 구조의 힘을 입증했습니다.