AI 뉴스: DeepSeek 복귀, 아마존 노바 모델 및 Veo 3 제압

요약 / 핵심 포인트

새로운 도전자가 구글의 최고의 비디오 AI를 무너뜨리며 생성 콘텐츠 경쟁에서 큰 변화를 드러냈습니다. 한편, 아마존의 비밀 '노바' 모델은 기업 시장을 장악할 준비를 하고 있으며, 딥시크가 서구에 맞서는 일에 다시 나섰습니다.

AI 경주가 방爆적인 발걸음을 내딛었습니다.

AI 개발이 새로운 전환점을 맞았습니다. 프런티어 모델들은 이제 수년이 아닌 몇 달 만에 출시되며, 한때 전체 연구 주기를 나타냈던 벤치마크는 주말 리더보드 업데이트에서 무너집니다. OpenAI와 Google 간의 두 개의 경쟁으로 보였던 것이 이제는 글로벌 대결로 변모했습니다.

중국의 연구소 DeepSeek가 서구의 안일함을 뒤흔드는 화려한 복귀를 알렸습니다. 바이럴 X 스레드에서 공개된 최신 모델은 코딩 및 추론에서 GPT-4급 점수를 기록하며, 이전 DeepSeek-V3의 효율성 주장과 어우러져 dramatically 낮은 훈련 비용을 주장하고 있습니다. AI "스푸트니크 순간"에 대해 이미 걱정하는 규제 당국 및 방위 기획자들에게, 빠르게 발전하는 중국의 스택은 더 이상 가상의 문제가 아닙니다.

모두가 파라미터 수에 대해 논쟁하는 동안, 아마존은 조용히 생성 모델을 웹의 경제 구조에 통합했습니다. Nova와 Bedrock 브랜드 아래의 새로운 시스템은 모델의 매력보다는 가동 시간, 준수 및 총 소유 비용을 중요시하는 기업을 목표로 하고 있습니다. 아마존은 바이럴 효과를 추구하는 대신 계약 최적화에 집중하며, 수백만 개의 비즈니스에 영향을 미치는 소매, 물류, AWS 워크플로에 AI를 삽입하고 있습니다.

다른 측면에서, 비디오 모델이 시각적 생성 AI의 주도권을 완전히 뒤바꿨습니다. 새로운 경쟁자가 등장했는데, Veo 3와의 출력 비교 클립에서 복잡한 장면, 카메라 움직임, VFX급 샷을 렌더링하여 마치 영화 사전 시각화와 같아 보이도록 합니다. 소셜 피드는 구글 모델이 갑자기 구세대처럼 보이는 나란히 비교 테스트로 가득 차 있습니다.

드러나는 것은 OpenAI와 Google이 AI의 한계를 정의한다는 생각에 대한 다방면의 도전입니다. 중국의 연구소들은 공격적인 비용 효율성을 추구하고, Amazon은 기업 시장을 장악하며, 전문 기업들은 비디오, 로보틱스, 장치 내 "나노" 모델과 같은 틈새 시장을 공략하고 있습니다. AI의 힘은 더 이상 단일 벤치마크 차트나 단일 기업의 키노트에 국한되지 않습니다.

이 새로운 단계는 경쟁처럼 보이기보다는 인재, GPU, 데이터, 유통을 위한 일련의 겹치는 전쟁처럼 보입니다. 누가 이기든 가장 스마트한 모델을 갖는 것뿐만 아니라 사람들이 매일 일하고 창조하며 계산하는 방식에 깊이 통합된 자리를 차지하게 될 것입니다.

딥시크가 돌아왔다—그리고 GPT-4를 겨냥하고 있다

일러스트: DeepSeek가 돌아왔습니다—그리고 GPT-4를 노리고 있습니다.

DeepSeek는 코드, 수학 및 장기적으로의 추론을 위해 조정된 새로운 모델의 물결로 GPT‑4급 영역을 직접 겨냥한 컴백을 이루어냈습니다. 초기 커뮤니티 벤치마크에 따르면, DeepSeek의 최신 플래그십 모델은 코딩 작업에서 GPT‑4 및 Claude 3.5와 동등한 성능을 발휘하며, 더 작은 변형 모델은 GSM8K 스타일의 수학 및 알고리즘적 추론에서 GPT‑4‑mini 스타일 모델을 비용의 일부로 능가하거나 동등한 성능을 보여줍니다.

중국의 가장 공격적인 “오픈-ish” 경쟁자로 자리 잡은 DeepSeek는 오픈 소스 문화와 국가 연계 AI 전략 사이의 이상한 중간 지점을 차지하고 있습니다. 모델 가중치, 상세한 아키텍처 노트 및 토크나이저 사양이 연구 생태계로 유출되지만, 배포는 여전히 중국 콘텐츠 규칙을 강제하는 엄격하게 통제된 API를 통해 이루어집니다.

그 하이브리드 입장은 주요한 지정학적 무게를 가지고 있습니다. 베이징은 OpenAI와 Anthropic과 경쟁할 수 있는 첨단 모델을 원하지만, 동시에 그 시스템이 정치, 역사 및 안보에 대해 무엇을 말할 수 있는지에 대한 결정론적 통제를 원합니다. DeepSeek의 접근 방식은 중국의 AI 거버넌스를 완전히 수출하지 않고 중국의 AI 능력을 효과적으로 수출합니다.

비용 대비 성능에서 DeepSeek는 호기심을 실제 경제적 위협으로 전환합니다. 이전의 DeepSeek-V3 훈련 비용 추정치는 수천만 달러 초중반에 해당하며, 내부자들이 원작 GPT-4의 비용으로 평가하는 것보다 한 차원 낮은 수치입니다. 그러나 여전히 공공 리더보드에서 유사한 추론 점수를 기록하고 있습니다. 추론 효율성도 비슷하게 보입니다: 공격적인 양자화 및 조밀-희박 트릭 덕분에 DeepSeek의 중간 규모 모델은 더 저렴한 GPU와 심지어 고급 소비자 카드에서도 실행될 수 있습니다.

서구의 실험실에겐 이는 주요 방어벽을 약화시킵니다. 만약 30~70B 매개변수를 가진 DeepSeek 모델이 GPT-4 수준의 코딩 성능을 발휘하면서 백만 토큰당 2~3배 저렴하다면, "이 규모를 감당할 수 있는 건 오직 우리뿐"이라는 미국 거대 기업들의 주장은 사라지기 시작합니다. 동남아시아, 중동, 라틴 아메리카의 클라우드 제공업체와 스타트업은 갑자기 미국의 수출 정치에 영향을 받지 않는 신뢰할 수 있는 비미국적 옵션을 가지게 됩니다.

DeepSeek는 여전히 규제의 장단점을 오가고 있습니다. 중국의 생성형 AI 규정은 보안 점검, 데이터셋 제한 및 정치적으로 민감한 콘텐츠에 대한 신속한 삭제를 요구하며, 이는 DeepSeek가 연구에 보다 친화적인 가중치 위에 강력한 조정 레이어를 적용하도록 몰아갑니다. 그 결과, 글로벌 AI 연구를 가속화할 만큼 기술적으로 개방적이지만, 국내 검열자를 만족시킬 만큼 정치적으로 제약된 새로운 유형의 이중 용도 모델이 탄생하게 되었습니다.

아마존의 '비밀' 무기: 노바 모델을 소개합니다.

아마존은 조용히 GPT 스타일 시스템에 대한 자체 솔루션을 구축해왔으며, 이제 그 이름은 노바입니다. 아마존은 바이럴 챗봇을 추구하는 대신, 이 기본 모델들을 AWS의 인프라에 직접 연결하고 있으며, 이미 250만 명의 활성 고객이 이곳에 있습니다.

노바는 아마존 베드락의 중심에 자리잡고 있으며, AI 데모보다 가동 시간과 규정을 더 중요시하는 기업들을 위해 텍스트, 코드, 멀티모달 작업을 지원합니다. 초기 노바 변형은 고객 지원, 문서 분석 및 내부 지식 검색과 같은 사용 사례를 목표로 하며, 모두 AWS 네이티브 인증, 로깅 및 암호화로 안전하게 감싸져 있습니다.

아마존의 강점은 거의 모든 경쟁자가 따라올 수 없는 수직 스택입니다. 맞춤형 Trainium 및 Inferentia 칩이 학습과 추론을 처리하고, AWS 지역이 탄력적인 GPU 클래스 용량을 제공하며, Nova가 정보 계층을 제공하고, Amazon Q와 Q 앱이 이를 실제로 비즈니스 사용자가 클릭할 수 있는 형태로 바꿉니다.

Q는 아마존의 작업 보조 도구이지만, 진짜 핵심은 Q Apps로, 비개발자들이 평범한 언어로 워크플로우를 설명하여 내부 도구를 조립할 수 있게 합니다. HR 팀은 온보딩 봇을 만들고, 재무 팀은 보고서 생성기를 연결하며, 지원 팀은 분류 협력자를 신속하게 구축할 수 있습니다. 이러한 모든 작업은 Nova와 S3 및 Redshift의 기존 기업 데이터 레이크에 의해 지원됩니다.

OpenAI, 구글, 그리고 DeepSeek이 소비자의 마음을 추적하는 동안, 아마존은 조달 부서와 CIO를 목표로 하고 있습니다. 기업 AI 지출은 2030년까지 연간 4천억 달러를 초과할 것으로 예상되며, 아마존은 Nova가 모든 RFP에서 EC2, S3, Lambda 옆의 기본 옵션이 되기를 원합니다.

이 B2B 우선 전략은 AWS가 클라우드 시장에서 승리했던 방식을 반영합니다. 먼저 개발자와 IT 부서에서 시작한 후 천천히 조직의 나머지 부분을 흡수하는 방식입니다. 회사가 내부 검색, 코드 지원 및 분석을 위해 Nova 기반의 Q를 표준화하게 되면, 이를 제거하는 것은 단순히 챗봇을 교체하는 것이 아니라 핵심 작업 흐름을 재구성해야 한다는 것을 의미합니다.

DeepSeek의 높은 효율 모델로의 진출은 DeepSeek-V3.2 릴리스와 같은 업데이트에서 문서화되어 있으며, 소비자 및 오픈 모델 공간이 얼마나 치열해졌는지를 강조합니다. 아마존은 진정한 마진이 지루한 문제들—컴플라이언스 보고서, SAP 통합, 콜센터 스크립트—에 숨어 있다고 보고, 여기서 Nova는 조용히 자리잡고 시간당 청구하며 X에서 트렌드에 오르지 않을 것이라고 예상하고 있습니다.

당신이 놓친 구글의 4.5세대 혁신

구글은 이미 은밀히 뒤에서 작동 중인 제 미니 후속 모델을 가지고 있을지도 모릅니다. X에서 연구자들과 유출자들은 장기 맥락 실험, 초안정 도구 사용 및 구글이 AI 뉴스 요약의 "구글, 메모리를 재고하다" 타임스탬프 시점에서 암시하기 시작한 새로운 메모리 시스템을 지원하는 내부 “4.5세대” 스택을 지속적으로 지목하고 있습니다.

증거는 조각으로 존재합니다: 벤치마크 스크린샷, 로그 스니펫, 그리고 1M 토큰 컨텍스트를 다루며 의미가 무너지는 일이 없는 모델에 대한 보고서들입니다. 일부 테스터들은 GPT-4.1 수준의 추론을 훨씬 더 나은 검색 보강 작업 흐름과 함께 묘사하며, 언어, 코드, 구조화된 데이터 도구 간의 원활한 연결을 강조합니다.

4.5세대는 세 가지 축에서 가장 강력한 성능을 발휘할 것으로 기대됩니다: - 수백 페이지 또는 몇 시간 분량의 전사에 걸친 긴 맥락 추론 - 텍스트, 이미지, 비디오 및 실시간 센서 데이터를 아우르는 다중 모달 융합 - API, 검색 및 코드 실행을 자율적으로 연결하는 고급 도구 사용

구글은 이미 Workspace, Android 및 Search에서 이 스택을 프로토타입으로 선보였습니다. 300페이지 분량의 법률 문서를 읽고, Gmail 스레드와 교차 참조하며, 내부 데이터베이스를 호출하는 전략 문서를 작성하는 Gemini 사이드 패널을 상상해 보세요. 이 모든 작업이 각각의 서비스로 구성된 불안정한 체인 대신 하나의 오케스트레이터 모델 하에서 이루어집니다.

조용한 치명적인 이점은 구글의 연구 진열대에 있습니다. GenCast와 같은 프로젝트는 확산 스타일의 세계 모델이 전통적인 수치 기상 예측을 능가할 수 있음을 이미 보여주었습니다. 이는 슈퍼컴퓨터에서 운영되는 물리학 기반 시스템보다 더 빠르고 저렴하게 고해상도의 10일 예측을 제공합니다.

GenCast는 장난감 데모가 아닙니다: 이는 페타바이트 단위의 역사적 위성 및 레이더 데이터를 수집한 후, 주요 지표인 제곱평균근 오차와 극한 사건 탐지에서 주요 운영 모델을 능가하는 확률적 날씨 경로를 생성합니다. 같은 구조가 교통, 물류, 심지어 로봇 계획에도 적절하게 적용됩니다.

구글은 방대한 데이터와 맞춤형 아키텍처를 최첨단 시스템으로 전환하는 방법을 분명히 알고 있습니다. 열린 질문은 속도입니다. 마운틴 뷰가 OpenAI, 아마존, DeepSeek가 기업 및 소비자 시장의 주목을 확보하기 전에 Gen 4.5 기반 제품을 수십억 사용자에게 출시할 수 있을까요, 아니면 또 다른 신중한 롤아웃의 해가 구글의 최선의 아이디어를 arXiv 논문과 내부 데모에 묻혀 버리게 할까요?

왕이 죽었다: 베오 3가 어떻게 폐위되었는가

AI 비디오의 왕국은 겨우 한 시즌 지속되었습니다. 텍스트-비디오 기준을 최근에 세운 구글의 Veo 3는 이제 6억 명 이상의 사용자를 보유한 짧은 비디오 거대기업인 중국의 Kling의 심각한 도전에 직면해 있습니다. Kling은 실시간 비디오 인프라에서 깊은 전문성을 가지고 있습니다.

Kling의 데모는 X에서 보기 좋을 뿐만 아니라 그 이상의 기능을 합니다. 나란히 나열된 클립들은 더 높은 시간적 일관성을 보여줍니다: 의상, 조명, 소품이 10–20초의 샷 동안 고정되어 있는 반면, Veo 3는 섬세하게 드리프트하며 프레임 사이에서 얼굴을 변형시키거나 배경을 왜곡합니다.

캐릭터의 안정성은 Kling의 가장 뚜렷한 장점일 수 있습니다. 동일한 주인공이 있는 멀티샷 프롬프트—예를 들어, 빨간 재킷을 입은 소녀가 걷고, 자전거를 타고, 카페에 앉아 있는 장면—은 각도에 상관없이 얼굴의 정체성과 액세서리를 유지하는 반면, Veo 3는 종종 주인공을 “재캐스팅”하거나 장면 중간에 머리, 의상, 나이를 변형시킵니다.

물리학은 왕좌에서 물러나는 느낌이 부인할 수 없는 곳이다. 클링은 다음을 다룬다: - 중력과 부피를 따르는 액체 억수 - 시간이 지남에 따라 일관되게 접히고 펄럭이는 천 - 빠른 팬에서도 기하학을 왜곡하지 않는 카메라 이동

Veo 3는 여전히 영화 같은 색감과 구성에서 빛나지만, 빠른 움직임의 장면에서는 흔들리는 물체와 고무 같은 충돌이 드러나며, 이러한 부분을 Kling은 이제 대부분 피하고 있습니다.

이 순간은 중요합니다. 비디오 생성은 AI의 최전선에 위치하고 있습니다: 대규모 모델, 3D 세계 추론, 그리고 극심한 컴퓨팅 비용. 집중된 중국 기업이 여기서 구글을 초월하는 모습을 보는 것은 비전, 로봇 공학, 또는 "세계 모델"과 같은 모든 최전선이 더 이상 미국의 대형 연구소에만 귀속되지 않음을 알리는 신호입니다.

크리에이터 경제에 대한 영향은 빠르게 다가옵니다. Kling 수준의 도구들은 독립 유튜버와 틱톡크들이 VFX 팀, 모션 캡처 장비, 그리고 5자리 예산이 필요했던 장면을 미리 시각화하거나 직접 합성할 수 있게 하여, 대본과 화면 사이의 격차를 줄입니다.

VFX 회사들은 이제 이중의 딜레마에 직면해 있습니다. 스튜디오는 개념 패스와 배경 판을 위해 Kling 및 Veo 3와 같은 모델을 사용할 것이며, 고객들은 6주간의 CG 시퀀스가 주말의 프롬프트 엔지니어링과 정리 작업보다 왜 더 비싼지 물어보기 시작합니다.

증가하는 현실감은 또한 합성 미디어의 위험을 더욱 강화합니다. 시간적 일관성과 물리 법칙을 정확히 실현한 모델은 딥페이크를 훨씬 더 알아차리기 어렵게 만들어, 특히 빠른 컷의 소셜 클립에서는 더욱 그렇습니다. 이는 플랫폼과 규제 당국이 워터마크, 출처 기준, 그리고 더욱 공격적인 탐지 기술 경쟁으로 나아가게 만듭니다.

미스트랄의 빅 쓰리 침묵의 공격

미스트랄은 측면에서 계속 공격하고 있습니다. OpenAI, 구글, 아마존이 주요 전투에서 싸우는 동안, 파리 스타트업은 최신 시스템에 근접하는 성능을 유지하면서 적은 하드웨어로 작동하는 오픈 웨이트 모델을 조용히 출시하고 있습니다.

최신 출시작인 Mistral 3는 그러한 플레이북을 확장합니다: 약 120억~400억 개의 파라미터 모델로 구성된 가족으로, 코드, 수학 및 다국어 작업에서 GPT-4급 성능에 접근하면서 단일 고급 GPU에 편안하게 적합합니다. 이 회사는 MMLU, GSM8K, HumanEval과 같은 벤치마크에서 경쟁력 있는 점수를 주장하지만, 훨씬 낮은 추론 비용으로 가능하다고 합니다.

미국의 거대 기업들이 API 전용 접근 방식을 밀고 나가는 동안, 미스트랄은 다운로드하고 미세 조정하며 자체 호스팅할 수 있는 모델에 두 배로 집중하고 있습니다. 기업들은 자체 VPC 내에서 오픈 웨이트 미스트랄 3 변형을 배포하여 데이터 거주 규정을 준수하고, 민감한 프롬프트를 불투명한 미국 통제 스택을 통해 전송하는 것을 피할 수 있습니다.

그 전략은 API 종속성을 직접 겨냥합니다. 단일 하이퍼스케일러로부터 토큰 단위로 인텔리전스를 임대하는 대신, 기업들은 미스트랄 체크포인트를 표준화한 후 다음과 같이 이동할 수 있습니다: - 온프레미스 클러스터 - EU 클라우드 제공업체 - 엣지 및 장치 내 배포

효율성은 또 다른 무기입니다. 미스트랄의 전문가 혼합과 긴밀한 CUDA 커널 덕분에 120억 개 매개변수를 가진 모델이 고객 지원 요약부터 코드 검토까지 실제 작업에서 훨씬 더 큰 LLM과 경쟁할 수 있습니다. 많은 팀에게 "충분히 좋고 저렴하며 통제 가능한" 것이 "조금 더 똑똑하지만 비용이 10배 더 드는" 것보다 낫습니다.

그 결과, 미스트랄은 강력한 성능이 필요하지만 데이터를 미국이나 중국의 클라우드로 전송할 수 없는 유럽 은행, 산업 기업 및 정부의 기본 선택으로 조용히 부상하고 있습니다. GPT-4급 API의 가격에 부담을 느낀 작은 미국 스타트업들도 같은 길을 따르고 있습니다.

Enjoying this? Get one like it in your inbox each morning.

one email a day · unsubscribe in two clicks · no third-party tracking

미스트랄은 또한 AI에서 떠오르는 "제3의 세력"을 형성하고 있습니다: 개방형 모델 연구소, EU 규제 기관, 클라우드 제공업체들로 구성된 느슨한 연합으로, 보다 분산된 생태계를 원하고 있습니다. 미국과 중국의 폐쇄형 플랫폼으로 나뉘는 세계 대신, 미스트랄은 유럽의 개방 지향적 중심을 제공합니다.

이 변화를 주목하는 이들에게, 미스트랄이 작성한 미스트랄 3에 대한 글은 선언문처럼 읽힌다: 거의 독점적인 성능, 완전한 검토 가능성의 가중치, 그리고 오픈 모델이 진정한 AI 인프라의 핵심에 자리 잡을 것이라는 로드맵.

'나노' 혁명: 당신의 전화기에 있는 AI

나노 모델은 AI의 존재하는 장소를 조용히 재정의하고 있습니다. 먼 데이터 센터에 신호를 보내는 대신, 디바이스 내 모델이 직접 사용자의 전화기의 NPU, GPU 또는 CPU에서 실행되어 수십억 개의 파라미터를 몇 백 메가바이트 이하의 크기로 압축합니다.

구글의 제미니 나노는 분위기를 설정했습니다: 레코더에서 요약 기능, 스마트 응답, 그리고 픽셀폰에서의 기기 내 스팸 탐지를 지원하는 컴팩트 모델입니다. 애플은 기기 내 애플 인텔리전스 기능을 소개하며, 작은 모델과 더 큰 모델을 혼합하여 프라이빗 클라우드 컴퓨트 스택에서 더 무거운 작업을 처리했습니다.

하드웨어가 마침내 따라잡았습니다. 퀄컴의 스냅드래곤 X 엘리트와 애플의 M 시리즈 칩은 40+ TOPS의 NPU 성능을 제공하여, 10억에서 30억 개의 파라미터 모델을 대화 속도로 실행할 수 있습니다. 이러한 변화는 네트워크에 의존하지 않고도 음성 비서, 번역, 비전 작업에 대해 낮은 지연 시간과 50 ms 이하의 반응 속도를 현실적으로 가능하게 합니다.

프라이버시는 더 이상 각주가 아니라 기능이 됩니다. 사진 편집, 음성 명령, 키보드 예측이 기기를 떠나지 않을 때, 공격 표면이 줄어들고 규제 기관이介입할 이유가 줄어듭니다. 기업들은 미국이나 EU 클라우드를 통해 데이터를 전송하지 않고도 기밀 이메일이나 계약서를 로컬에서 요약하는 전화기를 상상할 수 있습니다.

생태계 전쟁은 이제 당신의 주머니로 직결됩니다. 구글은 안드로이드 시스템 서비스에 제미니 나노를 통합하고; 애플은 자사 모델을 시리, 사진, 메모에 연결하며; 마이크로소프트는 종종 NPU와 ONNX 런타임을 통해 윈도우, 코파일럿, 서피스 장치에 소형 모델을 배포합니다.

일상적인 앱은 빠르게 변화할 가능성이 있습니다. 메시징 클라이언트는 다음과 같은 기능을 실행할 수 있습니다: - 실시간 톤 수정 - 자동 번역 - 스마트 답변 생성

모든 것이 비행 중에 완전히 오프라인 상태에서 발생할 수 있습니다.

카메라 및 사진 앱이 다음 차례로 보입니다. 클라우드 회전 후가 아니라 미리보기 자체에서 생성적 객체 제거, 배경 교체 및 스타일 전환을 제공하는 전화기를 기대하세요. 비디오 캡처는 녹화하는 동안 실시간 자막, 장면 탐지 및 촬영 제안까지 받을 수 있습니다.

지연 시간이 사라지면 어시스턴트의 성격도 변화합니다. 100ms 이내에 응답하고 화면의 맥락을 추적하며 지하철에서 작동하는 음성 비서는 챗봇처럼 느껴지기보다는 시스템 수준의 감각 기관처럼 느껴질 것입니다.

로봇 반란이... 어색해진다

로봇들이 AI 파티에 계속 난입하고 있으며, 여전히 방 안에서 가장 혼란스러운 손님들입니다. 세련된 하이라이트 영상은 휴머노이드들이 창고를 달리고 세탁물을 개는 모습을 보여줍니다. 반면에, 원본이며 편집되지 않은 영상 속에서는 그들이 문 앞에서 주저하고, 머그컵을 잘못 잡거나, 인간이 화면을 가로지를 때 얼어붙는 모습이 담겨 있습니다.

Figure 01, Tesla Optimus, 및 Agility Robotics의 Digit와 같은 인간형 플랫폼은 이제 온보드에서 또는 5G를 통해 대규모 언어 모델을 실행합니다. 다중 모드 비전 스택과 결합되어 “두 번째 선반에서 파란 드라이버를 집어 들고 샘에게 전달하라”는 명령을 해석하고 하드코딩된 스크립트 없이 다단계 작업을 계획할 수 있습니다.

Figure의 OpenAI 모델 데모에서는 한 작업자가 작업 공간에 대해 자연스럽게 질문을 하였고, 로봇은 도구를 식별하고 자신이 본 것을 설명했습니다. Sanctuary AI의 Phoenix와 Apptronik의 Apollo는 유사한 “범용” 행동을 제안합니다: 하나의 몸, 여러 작업, LLM, 의미적 매핑 및 강화 학습에 의해 구동됩니다.

현실은 그런 모델들이 물리학을 만날 때 드러납니다. 로봇은 조명이 바뀌거나, 유광 바닥에서 마찰을 잘못 판단하거나, “파란 컵”이 시리얼 박스 뒤에 숨어 있는 복잡한 장면을 잘못 해석할 경우 물체를 떨어뜨립니다. 보스턴 다이내믹스의 유명한 아크로바틱 로봇 아틀라스도 한 번의 발판 추정이 잘못될 경우 카메라 밖에서 종종 넘어지곤 합니다.

연구자들은 이유가 있어서 실패 모음집을 계속 게시합니다. 언어 모델은 존재하지 않는 서랍을 환각하며, 이해도가 높은 계획자는 칼을 날로 잡고, 내비게이션 스택은 로봇을 유리 벽으로 보내고, 비전 모델은 이를 "열린 공간"으로 분류합니다. 각 실수는 현재의 인식 및 계획 파이프라인이 실험실 품질 환경 밖에서 얼마나 취약한지를 드러냅니다.

구체적인 AI의 옹호자들은 이러한 실수들이 필요하다고 주장합니다. 그 주장은: 진정한 AGI는 테이블에 부딪히고, 관절의 토크를 느끼며, “부드럽게 밀기”나 “너무 뜨거움”과 같은 추상적 토큰을 센서 데이터에 기반하여 해석할 수 있는 몸이 필요하다는 것입니다.

회의론자들은 시뮬레이션된 세계와 방대한 다중모드 코퍼스가 충분할 수 있다고 반박합니다. 그들은 수십억 개의 비디오 프레임과 물리적 요소가 풍부한 게임 엔진으로 훈련된 "세계 모델"을 지적하며, 이를 통해 에이전트들이 실제 그리퍼를 한 번도 파손하지 않고 거의 무한에 가까운 생애를 경험할 수 있다고 주장합니다.

대부분의 실험실은 이제 헤지 전략을 사용하여 두 가지를 모두 수행합니다. 휴머노이드 플릿은 실제 상호작용 데이터를 수집하는 반면, 병렬 에이전트는 포토리얼리스틱 시뮬레이션에서 훈련합니다. 시뮬레이션에서 실제로의 전이(sim-to-real transfer) 및 정책 증류(policy distillation)와 같은 기술을 활용하여 완벽한 가상 성능과 어색하고 느리며 매우 인간처럼 보이는 로봇 간의 격차를 좁히려 합니다.

지정학적 AI 전장 열기를 더하다

현재 지정학은 모델 가중치 안에 존재합니다. DeepSeek의 부활, 아마존의 노바 추진, 구글의 4.5세대 작업, 미스트랄의 오픈 웨이트 공격은 하나의 이야기를 형성합니다: 국가와 블록이 누군가가 미래를 소유하기 전에 AI 스택을 강화하기 위해 경쟁하고 있습니다.

중국의 전략은 거의 교과서에 나오는 산업 정책처럼 보인다. DeepSeek, Zhipu, Baidu, Alibaba는 보조금을 지원받는 컴퓨팅 자원으로 GPT-4급 모델을 훈련시키고 있으며, 이는 GPU에 대한 수출 통제와 화웨이의 Ascend 라인에 의한 국내 반도체 공세에 의해 뒷받침되고 있다. Hugging Face의 DeepSeek-V3.2와 같은 프로젝트는 미국의 제재 하에서도 중국 연구소들이 얼마나 빠르게 발전할 수 있는지를 보여준다.

유럽은 다른 방식으로 접근합니다: 규제와 오픈 모델을 활용합니다. EU AI 법안은 “시스템 위험” 모델 및 투명성에 대한 엄격한 규제를 통해 최전선 출시를 지연시키지만, Mistral 3 및 Llama 클래스 포크와 같은 오픈 가중치 시스템으로 에너지를 흡수합니다. 브뤼셀은 상호 운용성, 표준화 및 개인 정보 보호 보장이 모델 자체만큼이나 가치 있는 수출 제품이 될 것이라고 예측하고 있습니다.

미국의 힘은 여전히 민간 기업에 집중되어 있습니다. OpenAI, Google, Amazon, Meta, 그리고 Anthropic은 대부분의 고급 TPU, GPU 및 네트워킹 용량을 통제하고 있으며, 이는 종종 수직 통합된 클라우드를 통해 이루어집니다. 이러한 집중은 그들이 수십만 개의 H100과 TPU로 측정되는 클러스터에서 4.5세대 규모의 실험, 노바급 기업 모델, 그리고 Veo 3 후속 모델을 구현할 수 있도록 합니다.

“AI 주권”은 새로운 “에너지 독립성”이 되었습니다. 정부는 이제 다음 세 가지를 확보하기 위해 분주하게 움직이고 있습니다: - 첨단 노드를 위한 국내 또는 동맹 파운드리 (TSMC, 삼성, 인텔) - 장기 GPU 및 가속기 할당 - 최고 ML 연구자 및 로봇 공학자를 위한 이민 경로

규제가 속도를 결정합니다. 중국의 생성적 AI 규칙은 엄격한 콘텐츠 통제와 보안 검토를 요구하여 일부 출시를 지연시키지만 검열 및 산업 자동화와 같은 국가 우선사항에 모델을 맞추도록 합니다. 미국 규제 당국은 반독점, 수출 통제 및 소프트 법적 안전 프레임워크에 의존하여 빠른 배포를 허용하지만 몇몇 기업에 권력을 집중시킵니다.

유럽의 규제는 양면성을 지닌다. 미스트랄은 강력한 오픈 모델을 배송할 수 있지만, 규제 준수 비용은 작은 스타트업들이 런던, 두바이 또는 샌프란시스코로 이전하게 만든다. 그 결과, 중국은 통제를 최적화하고, 유럽은 거버넌스를 최적화하며, 미국은 규모를 최적화하는 세 가지 속도의 세계가 형성되며, 모든 새로운 모델은 협상 카드가 된다.

당신의 다음 직업은 대체되는 것이 아니라 AI로 지원받을 것입니다.

일자리는 좀처럼 하룻밤 사이에 사라지지 않으며, 오히려 작업으로 분할되고 조용히 재편성됩니다. AI의 새로운 물결—DeepSeek의 코드 엔진, 아마존의 노바 모델, 구글의 소문 속 제너레이션 4.5, Veo 3의 비디오 후속작, 그리고 그 바이럴 나노 모델들은 전체 직업이 아니라 특정 작업을 정밀하게 겨냥하고 있습니다.

회계사, 변호사, 분석가들은 조정, 계약 검토, 보고서 초안 작성과 같은 힘든 작업을 Nova 또는 Gemini-class 시스템에서 작동하는 코파일러에게 맡길 것입니다. 편집자와 유튜버는 Veo 3 경쟁자와 Runway 또는 Freepik의 도구를 활용하여 첫 번째 컷, VFX 및 B-roll을 만들고, 그 후에는 취향, 이야기 및 배급에 더 많은 시간을 쏟을 것입니다.

전화에서 "나노" 모델은 30억에서 80억 개의 매개변수 이하로 작동하며, 키보드, 카메라, 노트 앱 안에 자리 잡을 것입니다. 이들은 회의를 실시간으로 요약하고, 발송 버튼을 누르기 전 이메일을 다시 작성하며, 클라우드에 접속하지 않고도 30초 스크린 녹화에서 문서를 자동 생성할 수 있습니다.

기업 스택은 하나의 거대한 GPT 스타일의 두뇌처럼 보이기보다는 전문화된 도구 상자처럼 보일 것입니다. 하나의 워크플로우는 다음과 같이 연결될 수 있습니다: - 검색 및 추론을 위한 도메인 조정된 노바 모델 - 코드 생성 및 리팩토링을 위한 딥시크 스타일 모델 - 훈련 클립 또는 광고를 위한 Veo 3를 뛰어넘는 비디오 모델 - 보안된 오프라인 개인화를 위한 온디바이스 나노 모델

이 변화는 “AI가 내 일을 대체할 것이다”라는 생각을 “AI가 내가 일을 할 때 사용하는 모든 탭에 들어갈 것이다”로 전환합니다. 맥킨지의 추정에 따르면 현재 업무의 60–70%가 어느 정도 자동화 가능성을 가지고 있지만, 현재 기술로 완전히 자동화할 수 있는 역할은 극히 일부에 불과합니다. 업무와 일의 차이는 인간의 판단, 취향, 그리고 책임감이 여전히 지배하는 영역입니다.

생존 전략은 잔인할 정도로 간단해 보입니다: 이 자료를 직접 다뤄보세요. 무료 tier의 Nova 또는 Gemini 인스턴스를 시작하고, 코드 리뷰를 위해 DeepSeek를 사용해 보세요. Ollama나 LM Studio를 통해 장치 내 모델을 설치하고, Runway나 Kling으로 클립의 스토리보드를 작성하세요.

AI를 1990년대 엑셀처럼 처음에는 귀찮고 나중에는 필수불가결한 존재로 대하는 근로자들이 주도적인 역할을 할 것입니다. 그 외의 모든 사람들은 기계와 소통하는 법을 배우는 지루한 작업을 한 누군가에게 지시를 받게 될 것입니다.

자주 묻는 질문들

DeepSeek의 새로운 AI 모델은 무엇인가요?

DeepSeek는 DeepSeek-V3와 같은 매우 효율적이고 강력한 모델을 출시했습니다. 이 모델들은 코딩과 수학에서 뛰어난 성능으로 알려져 있으며, 기존의 GPT-4와 같은 모델에 도전하면서 훈련 비용은 훨씬 낮습니다.

아마존의 '비밀' 노바 AI 모델은 무엇인가요?

노바 패밀리는 AWS 베드락을 통해 제공되는 아마존의 독점적인 기초 모델입니다. 이들은 기업 사용을 위해 설계되었으며, 보안, 맞춤화, 기업 데이터 시스템과의 통합에 중점을 두고 있어 아마존의 B2B 우선 AI 전략을 나타냅니다.

구글의 Veo 3을 능가한 AI 모델은 무엇인가요?

최근 중국 기술 기업인 쿼이쇼우의 AI 비디오 모델 클링의 시연은 복잡한 장면에서 뛰어난 시간적 일관성과 물리적 사실성을 보여주었으며, 많은 전문가들은 그것이 구글의 Veo 3를 능가했다고 말하고 있습니다.

'나노' AI 모델이 중요한 이유는 무엇인가요?

나노 모델은 휴대폰과 노트북 같은 기기에서 직접 실행되도록 설계된 작고 효율적인 AI입니다. 이들은 클라우드를 필요로 하지 않고 실시간 번역 및 스마트 사진 편집과 같은 기능을 지원하며, 프라이버시, 속도 및 오프라인 기능에서 상당한 이점을 제공합니다.

Found this useful? Share it.

AI Reputation Report

What AI knows about you.

ChatGPT, Perplexity, Gemini, Claude & Grok are already answering questions in your category. Type your site, see who they name — you, or your competitor. Free preview.

Check my sitefree preview

One short daily email of tools worth shipping. No drip funnel.