요약 / 핵심 포인트
Xiaomi는 표준 GPU에서 초당 1,000개 이상의 토큰을 생성하여 GPT-4를 능가하는 AI 모델을 출시했습니다. '모델-시스템 공동 설계'의 이러한 혁신은 실시간 AI 애플리케이션을 근본적으로 변화시킬 수 있습니다.
천 토큰 장벽이 깨지다
Xiaomi는 시스템 파트너 TileRT와 협력하여 1조 개 매개변수 Mixture-of-Experts (MoE) AI 모델인 **MiMo V2.5 Pro UltraSpeed**를 공개했습니다. 이 새로운 경쟁자는 대규모 언어 모델 추론 속도에 대한 이전 벤치마크를 깨뜨립니다. 주요 주장은 초당 1,000개 이상의 토큰으로 텍스트를 생성하며, 일부 시연에서는 거의 1,200 TPS에 달했습니다.
이를 관점에서 보면, GPT-4 또는 Claude 4 Opus와 같은 현재 최첨단 모델은 일반적으로 초당 약 50-60개의 토큰을 제공합니다. 이는 복잡한 작업에서 눈에 띄는 추론 지연을 초래하는 경우가 많습니다. MiMo V2.5 Pro UltraSpeed의 성능은 15~20배 증가한 놀라운 수치이며, 실시간 AI 상호작용 및 기능의 실제 한계를 근본적으로 재정의하는 엄청난 도약입니다.
이러한 성과를 특히 파괴적으로 만드는 것은 놀랍도록 적은 하드웨어 점유율입니다. 특수 맞춤형 실리콘이나 대규모 데이터 센터에 의존하는 대신, 이 1조 개 매개변수 거대 모델은 표준적이고 쉽게 구할 수 있는 인프라에서 효율적으로 작동합니다. 단 8개의 범용 GPU를 갖춘 단일 서버에서 실행되며, 광범위한 배포를 위한 전례 없는 수준의 모델-시스템 공동 설계 및 최적화를 보여줍니다.
3계층 속도 스택 내부
Xiaomi의 MiMo V2.5 Pro UltraSpeed는 "극단적인 모델-시스템 공동 설계"를 통해 초당 1,000개 이상의 토큰을 생성하며, 세 가지 동기화된 각도에서 지연 시간을 해결합니다. 첫 번째 계층은 1조 개 매개변수 Mixture-of-Experts 모델의 중요한 병목 현상인 메모리 대역폭을 다룹니다. Xiaomi는 MoE Expert 매개변수를 4비트로 압축하는 MXFP4 Quantization을 배포했습니다. 이는 메모리 압력을 크게 완화하는 동시에 Quantization-Aware Training (QAT)은 핵심 라우팅 계층에서 더 높은 정밀도를 유지하여 모델의 거의 동일한 정확도를 보존했습니다.
둘째, 모델은 DFlash speculative decoding을 통해 토큰 예측을 근본적으로 변경했습니다. 토큰을 하나씩 추측하는 표준 방식과 달리, DFlash는 병렬 순방향 패스를 통해 숨겨진 토큰 블록 전체를 동시에 예측합니다. 이를 통해 모델은 "엄청난 8개 토큰 도약"을 할 수 있습니다. 코딩 작업의 경우, 주 모델은 DFlash가 추측한 8개 토큰 중 평균 6.3개를 수용하여 출력을 극적으로 가속화합니다.
마지막으로, 세 번째 계층은 GPU 실행에 내재된 마이크로초 수준의 일시 중지를 제거합니다. Xiaomi의 시스템 파트너인 TileRT는 GPU에 상주하는 persistent GPU kernel 런타임을 개발했습니다. 워프 특수화를 사용하여 하드웨어 섹션에 영구적인 역할을 할당하여 동시 데이터 이동, 계산 및 통신을 가능하게 합니다. 이는 실행 파이프라인이 문자 그대로 멈추지 않고, 탁월한 속도를 위한 지속적인 추진력을 유지하도록 보장합니다.
실제 테스트: 엄청난 속도, 취약한 코드
Xiaomi의 MiMo V2.5 Pro UltraSpeed는 통제된 테스트에서 놀라운 원시 처리량을 보여줍니다. 어려운 LeetCode 챌린지에서 Mixture-of-Experts 모델은 초당 3,451개의 토큰이라는 경이로운 최고치를 기록하며, 1조 개 매개변수 모델에서는 전례 없는 속도로 복잡한 코드를 생성했습니다. 또 다른 인상적인 시연에서는 1분 이내에 기능적인 Three.js 게임을 빠르게 구축하여 프롬프트를 놀라운 속도로 작동하는 애플리케이션으로 변환하는 능력을 보여주었습니다.
하지만 이 엄청난 속도에는 종종 상당한 주의사항이 따릅니다. 더 복잡하고 여러 단계를 거치는 작업을 처리할 때, MiMo V2.5 Pro UltraSpeed는 치명적인 오류를 자주 보였습니다. 예를 들어, 포괄적인 Khan Academy 스타일의 수학 설명 웹페이지를 생성하려는 시도는 출력을 멈추게 하고 컨텍스트를 완전히 상실시켜, 단 몇 분 만에 생성을 완전히 중단시켰습니다. 심지어 단순화했을 때도, 결과 코드는 종종 기능이 손상되어 초기 섹션만 안정적으로 작동하고 이후 구성 요소는 작동하지 않거나 비어 있었습니다.
MiMo V2.5 Pro UltraSpeed는 순수한 생성 속도를 명확히 우선시하며, 토큰 처리량에서 독특한 공학적 위업을 보여줍니다. 좁고 고속의 코딩 작업에서 그 성능은 비할 데 없지만, 전반적인 기능과 신뢰성은 Claude Opus 또는 GPT-4와 같은 최첨단 모델의 미묘한 이해나 일관된 출력에 아직 미치지 못합니다. 이러한 절충은 지속적이고 복잡한 추론보다는 속도에 초점을 맞춘 AI 개발의 다른 길을 강조합니다. 기본 아키텍처 및 성능에 관심 있는 분들을 위해 더 자세한 내용은 Xiaomi MiMo Home에서 확인할 수 있습니다.
'모델-시스템 공동 설계'가 판도를 바꾸는 이유
본질적으로 MiMo V2.5 Pro UltraSpeed의 엄청난 속도는 극단적인 모델-시스템 공동 설계에서 비롯됩니다. 이 철학은 모델의 아키텍처와 기본 하드웨어 런타임을 동시에 세심하게 최적화하여 모든 구성 요소에서 최고 성능을 끌어내는 것을 포함합니다. 이것이 Xiaomi가 1조 개의 매개변수를 가진 Mixture-of-Experts 모델이 표준 하드웨어에서 마이크로초 속도로 텍스트를 생성하도록 만든 방법입니다.
이러한 통합 접근 방식은 고가의 전문 AI 가속기 시장에 근본적인 도전을 제기합니다. 맞춤형 실리콘 대신, Xiaomi와 TileRT는 8개의 범용 GPU를 장착한 단일 표준 서버에서 전례 없는 초당 1,000개 이상의 토큰 추론을 시연했습니다. 이는 기존 하드웨어 잠재력을 극대화하여 훨씬 저렴한 비용으로 최첨단 AI 기능에 대한 접근을 민주화합니다.
그 결과로 나타나는 밀리초 지연 시간은 이전에는 이론적인 논의에만 국한되었던 새로운 종류의 애플리케이션을 가능하게 합니다. 여기에는 다음이 포함됩니다: - 시장 변화에 즉시 반응하는 실시간 거래 알고리즘 - 몇 초 내에 상용 가능한 코드를 생성하는 자율 코딩 에이전트 - 거래 속도로 작동하여 손실 발생 전에 방지하는 즉각적인 사기 탐지 시스템
이러한 패러다임의 변화는 미래의 AI 혁신이 단순히 더 크고 더 전문화된 칩에만 의존하는 것이 아니라, 전체 시스템 스택에 걸쳐 더 스마트하고 효율적인 통합에 의존할 수 있음을 시사합니다.
자주 묻는 질문
Xiaomi MiMo V2.5 Pro UltraSpeed는 무엇인가요?
Xiaomi와 TileRT가 개발한 1조 개의 매개변수를 가진 Mixture-of-Experts AI 모델로, 표준 범용 하드웨어에서 초당 1,000개 이상의 토큰으로 텍스트를 생성할 수 있습니다.
MiMo UltraSpeed 모델은 어떻게 그렇게 빠른 속도를 달성하나요?
'극단적인 모델-시스템 공동 설계'라는 세 부분으로 구성된 전략을 사용합니다: 메모리 사용량을 줄이기 위한 MXFP4 quantization, 토큰 블록을 병렬로 예측하는 DFlash speculative decoding, 그리고 하드웨어 지연 시간을 제거하는 TileRT persistent GPU kernel입니다.
MiMo UltraSpeed 모델을 실행하는 데 필요한 하드웨어는 무엇인가요?
보고된 속도는 전문적이거나 맞춤 제작된 AI 하드웨어가 아닌, 8개의 범용 GPU를 장착한 단일 표준 서버에서 달성되었습니다.
MiMo UltraSpeed 모델은 GPT-4 또는 Claude Opus와 같은 모델만큼 유능한가요?
매우 빠르지만, 테스트 결과 현재 한계가 있음이 나타났습니다. 복잡한 작업에서 손상되거나 불완전한 출력을 생성할 수 있으며, 이는 순수한 속도와 선도적인 최첨단 모델의 추론 능력 사이의 절충을 나타냅니다.
