DiffusionGemma: Google의 AI, 초당 1,000+ 토큰 속도 달성

로컬 LLM이 대부분 유휴 상태인 이유

대부분의 대규모 언어 모델(LLM)은 autoregressive 원칙에 따라 왼쪽에서 오른쪽으로 한 번에 하나의 토큰씩 텍스트를 생성합니다. 이 순차적인 프로세스는 모델이 단어를 작성한 다음 작성된 모든 것을 평가하여 다음 단어를 예측한다는 것을 의미합니다. 상업용 서버의 경우, 수백 명의 사용자를 일괄 처리하고 모델 가중치를 한 번 로드하여 256명의 사용자에게 동시에 서비스를 제공함으로써 이러한 비효율성을 완화합니다.

그러나 로컬 LLM 배포는 심각한 병목 현상에 직면합니다. 바로 memory-bound라는 점입니다. 로컬 GPU는 대부분의 작동 시간을 적극적으로 계산하는 대신 메모리에서 모델 가중치가 로드되기를 기다리는 데 보냅니다. 방대한 양의 가중치를 로드하고, 하나의 토큰에 대해 미미한 계산을 수행한 다음, 다음 토큰에 대해 주기를 반복하기 전에 유휴 상태가 되어 값비싼 하드웨어가 대부분 활용되지 않습니다.

Google DeepMind의 DiffusionGemma는 이를 극복하기 위해 근본적으로 다른 패러다임을 도입합니다. 기존의 "256명의 사용자를 위한 하나의 토큰" 접근 방식 대신, DiffusionGemma는 무작위 자리 표시자 토큰, 즉 "노이즈" 캔버스에서 시작하여 단일 사용자를 위해 256개의 토큰을 한 번에 모두 생성합니다. 그런 다음 모든 위치를 동시에 일관된 텍스트로 정제하여 GPU에 상당한 계산 부하를 제공하여 memory-bound에서 compute-bound로 전환하고, 이론적으로 초당 1,000 토큰 이상의 속도를 가능하게 합니다.

이미지 AI의 기술을 차용하다

DiffusionGemma는 텍스트를 순차적으로 생성하는 대신 이미지 AI의 기술을 차용합니다. 즉, 본질적으로 "노이즈"인 무작위 자리 표시자 토큰 캔버스에서 시작합니다. 이미지 확산 모델이 노이즈가 있는 픽셀을 일관된 그림으로 정제하는 것과 매우 유사하게, DiffusionGemma는 여러 bidirectional passes를 통해 이 텍스트 노이즈를 의미 있는 출력으로 반복적으로 변환합니다. 이 병렬 처리는 모델이 전체 출력을 동시에 작업할 수 있도록 하여 한 번에 한 단어씩 생성하는 것과는 근본적으로 다른 접근 방식입니다.

Google DeepMind는 이 개념을 텍스트에 적용하기 위해 Uniform State Diffusion을 도입했습니다. 여기서는 무작위로 교체된 단어가 "노이즈"로 간주됩니다. 훈련 중에 실제 단어는 무작위 단어로 대체되며, 모델은 이러한 손상을 식별하고 수정하는 방법을 학습합니다. 이 방법은 중요한 기능을 가능하게 합니다. 즉, 모델은 생성 프로세스의 어느 시점에서든 캔버스에 있는 모든 토큰을 재평가하고 수정할 수 있습니다.

이는 토큰이 단순히 비워지는 Masked Diffusion과 같은 더 간단한 방법과 극명하게 대조됩니다. Masked Diffusion은 심각한 한계에 시달립니다. 모델이 토큰에 한 번 커밋하면 autoregressive 모델의 엄격한 왼쪽에서 오른쪽으로의 생성과 유사하게 영구적으로 고정됩니다. Uniform State Diffusion은 모든 위치에 항상 토큰을 유지함으로써 이를 극복하며, 진화하는 맥락에 더 이상 맞지 않는 경우 이전에 수락된 단어라도 교체하여 모델이 자체 수정할 수 있도록 합니다.

즉석 텍스트의 아키텍처

DiffusionGemma는 기존 260억 매개변수 Gemma 4 모델을 기반으로 구축된 혁신적인 Encode-Denoise Patch 아키텍처를 사용합니다. 이 디자인은 두 가지 작동 모드 사이를 동적으로 전환합니다. 사용자 프롬프트를 해석하여 컨텍스트와 지침을 추출하는 인코더 모드와 텍스트 캔버스를 정제하는 디노이저 모드입니다. 인코더는 KV-cache를 채우고 중요한 정보를 디노이저에 직접 전달합니다.

노이즈 제거 과정에서 모델은 양방향 어텐션(bidirectional attention)을 활용하여 토큰의 위치와 관계없이 '캔버스'에 있는 모든 토큰을 동시에 '보고' 처리할 수 있습니다. 결정적으로, 모델은 여러 번의 패스(pass)를 거치는 동안 각 위치의 모든 토큰에 대한 신뢰도 점수(logits)를 모두 유지합니다. 이전 추측이 다음 수정에 영향을 미치는 이러한 지속적인 가시성과 반복적인 개선은 병렬 처리 능력의 핵심입니다. 이 아키텍처에 대한 자세한 내용은 DiffusionGemma - Google DeepMind를 참조하십시오.

이러한 아키텍처 변화는 근본적으로 계산 병목 현상을 재구성합니다. 순차적인 토큰 생성으로 인해 종종 메모리 바운드(memory-bound)되는 자기회귀(autoregressive) 모델과 달리, DiffusionGemma는 GPU를 지속적으로 활성화 상태로 유지합니다. 수백 개의 토큰을 병렬로 처리함으로써 모델은 메모리 바운드에서 연산 바운드(compute-bound)로 전환되어 최신 GPU의 엄청난 처리 능력을 활용하고 초당 1,000토큰을 초과하는 생성 속도를 달성합니다.

이 글이 마음에 드셨나요? 매일 아침 이런 글을 메일로 받아보세요.

하루 한 통 · 두 번의 클릭으로 구독 취소 · 제3자 추적 없음

속도 대 품질: 현실 점검

DiffusionGemma의 실제 배포는 인상적인 성능 프로필을 보여줍니다. H100 GPU에서 수행된 벤치마크는 약 700 토큰/초(tokens per second)를 꾸준히 달성하며 인상적인 속도를 입증했습니다. 이는 아키텍처에 대해 예측된 이론적인 1,000+ 토큰/초에는 미치지 못했지만, 기존 자기회귀(autoregressive) 모델의 한 번에 한 토큰씩 처리하는 속도를 훨씬 뛰어넘는 혁신적인 도약을 나타냅니다.

이러한 속도의 혁신은 명확한 운영상의 트레이드오프를 가져옵니다. DiffusionGemma는 절대적인 텍스트 완벽성 추구보다 빠른 출력이 더 중요한, 결정적인 속도가 요구되는 시나리오를 위해 설계되었습니다. 반대로, 순차적 생성과 세심한 정제를 특징으로 하는 표준 자기회귀(autoregressive) 모델은 최대 출력 품질과 일관성이 필요한 작업에 여전히 선호되는 선택지로 남아 있습니다.

결과적으로 DiffusionGemma는 낮은 지연 시간(low latency)이 가장 중요한 사용 사례에 이상적으로 적용됩니다. 여기에는 빠른 제안이 개발자 워크플로우를 향상시키는 지능형 코드 채우기(code in-filling)와 같은 작업이 포함됩니다. 또한 사용자가 수많은 텍스트 초안을 빠르게 탐색할 수 있도록 하는 빠른 창의적 반복(creative iteration)에서도 탁월합니다. 나아가, 즉각적인 다중 토큰 응답을 가능하게 하여 사용자 상호 작용 패러다임을 근본적으로 변화시키는 비선형 생성 작업에 혁명을 일으킵니다.

자주 묻는 질문

DiffusionGemma란 무엇인가요?

Google DeepMind의 새로운 텍스트 생성 모델로, AI 이미지 생성기와 유사한 확산(diffusion) 기술을 사용하여 초당 1,000토큰을 초과할 수 있는 매우 빠른 속도로 텍스트를 생성합니다.

DiffusionGemma는 기존 LLM보다 어떻게 더 빠른가요?

한 번에 하나씩(자기회귀적으로) 생성하는 대신, 병렬 '패스'로 수백 개의 토큰을 한 번에 생성합니다. 이는 프로세스를 메모리 바운드(데이터 대기)에서 연산 바운드(GPU를 완전히 활용)로 전환합니다.

DiffusionGemma의 주요 트레이드오프는 무엇인가요?

주요 트레이드오프는 최대 품질을 위한 속도입니다. 엄청나게 빠르지만, 가능한 최고의 정확성과 일관성이 요구되는 작업의 경우 표준 자기회귀(autoregressive) 모델이 여전히 우수한 경우가 많습니다.

균일 상태 확산(uniform state diffusion)이란 무엇인가요?

훈련을 위해 텍스트에 '노이즈'를 적용하는 데 사용되는 핵심 기술입니다. 단순히 단어를 마스킹하는 대신, 실제 단어를 무작위 단어로 대체하여 모델이 이전 추측을 수정하고 심지어 교체하는 방법을 학습할 수 있도록 합니다.

Found this useful? Share it.

For builders

Want Stork to write one of these about your product?

Send us a URL. We use the product, form a view, and publish what we actually think — in 8 languages, labeled Sponsored, with no copy approval on your side. That last part is what makes it worth quoting.

See how it works$500 · AI tools & software only

Google의 초당 1,000 토큰 AI가 등장했습니다