Google의 Gemma 4 12B, 멀티모달 AI의 가장 큰 결함을 해결하다

Q: Gemma 4 12B는 이미지를 어떻게 그렇게 빠르게 처리하나요?

Gemma 4는 거대한 비전 인코더 대신 가벼운 '선형 투영' 레이어를 사용합니다. 이 단일 수학적 단계는 작은 픽셀 패치를 언어 모델의 입력 형식과 일치하도록 빠르게 재구성하여, LLM의 강력한 백본이 실제 시각적 추론을 처리하도록 합니다.

당신의 AI가 왜 그렇게 어설프게 느껴지는가

멀티모달 AI는 오랫동안 조잡하고 비효율적인 아키텍처에 의해 발목을 잡혀왔습니다. "기존 방식"은 세 가지 무겁고 별개의 모델, 즉 비전 인코더, 오디오 인코더, 그리고 핵심 대규모 언어 모델(LLM)을 "테이프로 붙이는" 것을 포함했습니다. 언어 모델은 본질적으로 원시 픽셀이나 음파가 아닌, 숫자로 변환된 텍스트 덩어리인 토큰을 이해합니다. 이로 인해 LLM이 이해할 수 있는 형식으로 시각 및 청각 데이터를 먼저 가로채고 번역하기 위한 거대한 별개의 인코더가 필요했습니다.

이러한 다중 구성 요소 설정은 멀티모달 AI와 상호 작용할 때 세 개의 별도 네트워크가 동시에 실행됨을 의미합니다. 이러한 아키텍처는 VRAM과 처리 능력을 심각하게 잡아먹어, 일반 노트북에서 실시간 로컬 성능을 사실상 불가능하게 만듭니다. 지속적인 데이터 이동과 중복 처리는 상당한 계산 오버헤드를 발생시킵니다.

이러한 비대함을 설명하기 위해 일반적인 비전 인코더를 생각해 봅시다. 이것들은 단순한 변환기가 아닙니다. 이것들은 거대하며, 종종 놀라운 5억 5천만 개의 매개변수를 포함합니다. 전통적인 인코더는 이미지를 재구성하고, 매핑하고, 이해하기 위해 광범위한 데이터를 필요로 합니다. 이것은 데이터가 주 LLM에 도달하기 전에 픽셀 간의 관계를 계산하고, 가장자리를 식별하고, 모양을 파악하고, 객체를 인식하기 위해 수십 개의 내부 어텐션 레이어를 사용합니다. 이러한 "중간자"에 의한 과도한 처리가 바로 Gemma 4가 제거하는 비효율성입니다.

3,500만 매개변수 비전 혁신

Google DeepMind의 Gemma 4 12B는 무거운 비전 인코더를 완전히 삭제함으로써 멀티모달 처리를 근본적으로 재정의합니다. 별도의 복잡한 네트워크를 통해 이미지를 공급하는 대신, Gemma 4는 이미지를 48x48 픽셀 패치로 나눕니다. 이 접근 방식은 시각 데이터 해석에 전념하는 수억 개의 매개변수와 수십 개의 어텐션 레이어를 포함할 수 있는 전통적인 인코더를 우회합니다.

이러한 원시 픽셀 패치는 단일하고 얇은 수학적 단계를 거칩니다: 선형 투영. 이것은 사고 엔진이 아닙니다. 이것은 초고속 형식 변환기 역할을 합니다. 거대한 숫자 그리드가 각 패치에서 2,304개의 픽셀 값을 가져와 곱하고 단일 행으로 확장합니다. 이 출력은 LLM의 내부 텍스트 토큰 형식과 완벽하게 일치하여 원시 시각 데이터가 원활하게 통합될 수 있도록 합니다.

DeepMind는 핵심 대규모 언어 모델 백본이 이미 시각적 추론을 위한 지능을 가지고 있음을 깨달았습니다. 전통적으로 픽셀 간의 관계를 계산하고 객체를 식별하는 별도 인코더의 "사고 레이어"를 제거함으로써, 그들은 비전 구성 요소를 단 3,500만 개의 매개변수로 줄였습니다. 이 정적이고 단일 레이어 맵은 분석적 사고를 전혀 하지 않습니다. 단순히 데이터를 형식화하여 VRAM을 확보하고 LLM이 복잡한 시각 지능을 기본적으로 처리할 수 있도록 합니다.

놀라운 속도, 완전 오프라인

Gemma 4 12B는 인터넷 연결 없이도 표준 M2 MacBook Pro에서 거의 실시간으로 비전 및 오디오 분석을 실행하며 엄청난 속도를 제공합니다. 이러한 혁신적으로 효율적인 디자인은 로컬 AI를 변화시켜, 이전 멀티모달 아키텍처를 괴롭혔던 처리 병목 현상과 VRAM 점유를 제거합니다. DeepMind의 인코더 없는 접근 방식은 주 LLM이 복잡한 작업을 기본적으로 처리할 수 있도록 하여, 일상적인 장치를 위한 강력한 오프라인 기능을 해제합니다.

오디오 처리는 비전 해킹의 독창성을 반영하여, 원본 16 kHz 오디오 신호를 연속적인 토큰 스트림으로 처리합니다. 이 모델은 사운드를 40-밀리초 프레임으로 분할하며, 각 프레임에는 640개의 부동 소수점 숫자가 포함됩니다. 그런 다음 간단한 투영 레이어가 이를 LLM의 입력 공간으로 직접 매핑합니다. 트랜스포머 백본에게 이 오디오 블록은 텍스트 토큰과 구별할 수 없으며, 단일의 효율적인 패스에서 원활한 실시간 전사, 번역 및 텍스트 서식 지정을 가능하게 합니다.

인코더의 비대함을 제거함으로써 Gemma 4 12B는 훨씬 더 큰 모델의 성능(260억 개 매개변수 모델의 성능에 근접)을 작은 공간에 담아낼 수 있습니다. 이 혁신적인 아키텍처는 16-24GB의 VRAM 내에 쉽게 들어맞아, 소비자 하드웨어에서 강력한 로컬 AI를 사용할 수 있게 합니다. 이 혁신을 탐구하고자 하는 개발자를 위해 Google은 Gemma 4 12B: The Developer Guide에서 포괄적인 문서를 제공합니다.

미래는 네이티브 멀티모달리티입니다

Gemma 4 12B는 단순히 또 다른 모델 출시가 아닌, 심오한 변화를 나타냅니다. Google은 단일의 지능적인 언어 백본이 무거운 사전 처리 인코더 없이 원본 48x48 픽셀 패치부터 40-밀리초 오디오 프레임에 이르는 원시 감각 데이터를 처리할 수 있음을 확실히 입증했습니다. 이 획기적인 접근 방식은 LLM의 고유한 추론 레이어가 네이티브 시각 및 오디오 이해를 수행할 수 있음을 보여주며, 멀티모달 AI를 근본적으로 재정의합니다.

이 글이 마음에 드셨나요? 매일 아침 이런 글을 메일로 받아보세요.

하루 한 통 · 두 번의 클릭으로 구독 취소 · 제3자 추적 없음

edge AI에 대한 영향은 상당합니다. 이전에 인코딩에 전념했던 수억 개의 매개변수를 제거함으로써, 120억 개 매개변수의 Gemma 4 모델은 16GB VRAM을 가진 표준 M2 MacBook Pro와 같은 장치에서 거의 실시간으로 멀티모달 분석을 달성합니다. 이는 강력하고 완전히 오프라인으로 작동하는 AI 경험을 가능하게 하여, 사용자를 클라우드 의존성 및 그와 관련된 지연 시간과 개인 정보 보호 문제에서 해방시키고, 고급 AI를 사용자에게 더 가깝게 만듭니다.

궁극적으로, 이 인코더 없는(encoder-free) 철학은 진정으로 통합된 멀티모달 아키텍처의 새로운 세대를 고무할 것입니다. 급진적으로 효율적이고 강력한 미래 모델은 이전 설계에서 볼 수 있었던 별도의 시각 및 오디오 네트워크를 '볼트로 고정하는' 접근 방식을 포기할 가능성이 높습니다. 대신, 원시 감각 입력을 통해 세상을 본질적으로 이해하는 통합 AI 두뇌(unified AI brain)를 수용하여, 우리가 지능형 시스템과 상호 작용하는 방식을 근본적으로 변화시키고 로컬 AI 처리의 혁신을 주도할 것입니다.

자주 묻는 질문

Gemma 4 12B는 무엇인가요?

Gemma 4 12B는 Google DeepMind의 새로운 120억 개 매개변수 멀티모달 AI 모델입니다. 핵심 혁신은 이전 모델보다 이미지와 오디오를 훨씬 효율적으로 처리할 수 있게 하는 '인코더 없는(encoder-free)' 아키텍처입니다.

AI에서 '인코더 없는(encoder-free)'이란 무엇을 의미하나요?

이는 모델이 픽셀 및 오디오 파형과 같은 원시 데이터를 직접 처리하며, 메인 언어 모델이 이해할 수 있는 형식으로 데이터를 먼저 변환하기 위해 별도의 계산 집약적인 '인코더(encoder)' 모델이 필요 없다는 것을 의미합니다.

Gemma 4 12B는 이미지를 어떻게 그렇게 빠르게 처리하나요?

Gemma 4는 거대한 비전 인코더(vision encoder) 대신 가벼운 '선형 투영(linear projection)' 레이어를 사용합니다. 이 단일 수학적 단계는 작은 픽셀 패치를 언어 모델의 입력 형식과 일치하도록 빠르게 재구성하여, LLM의 강력한 백본이 실제 시각적 추론을 처리하도록 합니다.

이 새로운 아키텍처의 주요 이점은 무엇인가요?

주요 이점은 훨씬 빠른 처리 속도, 낮은 VRAM 및 메모리 사용량, 그리고 노트북과 같은 표준 소비자 하드웨어에서 강력한 실시간 멀티모달 AI를 완전히 오프라인으로 실행할 수 있는 능력입니다.

Found this useful? Share it.

For builders

Want Stork to write one of these about your product?

Send us a URL. We use the product, form a view, and publish what we actually think — in 8 languages, labeled Sponsored, with no copy approval on your side. That last part is what makes it worth quoting.

See how it works$500 · AI tools & software only

Google, AI 중간자를 종식시키다