Gemma 4 12B — Google의 인코더프리 멀티모달 모델

2026-06-04 · 2026-06-04_gemma-4-12b-encoder-free-multimodal.md

#gemma #google #multimodal #encoder-free #local-ai #open-weight

원문 출처

https://developers.googleblog.com/gemma-4-12b-the-developer-guide/

Gemma 4 12B — Google의 인코더프리 멀티모달 모델

한 줄 요약

Google이 2026년 6월 3일 공개한 Gemma 4 12B — 밀도형 12B 파라미터 멀티모달 모델. 기존 비전/오디오 인코더를 완전히 제거하고 단일 matmul로 원시 데이터를 LLM 직접 투입하는 "인코더프리" 아키텍처. 16GB VRAM에서 실행 가능, MTP 지원.

논문/고지 정보

제목: Gemma 4 12B: A unified, encoder-free multimodal model
저자: André Susano Pinto, Andreas Steiner, Karolis Misiunas, Karsten Roth, Michael Tschannen, Omar Sanseviero (Google DeepMind)
공개일: 2026-06-03
출처: Google Developers Blog
라이선스: Gemma (오픈웨이트)

내용 분석

아키텍처 핵심: 인코더프리

기존 멀티모달 모델의 구조:

별도 비전 인코더 (ViT, 550M 파라미터) + 별도 오디오 인코더 (Conformer, 300M 파라미터)
각 인코더가 동결(frozen)된 후 어댑터로 연결
2단계 파이프라인 → 지연시간 증가, 메모리 단편화

Gemma 4 12B의 구조:

비전 임베더 (35M 파라미터): 27층 ViT를 단일 matmul로 대체. 48x48 픽셀 패치를 LLM 히든 차원으로 직접 투영 + 인자화된 좌표 룩업(X, Y 행렬)으로 위치 정보 추가
오디오 웨이브 프로젝션: 12층 Conformer(300M) 제거. 16kHz 원시 오디오를 40ms 프레임(640 floats)으로 잘라 선형 투영
단일 디코더-온리 트랜스포머: Gemma 4 31B Dense와 동일한 고급 디코더 구조 공유

"인코더프리"란 인코딩 자체가 없는 것이 아니라, 전용 인코더 네트워크가 없다는 뜻. 선형 프로젝션은 여전히 일종의 인코딩이지만, 신경망이 아님.

주요 성과

LiveCode Bench: 72%
MTP(Multi-Token Prediction) 지원 — 로컬 추론 속도 향상
16GB VRAM/유니파이드 메모리에서 실행 가능
macOS 데스크톱 앱, Android 앱 동시 출시
Gemma 계열 중 최초로 미디엄 크기 모델에서 오디오 입력 지원 (기존 E4B만 가능)

통합 미세 조정 이점

비전, 오디오, 텍스트가 동일한 가중치를 공유하므로:

LoRA 또는 풀 튜닝 시 모든 모달리티가 단일 패스로 업데이트
기존 방식의 "동결 인코더 + 어댑터 튜닝" 2단계 프로세스 불필요
한 모달리티의 학습이 다른 모달리티에도 자연히 전이

커뮤니티 반응 (Hacker News)

746포인트, 301댓글. 주요 논점:

벤치마크 및 성능

senko가 Q4 양자화(4-bit GGUF)를 12GB VRAM RTX 3060에서 실행 — 5t/s 출력
"마인스위퍼 vibe-coding 벤치마크"에서 GPT-4.1(14개월 전 출시)과 유사한 결과
몇 가지 문법 오류 (추가 닫는 괄호, 함수 정의 사이에 쉼표) — 코딩 전용 훈련이 아니었기 때문
5t/s는 Vulkan 백엔드에서 CPU+RAM 하이브리드 모드일 가능성 — CUDA 백엔드면 20+t/s 예상

모델 비교

모델	크기	특징
Qwen 3.5 9B	9B	16GB 노트북 코딩 챔피언
Qwen 3.6 35B-A3B	35B MoE	MTP+8bit로 50-60t/s, 가장 빠름
Gemma 4 12B	12B dense	멀티모달, 다국어 강점, 코딩 72%
Gemma 4 31B	31B dense	소규모 모델 코딩 최상위, ~48GB RAM 필요
GPT-4.1	?	14개월 전 기준 "매우 강력한 코딩 모델"

경향: 코딩은 Qwen 우위, 일반 지식/다국어는 Gemma 우위.

아키텍처 논쟁

FAIR의 Chameleon(2024년 5월, arXiv:2405.09818)이 이미 early fusion을 구현했음
차이점: Chameleon은 더 복잡한 퓨전 방식, Gemma는 단순 matmul로 더 빠름
일부는 "이것은 인코딩이다. 단지 전용 모델이 없을 뿐" — pedantic하지만 기술적으로 맞음
FAIR 출신들이 Thinky로 이동하며 인코더프리 MM-LLM 시작 → 이제 Google도 같은 방향

인코더프리 훈련의 난제

표준 방식: 인코더를 먼저 훈련 → 인터넷에 O(2-10B) 이미지 있음 → 각 이미지를 O(10-100)회 보려면 O(100T) 토큰 → 대부분의 사전훈련 예산 초과
인코더프리 방식은 이 문제를 어떻게 해결했는지 명확하지 않음 — 스케일업이 핵심 난제

토큰화 논쟁

한 사용자: "토큰은 현실과 맞지 않는 쪼개진 단위. 생각은 언어로 이루어지지 않는다"
반박: "토큰은 언어와 별개. 시계열 데이터는 모두 토큰화 가능. 토큰을 글자로 생각하는 게 오해"
또 다른 관점: "토큰과 임베딩 벡터 사이에 더 나은 중간 표현이 있을 것" — 동의는 하지만 구체적 대안 제시 불가
결론: "다음 단계는 웨이브/신호 기반 트랜스포머일 것" — 하지만 "수천억 달러와 가장 밝은 인재들이 토큰화에 머무는 데 이유가 있음"

Edge Gallery

시스템 프롬프트 지원 추가 — 이제 실제 개발 도구로 사용 가능
16GB MacBook Pro에서 Gemma 4 12B는 메모리 부족 에러 → "16GB 마케팅"에 의문 제기
MTP가 실제로 작동하며 속도가 빠름
16GB Mac = 저널리스트 다수 → OpenAI 소비자 수익 전망에 대한 질문 제기

RTX Spark 논쟁

NVIDIA/MS의 RTX Spark(128GB CUDIMM)가 로컬 AI에 유용할 것이라는 의견
반박: 메모리 대역폭이 너무 느림(300GB/s 추정) — 30GB 모델 기준 ~10t/s
Strix Halo实测: 대용량 모델은 배치 처리조차 하루 이상 걸려 사용 불가
핵심 인사이트: 파라미터 수가 아닌 메모리 대역폭이 토큰/초를 결정

새로운 시각

1. 인코더프리의 진짜 의미: 미세 조트의 단순화

"빠르다"는 부수적 이점에 불과. 핵심은 LoRA/풀 튜닝 시 모든 모달리티가 단일 패스로 업데이트된다는 점. 기존 방식은 동결 인코더 + 어댑터 튜닝의 2단계 프로세스였는데, 인코더프리는 이 경계를 완전히 제거. 한 모달리티의 학습이 다른 모달리티에 자연스럽게 전이됨.

2. 12B의 "충분한 지능" 시점

1년 전 "매우 강력"했던 GPT-4.1 코딩 능력이 12B 로컬 모델로 대체 가능. 이것은 모델 크기가 아니라 리저닝 + MTP의 조합이 코딩 성능의 주요 드라이버였음을 시사. 모델이 커져야 하는 이유와 모델이 빠져야 하는 이유가 충돌하는 지점.

3. 로컬 AI의 실제 병목: 대역폭

파라미터 수가 아닌 메모리 대역폭이 토큰/초를 결정. RTX Spark가 128GB를 가졌지만 대역폭이 느려 실용 불가. 로컬 AI의 진짜 사용 사례는 대화형이 아닌 배치 처리일 가능성 높음 — 하지만 배치도 "하룻밤" 수준이어야 실용적.

4. "인코더프리"의 스케일업 난제

소규모(12B)에서는 matmul로 충분하지만, 대규모로 확장할 때 어떻게 될지 불명확. 표준 인코더 훈련에 O(100T) 토큰이 필요한 이유 — 인코더프리가 이 문제를 어떻게 우회하는지 아직 공개되지 않음. Thinky와 Google이 같은 방향으로 가는 것은 소규모에서 작동한다는 신호지만, "스케일업이 어려운 부분"이라고 커뮤니티가 지적.

5. 다국어 강점

Gemma 4가 번역/다국어에서 강하다는 의견 — 히브리어, 그리스어 등 소수 언어 사용자도 긍정적 피드백. Qwen이 중국어에서 강점인 것처럼, Gemma가 서양 언어 외 다국어에서 강점이 있다면 로컬 AI의 다국어 격차를 줄일 수 있음.

자녀/미래 영향

실용적 관점

12GB VRAM GPU(예: RTX 3090)에서도 실행 가능하지만 5t/s는 대화형 코딩에는 느림
16GB MacBook Pro는 12B조차 실행 불가 → Apple의 "16GB足够" 마케팅에 주의
로컬 AI의 프라이버시 이점은 명확 — 개인 노트, 의료 기록, 가족 데이터 처리에 의미 있음
클라우드와 가격 경쟁에서 아직 뒤처짐 — 프라이버시가 핵심 동기여야 함

교육적 시사점

멀티모달 모델의 내부 구조가 단순해지고 있음 — 아이들이 "AI는 이미지와 소리를 어떻게 이해하나"를 이해하기 쉬워짐
인코더프리 아키텍처는 "전용 부품 없이 하나로 통합"이라는 직관적 개념으로 설명 가능
토큰화 논쟁: "AI는 언어로 생각하나?" — 좋은 철학적 질문의 시작점

직업적 영향

1년 전 "매우 강력"했던 GPT-4.1 코딩 능력이 12B 로컬 모델로 대체 가능해짐
하지만 "코딩 전용 훈련"과 "범용 훈련"의 차이 여전히 중요 — Gemma 4 12B는 코딩 전용이 아님
로컬 AI의 진짜 차별점은 프라이버시 — 의료, 법률, 금융 등 민감 데이터 처리에서 의미 있음
메모리 대역폭이 병목인 한, 로컬 AI의 성능 한계는 하드웨어에 종속됨 — 클라우드 AI와의 격차는 당분간 유지

연결

MIT, "전함" 게임으로 AI 에이전트에게 더 나은 질문을 가르치다 — 로컬 모델(Llama 4 Scout)로 GPT-5급 성능 달성
tiny-vllm: C++/CUDA로 vLLM 직접 구현 — 로컬 추론 엔진의 밑바닥 구조
The Founder's Playbook: Building an AI-Native Startup — 로컬 AI와 에이전트형 기술 부채