Gemma 4 12B — Google의 인코더프리 멀티모달 모델
Gemma 4 12B — Google의 인코더프리 멀티모달 모델
한 줄 요약
Google이 2026년 6월 3일 공개한 Gemma 4 12B — 밀도형 12B 파라미터 멀티모달 모델. 기존 비전/오디오 인코더를 완전히 제거하고 단일 matmul로 원시 데이터를 LLM 직접 투입하는 "인코더프리" 아키텍처. 16GB VRAM에서 실행 가능, MTP 지원.
논문/고지 정보
- 제목: Gemma 4 12B: A unified, encoder-free multimodal model
- 저자: André Susano Pinto, Andreas Steiner, Karolis Misiunas, Karsten Roth, Michael Tschannen, Omar Sanseviero (Google DeepMind)
- 공개일: 2026-06-03
- 출처: Google Developers Blog
- 라이선스: Gemma (오픈웨이트)
내용 분석
아키텍처 핵심: 인코더프리
기존 멀티모달 모델의 구조:
- 별도 비전 인코더 (ViT, 550M 파라미터) + 별도 오디오 인코더 (Conformer, 300M 파라미터)
- 각 인코더가 동결(frozen)된 후 어댑터로 연결
- 2단계 파이프라인 → 지연시간 증가, 메모리 단편화
Gemma 4 12B의 구조:
- 비전 임베더 (35M 파라미터): 27층 ViT를 단일 matmul로 대체. 48x48 픽셀 패치를 LLM 히든 차원으로 직접 투영 + 인자화된 좌표 룩업(X, Y 행렬)으로 위치 정보 추가
- 오디오 웨이브 프로젝션: 12층 Conformer(300M) 제거. 16kHz 원시 오디오를 40ms 프레임(640 floats)으로 잘라 선형 투영
- 단일 디코더-온리 트랜스포머: Gemma 4 31B Dense와 동일한 고급 디코더 구조 공유
"인코더프리"란 인코딩 자체가 없는 것이 아니라, 전용 인코더 네트워크가 없다는 뜻. 선형 프로젝션은 여전히 일종의 인코딩이지만, 신경망이 아님.
주요 성과
- LiveCode Bench: 72%
- MTP(Multi-Token Prediction) 지원 — 로컬 추론 속도 향상
- 16GB VRAM/유니파이드 메모리에서 실행 가능
- macOS 데스크톱 앱, Android 앱 동시 출시
- Gemma 계열 중 최초로 미디엄 크기 모델에서 오디오 입력 지원 (기존 E4B만 가능)
통합 미세 조정 이점
비전, 오디오, 텍스트가 동일한 가중치를 공유하므로:
- LoRA 또는 풀 튜닝 시 모든 모달리티가 단일 패스로 업데이트
- 기존 방식의 "동결 인코더 + 어댑터 튜닝" 2단계 프로세스 불필요
- 한 모달리티의 학습이 다른 모달리티에도 자연히 전이
커뮤니티 반응 (Hacker News)
746포인트, 301댓글. 주요 논점:
벤치마크 및 성능
- senko가 Q4 양자화(4-bit GGUF)를 12GB VRAM RTX 3060에서 실행 — 5t/s 출력
- "마인스위퍼 vibe-coding 벤치마크"에서 GPT-4.1(14개월 전 출시)과 유사한 결과
- 몇 가지 문법 오류 (추가 닫는 괄호, 함수 정의 사이에 쉼표) — 코딩 전용 훈련이 아니었기 때문
- 5t/s는 Vulkan 백엔드에서 CPU+RAM 하이브리드 모드일 가능성 — CUDA 백엔드면 20+t/s 예상
모델 비교
| 모델 | 크기 | 특징 |
|---|---|---|
| Qwen 3.5 9B | 9B | 16GB 노트북 코딩 챔피언 |
| Qwen 3.6 35B-A3B | 35B MoE | MTP+8bit로 50-60t/s, 가장 빠름 |
| Gemma 4 12B | 12B dense | 멀티모달, 다국어 강점, 코딩 72% |
| Gemma 4 31B | 31B dense | 소규모 모델 코딩 최상위, ~48GB RAM 필요 |
| GPT-4.1 | ? | 14개월 전 기준 "매우 강력한 코딩 모델" |
경향: 코딩은 Qwen 우위, 일반 지식/다국어는 Gemma 우위.
아키텍처 논쟁
- FAIR의 Chameleon(2024년 5월, arXiv:2405.09818)이 이미 early fusion을 구현했음
- 차이점: Chameleon은 더 복잡한 퓨전 방식, Gemma는 단순 matmul로 더 빠름
- 일부는 "이것은 인코딩이다. 단지 전용 모델이 없을 뿐" — pedantic하지만 기술적으로 맞음
- FAIR 출신들이 Thinky로 이동하며 인코더프리 MM-LLM 시작 → 이제 Google도 같은 방향
인코더프리 훈련의 난제
- 표준 방식: 인코더를 먼저 훈련 → 인터넷에 O(2-10B) 이미지 있음 → 각 이미지를 O(10-100)회 보려면 O(100T) 토큰 → 대부분의 사전훈련 예산 초과
- 인코더프리 방식은 이 문제를 어떻게 해결했는지 명확하지 않음 — 스케일업이 핵심 난제
토큰화 논쟁
- 한 사용자: "토큰은 현실과 맞지 않는 쪼개진 단위. 생각은 언어로 이루어지지 않는다"
- 반박: "토큰은 언어와 별개. 시계열 데이터는 모두 토큰화 가능. 토큰을 글자로 생각하는 게 오해"
- 또 다른 관점: "토큰과 임베딩 벡터 사이에 더 나은 중간 표현이 있을 것" — 동의는 하지만 구체적 대안 제시 불가
- 결론: "다음 단계는 웨이브/신호 기반 트랜스포머일 것" — 하지만 "수천억 달러와 가장 밝은 인재들이 토큰화에 머무는 데 이유가 있음"
Edge Gallery
- 시스템 프롬프트 지원 추가 — 이제 실제 개발 도구로 사용 가능
- 16GB MacBook Pro에서 Gemma 4 12B는 메모리 부족 에러 → "16GB 마케팅"에 의문 제기
- MTP가 실제로 작동하며 속도가 빠름
- 16GB Mac = 저널리스트 다수 → OpenAI 소비자 수익 전망에 대한 질문 제기
RTX Spark 논쟁
- NVIDIA/MS의 RTX Spark(128GB CUDIMM)가 로컬 AI에 유용할 것이라는 의견
- 반박: 메모리 대역폭이 너무 느림(300GB/s 추정) — 30GB 모델 기준 ~10t/s
- Strix Halo实测: 대용량 모델은 배치 처리조차 하루 이상 걸려 사용 불가
- 핵심 인사이트: 파라미터 수가 아닌 메모리 대역폭이 토큰/초를 결정
새로운 시각
1. 인코더프리의 진짜 의미: 미세 조트의 단순화
"빠르다"는 부수적 이점에 불과. 핵심은 LoRA/풀 튜닝 시 모든 모달리티가 단일 패스로 업데이트된다는 점. 기존 방식은 동결 인코더 + 어댑터 튜닝의 2단계 프로세스였는데, 인코더프리는 이 경계를 완전히 제거. 한 모달리티의 학습이 다른 모달리티에 자연스럽게 전이됨.
2. 12B의 "충분한 지능" 시점
1년 전 "매우 강력"했던 GPT-4.1 코딩 능력이 12B 로컬 모델로 대체 가능. 이것은 모델 크기가 아니라 리저닝 + MTP의 조합이 코딩 성능의 주요 드라이버였음을 시사. 모델이 커져야 하는 이유와 모델이 빠져야 하는 이유가 충돌하는 지점.
3. 로컬 AI의 실제 병목: 대역폭
파라미터 수가 아닌 메모리 대역폭이 토큰/초를 결정. RTX Spark가 128GB를 가졌지만 대역폭이 느려 실용 불가. 로컬 AI의 진짜 사용 사례는 대화형이 아닌 배치 처리일 가능성 높음 — 하지만 배치도 "하룻밤" 수준이어야 실용적.
4. "인코더프리"의 스케일업 난제
소규모(12B)에서는 matmul로 충분하지만, 대규모로 확장할 때 어떻게 될지 불명확. 표준 인코더 훈련에 O(100T) 토큰이 필요한 이유 — 인코더프리가 이 문제를 어떻게 우회하는지 아직 공개되지 않음. Thinky와 Google이 같은 방향으로 가는 것은 소규모에서 작동한다는 신호지만, "스케일업이 어려운 부분"이라고 커뮤니티가 지적.
5. 다국어 강점
Gemma 4가 번역/다국어에서 강하다는 의견 — 히브리어, 그리스어 등 소수 언어 사용자도 긍정적 피드백. Qwen이 중국어에서 강점인 것처럼, Gemma가 서양 언어 외 다국어에서 강점이 있다면 로컬 AI의 다국어 격차를 줄일 수 있음.
자녀/미래 영향
실용적 관점
- 12GB VRAM GPU(예: RTX 3090)에서도 실행 가능하지만 5t/s는 대화형 코딩에는 느림
- 16GB MacBook Pro는 12B조차 실행 불가 → Apple의 "16GB足够" 마케팅에 주의
- 로컬 AI의 프라이버시 이점은 명확 — 개인 노트, 의료 기록, 가족 데이터 처리에 의미 있음
- 클라우드와 가격 경쟁에서 아직 뒤처짐 — 프라이버시가 핵심 동기여야 함
교육적 시사점
- 멀티모달 모델의 내부 구조가 단순해지고 있음 — 아이들이 "AI는 이미지와 소리를 어떻게 이해하나"를 이해하기 쉬워짐
- 인코더프리 아키텍처는 "전용 부품 없이 하나로 통합"이라는 직관적 개념으로 설명 가능
- 토큰화 논쟁: "AI는 언어로 생각하나?" — 좋은 철학적 질문의 시작점
직업적 영향
- 1년 전 "매우 강력"했던 GPT-4.1 코딩 능력이 12B 로컬 모델로 대체 가능해짐
- 하지만 "코딩 전용 훈련"과 "범용 훈련"의 차이 여전히 중요 — Gemma 4 12B는 코딩 전용이 아님
- 로컬 AI의 진짜 차별점은 프라이버시 — 의료, 법률, 금융 등 민감 데이터 처리에서 의미 있음
- 메모리 대역폭이 병목인 한, 로컬 AI의 성능 한계는 하드웨어에 종속됨 — 클라우드 AI와의 격차는 당분간 유지
연결
- MIT, "전함" 게임으로 AI 에이전트에게 더 나은 질문을 가르치다 — 로컬 모델(Llama 4 Scout)로 GPT-5급 성능 달성
- tiny-vllm: C++/CUDA로 vLLM 직접 구현 — 로컬 추론 엔진의 밑바닥 구조
- The Founder's Playbook: Building an AI-Native Startup — 로컬 AI와 에이전트형 기술 부채