Gemma 4 QAT — 로컬 AI의 1GB 시대
Gemma 4 QAT — 로컬 AI의 1GB 시대
한 줄 요약
Google이 Gemma 4 모델에 QAT(양자화 인식 학습)를 적용해서 2B 모델을 1GB 미만으로 줄였고, 스마트폰에서도 다중 모달 AI가 돌아갈 수 있는 시대가 왔다.
배경: 양자화(Quantization)가 무엇인가
AI 모델은 수백만~수천억 개의 숫자(가중치)로 이루어져 있다. 원래 이 숫자들은 높은 정밀도(16비트 부동소수점)로 저장되는데, 이를 낮은 정밀도(4비트나 2비트 정수)로 바꾸는 것을 '양자화'라고 한다. CD 음원을 MP3로 압축하는 것과 비슷한 개념이다. 파일은 작아지지만音质(정확도)이 약간 떨어진다.
기존 방식(PTQ, 학습 후 양자화)은 모델을 다 훈련시킨 뒤 나중에 압축하는데, 이때 정확도가 크게 떨어지는 문제가 있었다.
QAT의 핵심 아이디어
QAT(Quantization-Aware Training, 양자화 인식 학습)는 "압축을 염두에 두고 훈련"하는 방식이다. 훈련 과정 자체에서 양자화를 시뮬레이션해서, 모델이 압축된 상태로도 잘 작동하도록 학습한다.
구체적으로 Google이 한 일:
- 선택적 압축 — 토큰 생성 부분은 2비트로 극한 압축, 추론 핵심 레이어는 고정밀도 유지. "모델을 더 바보롭게 만들지 않고 저장 공간만 아낀다"
- 모바일 전용 최적화 4가지
- 정적 액티베이션: 실시간 계산을 미리 훈련 중에 해둠
- 채널별 양자화: 모바일 칩 설계에 맞춘 데이터 구조
- 2비트 타겟 압축: 토큰 생성 레이어만 극한 압축
- 임베딩/KV 캐시 최적화: 대화 기록을 효율적으로 저장
- 결과 — Gemma 4 E2B 텍스트 전용 0.8GB, 전체 다중모달 1GB 미만
VRAM 요구량 비교
| 모델 | Q4_0 VRAM |
|---|---|
| E2B | ~1.5GB |
| E4B | ~3.5GB |
| 12B | 6.7GB |
| 26B A4B | ~14GB |
| 31B | ~20GB |
12B 모델이 6.7GB라는 건 16GB GPU(예: RTX 4060 Ti)에 여유 있게 들어온다는 뜻이다.
커뮤니티 반응 (HN 366점, 110개 댓글)
실제 테스트 결과
Mac에서 uvx litert-lm으로 3.2GB 모델을 돌렸을 때 이미지/오디오 입력까지 처리 가능했다. pelican이 자전거를 타는 SVG를 만들어달라고 했는데 결과는 나빴지만, 3.2GB 모델이 유효한 SVG 코드를 출력한다는 사실 자체가 인상적이었다는 평가.
RTX 5060(8GB VRAM) 노트북에서 12B 모델이 놀라울 정도로 빠르게 돌아갔다는 보고도 있다.
Unsloth 양자화가 더 좋음
Unsloth(양자화 전문 라이브러리)가 Google QAT 모델을 재양자화한 버전이 정확도 평가에서 더 높은 점수를 냈다. Google이 제공한 것은 '양자화 준비가 된 모델'이고, Unsloth의 양자화 방법이 더 정교해서 더 나은 결과가 나온 것이다. 즉 Google QAT는 출발점이고, 커뮤니티가 그 위에 개선하는 구조.
릴리스 주기가 빠르다는 불만
3주 만에 4번 릴리스(원본 → MTP drafter → 12B → QAT). 이 모델을 기반으로 제품을 만드는 개발자는 매번 빌드 루프를 다시 돌려야 해서 고생 중. 한 개발자가 "Google이 10개 메신저 앱을 가진 이유를 이제 이해한다"고 농담했다.
작은 모델의 실제 유용성 논쟁
비관론: E2B/E4B는 너무 똑똑하지 않아서 웹 검색 도구 호출도 실패하고, 정확한 지식을 못 알려준다. "아르헨티나 부통령 5명"을 물어보니 모두 틀렸다.
낙관론: 작은 모델은 지식 저장소가 아니라 구조화된 출력 파이프라인에 적합하다. 적절한 system prompt와 에러 복구 로직만 있으면 프로덕션에서도 잘 돌아간다. 실제로 Gemma 4 모델을 웹 검색 + JSON 출력 서비스에 프로덕션으로 사용하고 있다는 보고도 있다.
프라이버시 논쟁
"로컬 모델 필요 없다, 클라우드 AI면 충분하다"는 의견에 대해 데이터 프라이버시, 비용 절감, 오프라인 자동화가 핵심 동기라고 반박. 특히 개인 지적 재산을 기업에 넘기고 싶지 않은 사람들에게 로컬 AI는 필수다.
새로운 시각
1. QAT는 '압축'이 아니라 '재설계'
단순히 모델을 줄이는 게 아니라, 어떤 부분을 2비트로 압축하고 어떤 부분은 고정밀도를 유지할지 설계하는 과정이다. 이는 모델 내부 구조에 대한 깊은 이해가 필요하다는 뜻이며, Google이 Gemma 4의 내부 구조를 얼마나 잘 이해하고 있는지 보여주는 사례다.
2. 로컬 AI의 진짜 병목은 모델이 아니라 에이전트
모델 자체는 잘 돌아가지만, 웹 검색/도구 호출 같은 에이전트 기능이 작은 모델에서 계속 실패한다. 즉 "작은 모델을 똑똑하게 쓰는 법"이 다음 관건이다. 이는 하니스 아키텍처 논의와 연결된다.
3. 양자화 경쟁의 시작
Google QAT → Unsloth 재양자화 → llama.cpp/MTP 지원. 오픈소스 생태계가 Google의 릴리스를 빠르게 흡수해서 더 개선하는 패턴이 확립되고 있다. 로컬 LLM 대체 실험에서 보았던.hybrid 합의(클라우드=명세·검증, 로컬=양산)가 이제 더 실현 가능해졌다.
4. 스마트폰에서 다중모달 AI
0.8GB 텍스트 전용 모델이 스마트폰에 들어온다는 건, 인터넷 없이도 이미지 인식 + 음성 인식 + 텍스트 생성이 가능한 시대가 시작되었다는 뜻이다. ESP32-S31에서 본 엣지 통합 추세가 AI 모델로도 확장되는 중이다.
자녀와 미래에 대한 시사점
- 기술 접근성 격차 축소: 고사양 GPU가 없어도 AI 모델을 돌릴 수 있게 되면, 학교나 가정에서도 AI 실험이 가능해진다. 아인·석현·은한이 스마트폰 하나로 AI 모델을 실험할 수 있는 세상이 온다
- 프라이버시 리터러시: 로컬 AI가 가능해지면 "왜 클라우드에 데이터를 보내야 하나요?"라는 질문을 자연스럽게 하게 될 것이다. 데이터 주권에 대한 인식이 어린 나이부터 형성될 기회
- 에이전트 설계가 새로운 스킬: 모델 자체는 작아지고 강력해지지만, 그 모델을 어떻게 도구와 연결해서 유용하게 만들지(에이전트 설계)가 진짜 기술이 된다. 이는 프로그래밍보다 더 높은 수준의 사고력을 요구함