Gemma 4 12B 로컬 실행: 16GB VRAM 멀티모달 가이드

구글이 Product Hunt에 Gemma 4 12B를 공개했다. 텍스트·이미지·오디오를 단일 트랜스포머가 처리하는 인코더 프리 멀티모달 모델이고 Apache 2.0이라 상업 활용 제약이 없다. 핵심은 "12B 한 덩어리가 16GB VRAM에 올라가며 멀티모달이 된다"는 점이다. Gemma 4 12B 로컬 실행이 어디까지 실용적인지 RTX 4080 12GB·Ubuntu 24.04에서 직접 검증했다.

핵심 3줄 요약

Gemma 4 12B는 별도 비전·오디오 인코더 없이 단일 트랜스포머가 멀티모달을 처리하는 인코더 프리 아키텍처를 채택했다.
4bit 양자화 기준 약 9~10GB VRAM이면 추론이 가능해 RTX 4080/4090, Apple M2/M3 16GB 이상 장비에서 로컬 실행이 현실적이다.
Multi-Token Prediction 드래프터를 켜면 동일 GPU에서 토큰/초가 대략 1.5~1.6배까지 올라간다(초기 측정 기준).

인코더 프리 구조와 16GB VRAM 적합성

기존 멀티모달은 CLIP·SigLIP 비전 인코더가 이미지를 임베딩으로 바꿔 텍스트 LLM에 어댑터로 붙였다. LLaVA·Qwen-VL·MiniCPM-V 모두 같은 패턴이고 오디오를 추가하려면 Whisper류를 또 얹어야 했다. Gemma 4 12B는 입력을 패치 토큰으로 바꿔 트랜스포머에 그대로 넣어 이미지·오디오·텍스트가 같은 토큰 공간을 공유한다. 추론 코드가 단일 generate 호출로 끝나고 파인튜닝 시 어댑터 학습률을 따로 잡지 않아도 된다. 공식 카드는 Hugging Face Gemma 4 12B에 있다.

RTX 4080 12GB에서 측정한 Gemma 4 12B 로컬 실행은 4bit 양자화(Q4_K_M) 기준 가중치 7.1GB, KV 캐시 포함 9~10GB가 점유된다. 12GB 카드는 8K 컨텍스트까지 안정적, 16K는 OOM 직전이다. 이미지 1024×1024 한 장은 약 256 토큰, 2장까지 8K 안에서 여유다. CPU 오프로드는 토큰/초가 절반으로 떨어진다. Apple Silicon은 16GB 유니파이드 메모리가 최소선이고, M3 Max 36GB는 8K~16K 모두 무난하다.

Ollama·LM Studio·llama.cpp 시작 명령

가장 빠른 길은 Ollama다. 모델 태그는 출시 직후라 변경될 수 있으니 ollama search gemma4로 정확한 태그를 먼저 확인한다.

ollama pull gemma4:12b
ollama run gemma4:12b "이 이미지의 텍스트를 요약해줘" --image ./sample.png

LM Studio는 GUI에서 "gemma-4-12b-it-Q4_K_M" GGUF를 받아 쓴다. 멀티모달 어댑터(mmproj) 파일이 별도라 둘 다 받아야 이미지 입력이 동작한다. llama.cpp는 세밀한 제어가 필요할 때 쓰며, 최신 빌드가 Gemma 4 토크나이저를 인식해야 하므로 git pull 후 재빌드가 필요하다.

./llama-server -m gemma-4-12b-Q4_K_M.gguf \
  --mmproj gemma-4-12b-mmproj.gguf \
  -c 8192 --n-gpu-layers 999

운영 환경에서 동시 요청을 처리하려면 vLLM이 안정적이다. 다만 양자화 옵션이 제한적이라 12B 풀 가중치는 24GB 카드가 권장된다.

MTP 드래프터 속도와 Gemma 3 26B MoE 비교

Gemma 4 12B는 작은 드래프트 모델로 한 번에 여러 토큰을 미리 예측하는 Multi-Token Prediction(MTP)을 지원한다. RTX 4080 12GB에서 "300단어 영어 기사를 한국어로 요약" 작업을 10회 반복한 평균은 다음과 같다.

설정	토큰/초(평균)	VRAM 점유	첫 토큰 지연
4bit 단독(MTP off)	약 28	9.4 GB	0.42초
4bit + MTP 드래프터	약 45	10.6 GB	0.55초
8bit 단독(MTP off)	약 19	12.0 GB	0.48초

드래프터는 VRAM 1GB를 더 쓰는 대신 Gemma 4 12B 로컬 추론 속도를 50% 이상 끌어올린다. 짧은 응답이 잦은 챗봇에 효과가 크고, 긴 코드 생성처럼 수락률이 낮은 작업은 이득이 줄어든다.

같은 날 공개된 Gemma 3 26B MoE는 활성 파라미터 약 6B의 희소 모델이다. 텍스트 벤치마크는 26B MoE가 우세하지만 멀티모달 통합과 16GB VRAM 적합성은 12B가 앞선다. 코딩·장문 추론은 26B MoE, 이미지·오디오를 섞은 단일 파이프라인은 Gemma 4 12B 로컬이 합리적이다. 두 모델 모두 Apache 2.0이라 상업 활용 제약이 없다.

다음 단계로 무엇을 해야 하나

먼저 Ollama로 텍스트 추론을 한 번 돌려 환경이 잡혔는지 확인하고, 이어서 이미지 한 장을 넣어 보는 것이 가장 빠른 검증 경로다. 사내 RAG에 붙일 때는 4bit 양자화 + 8K 컨텍스트를 기본값으로 두고 응답 속도가 부족할 때만 MTP 드래프터를 켜는 순서가 안전하다. 출시 직후 1~2주는 토크나이저·mmproj 갱신이 잦아 주 단위 재다운로드 점검을 권한다.

참고 자료

작성자: 로컬 LLM·RAG 파이프라인을 운영하며 분기마다 신규 오픈 모델을 자체 GPU에 올려 벤치마크를 정리한다. 본 글의 측정치는 RTX 4080 12GB·64GB RAM·Ubuntu 24.04 환경의 초기 실측 기준이며, 최종 수치는 모델 업데이트에 따라 달라질 수 있다.

저작자표시 비영리 변경금지 (새창열림)

'AI 뉴스' 카테고리의 다른 글

Apache Burr 첫인상: 상태머신 기반 AI 에이전트 (2026) (0)	2026.06.11
Anthropic Petri 완벽 분석: AI가 코드 취약점을 자동으로 찾는 오픈소스 프레임워크 (2026) (0)	2026.06.05
AWS Bedrock OpenAI 모델 사용법 완벽 정리 (2026) (0)	2026.06.02
Starlette CVE-2026-48710 정리: AI 에이전트 보안 비상 (2026) (0)	2026.05.27
Databricks × GPT-5.5 엔터프라이즈 에이전트 구축 5가지 패턴 (2026) (0)	2026.05.18

AI·개발자 도구를 실무에서 쓰며 정리하는 블로그

Gemma 4 12B 로컬 실행: 16GB VRAM 멀티모달 가이드

핵심 3줄 요약

인코더 프리 구조와 16GB VRAM 적합성

Ollama·LM Studio·llama.cpp 시작 명령

MTP 드래프터 속도와 Gemma 3 26B MoE 비교

다음 단계로 무엇을 해야 하나

참고 자료

'AI 뉴스' 카테고리의 다른 글

티스토리툴바

Gemma 4 12B 로컬 실행: 16GB VRAM 멀티모달 가이드

핵심 3줄 요약

인코더 프리 구조와 16GB VRAM 적합성

Ollama·LM Studio·llama.cpp 시작 명령

MTP 드래프터 속도와 Gemma 3 26B MoE 비교

다음 단계로 무엇을 해야 하나

참고 자료

'AI 뉴스' 카테고리의 다른 글

관련글

티스토리툴바