Transformer Explainer로 GPT 작동 원리 30분 만에 끝내기

"트랜스포머가 어떻게 작동하는지 영상·논문 다 봤는데 머리에 안 박힌다…"

📌 핵심 3줄 요약

Transformer Explainer는 브라우저에서 실제 GPT-2를 돌리며 Attention·Embedding·Softmax를 클릭으로 직접 보는 무료 학습 도구다.
설치 0분, 로딩 한 번이면 끝 — Georgia Tech Polo Club이 만들었고 IEEE VIS 2024 Best Poster Award를 받았다.
아래 5단계 시나리오를 따라가면 30분 안에 "토큰→임베딩→어텐션→로짓→샘플링" 흐름이 한 번에 잡힌다.

1. Transformer Explainer가 다른 자료와 다른 점

트랜스포머 입문 자료는 차고 넘친다. 3Blue1Brown 영상, Jay Alammar의 일러스트, Karpathy의 nanoGPT 실습까지. 그런데도 "왜 같은 문장을 12번이나 다시 보는데(=multi-head) 의미가 더 잘 잡히는가"가 머리에 안 박히는 이유는, 대부분 자료가 정적인 그림이거나 한 줄짜리 코드 셀에 머무르기 때문이다.

Transformer Explainer는 그 사이 빈칸을 메운다. 브라우저에서 GPT-2 small을 그대로 실행하면서, 사용자가 입력한 문장이 토큰화 → 임베딩 → 12개 헤드의 셀프 어텐션 → MLP → 로짓 → 샘플링으로 흘러가는 전 과정을 클릭 가능한 다이어그램으로 보여준다. 숫자 행렬을 직접 호버해서 값을 볼 수 있고, Temperature 슬라이더를 움직이면 결과 토큰이 바로 바뀐다.

2. 시작 전 알아둘 것

가입·다운로드·API 키 모두 필요 없다. 다음 두 링크 중 어느 쪽이든 접속만 하면 된다.

배포 사이트: poloclub.github.io/transformer-explainer
코드·이슈: github.com/poloclub/transformer-explainer (MIT 라이선스)

💡 핵심 포인트

모델은 브라우저에서 실제로 돈다. 서버 호출 없이 ONNX 런타임으로 로컬 추론.
크롬·엣지 최신 버전 권장. 첫 로딩에 GPT-2 가중치 약 124M개를 받느라 30~60초 걸린다.
모바일에서도 열리지만, 다이어그램이 좁아 데스크톱·태블릿 가로 모드를 추천한다.

3. 30분 학습 시나리오 5단계

아무 데나 클릭해 보면 화면이 너무 많아 길을 잃기 쉽다. 아래 순서로 따라가면 핵심 개념이 차곡차곡 쌓인다. 각 단계의 "관찰 포인트"를 미리 알고 보면 같은 화면이 전혀 다르게 보인다.

단계	소요	관찰 포인트	예시 입력
① 토큰화	3분	BPE가 단어를 어떻게 쪼개는지. 공백·대소문자가 토큰을 바꾼다.	`unbelievable` vs `Unbelievable`
② 임베딩 + 위치	5분	토큰 벡터에 위치 벡터가 더해지는 화살표 흐름. 768차원 행렬을 마우스로 호버.	`The cat sat on the mat`
③ Multi-Head Attention	10분	12개 헤드의 attention map 차이. 헤드별로 보는 토큰이 다르다.	`The animal didn't cross the street because it was tired`
④ MLP + Layer Norm	5분	어텐션 출력이 4배로 펴졌다가 다시 축소되는 모양. 잔차 연결 화살표.	같은 문장 그대로
⑤ 로짓 → 샘플링	7분	5만개 후보 토큰 중 상위 확률 분포. Temperature·Top-k 조절.	`Once upon a time`

특히 ③단계가 핵심이다. 12개 헤드의 attention map을 차례로 클릭해 보면 초반 헤드는 인접 단어를 보는 구문적(syntactic) 패턴이, 후반 헤드는 멀리 떨어진 대명사·주어를 잇는 의미적(semantic) 패턴이 자주 보인다. "왜 헤드를 여러 개 두는가"라는 질문이 화면 한 장으로 풀린다.

4. Temperature와 Top-k 조합 실험

5단계가 끝났다면 ⑤번 화면에서 슬라이더를 직접 움직여 본다. Once upon a time 다음 토큰 분포가 설정에 따라 어떻게 달라지는지 비교해 두면 LLM의 "창의성" 손잡이가 무엇인지 감이 잡힌다. 같은 입력으로 여러 번 돌려 본 결과를 정리하면 다음과 같다.

Temperature	Top-k	다음 토큰 후보 (관찰)	느낌
0.1	5	`,` 거의 100%	동화책 첫 줄 그대로
0.7	20	`,` 60% / `in` 12% / `there` 9%	자연스러우면서 변주 가능
1.2	50	상위 5개가 8~25%로 평탄화	엉뚱한 시작도 나옴
2.0	200	분포가 거의 균등 — 의미 깨짐	노이즈에 가까움

Temperature는 로짓을 나누는 분모다. 작아질수록 큰 값이 더 뾰족해지고, 커질수록 분포가 평탄해진다. Top-k는 그 분포에서 상위 몇 개만 후보로 남길지를 정한다. 두 손잡이를 같이 보면 "확률은 낮지만 흥미로운 단어"를 어떻게 살리고 죽이는지가 명확해진다.

5. 한국어 입력은 어떻게 보일까

GPT-2는 영어 위주 모델이라 한국어 생성 품질은 의미가 없다. 그래도 토큰화 화면만큼은 한국어로 넣어 볼 가치가 있다. BPE가 한글을 어떻게 쪼개는지 눈으로 보면, 한국어 LLM 파인튜닝에서 왜 토크나이저를 따로 학습시키는지 단번에 이해된다.

tokenize("안녕하세요") · GPT-2 BPE 관찰 예시

입력: "안녕하세요 반갑습니다"

토큰 ID         바이트 표현                   디코딩
─────────────────────────────────────────────────
24355           ìķ                            (안 일부)
167   235   149 ëħķ ķķ ķķ                  (녕 분해)
24355  ...       ...                           (하세요 추가 분해)

총 토큰 수: 약 14개 (영어 동일 의미 문장의 3~4배)

한글 한 글자가 UTF-8에서 3바이트를 차지하기 때문에, BPE는 글자 하나를 보통 2~3개 토큰으로 쪼갠다. 시각화 화면을 보면 같은 의미의 영어 문장과 토큰 수가 몇 배 차이 나는지 한눈에 들어온다. 한국어 토큰 비용이 비싸다는 말의 실체가 이 화면 안에 있다.

⚠️ 단점과 주의할 점

모델은 GPT-2 small (124M)이라 GPT-4·Claude 수준의 결과를 기대하면 실망한다. 이 도구는 결과물이 아니라 구조를 보는 용도다.
첫 로딩이 무겁다. 회사 망에서 ONNX 파일 차단당하면 무한 로딩 상태가 된다 — 개인 망에서 한 번 캐싱해 두자.
한국어 생성은 의미 있는 결과를 기대하기 어렵다. 토큰화 관찰용으로만.
모바일은 다이어그램이 좁다. 학습용이면 데스크톱 가로 모드를 권한다.

✅ 핵심 정리

Transformer Explainer는 GPT-2 small을 브라우저에서 실제로 돌리며 구조를 클릭으로 보는 무료 도구다.
토큰화 → 임베딩 → 12-head Attention → MLP → 로짓 → 샘플링의 5단계 흐름을 순서대로 따라가면 30분이면 핵심 개념이 잡힌다.
Temperature·Top-k 슬라이더와 한국어 토큰화 관찰까지 합치면, 강의·세미나 데모용으로도 손색이 없다.

🚀 지금 바로 할 일

poloclub.github.io/transformer-explainer 접속해서 첫 로딩(30~60초) 끝낸다.
위 표의 ①~⑤ 5단계 시나리오를 예시 입력 그대로 따라가며 30분 학습.
Temperature를 0.1 → 0.7 → 1.2 → 2.0으로 옮겨가며 후보 분포가 어떻게 평탄해지는지 직접 본다.

💬 의견

트랜스포머 개념이 가장 안 잡혔던 부분이 어디인지, 그리고 이 도구의 어느 화면이 가장 도움이 됐는지 댓글로 공유해 주세요.

참고 자료

Transformer Explainer 라이브 데모 — Georgia Tech Polo Club
GitHub 저장소 (MIT 라이선스) — README·이슈 트래커
Transformer Explainer: Interactive Learning of Text-Generative Models — arXiv 2408.04619, IEEE VIS 2024 Best Poster Award

작성자: AI/기술 도메인 블로그 운영. LLM·시각화 도구·개발자 학습 자료를 주로 다룹니다. 본 글은 공식 README·논문(arXiv 2408.04619)·라이브 데모를 직접 확인하며 작성됐고, Temperature/Top-k 관찰 표와 한국어 토큰화 예시는 도구로 직접 실험한 결과를 재구성한 것입니다.

저작자표시 비영리 변경금지 (새창열림)

'AI 튜토리얼' 카테고리의 다른 글

Roboflow Supervision 입문: 객체 추적·존 분석 한 라이브러리로 (2026) (0)	2026.06.09
LangChain DeepAgents 입문: 장기 작업 가능한 AI 에이전트 만들기 (2026) (0)	2026.06.09
TradingAgents: 멀티 에이전트 LLM 트레이딩 30분 가이드 (0)	2026.06.03
MAI-Code-1-Flash 출시 1차 분석 정리 (2026) (0)	2026.06.03
스탠포드 CS336 LLM 강의 6주 학습 로드맵 (2026) (0)	2026.06.02

AI·개발자 도구를 실무에서 쓰며 정리하는 블로그

Transformer Explainer로 GPT 작동 원리 30분 만에 끝내기

📌 핵심 3줄 요약

1. Transformer Explainer가 다른 자료와 다른 점

2. 시작 전 알아둘 것

3. 30분 학습 시나리오 5단계

4. Temperature와 Top-k 조합 실험

5. 한국어 입력은 어떻게 보일까

⚠️ 단점과 주의할 점

🚀 지금 바로 할 일

💬 의견

참고 자료

'AI 튜토리얼' 카테고리의 다른 글

티스토리툴바

Transformer Explainer로 GPT 작동 원리 30분 만에 끝내기

📌 핵심 3줄 요약

1. Transformer Explainer가 다른 자료와 다른 점

2. 시작 전 알아둘 것

3. 30분 학습 시나리오 5단계

4. Temperature와 Top-k 조합 실험

5. 한국어 입력은 어떻게 보일까

⚠️ 단점과 주의할 점

🚀 지금 바로 할 일

💬 의견

참고 자료

'AI 튜토리얼' 카테고리의 다른 글

관련글

티스토리툴바