"무료라는 말에 끌려서 스탠포드 CS336 강의를 켰는데, 첫 영상 10분 만에 머리가 하얘진 경험 있나요?"
📌 핵심 3줄 요약
- CS336 LLM 강의는 스탠포드 학부·대학원 학점 코스라 깊이가 깊고, 토크나이저부터 분산 학습까지 직접 코드로 다룬다.
- 한국어 자료가 거의 없어 공식 GitHub 자료 + 영상 + 과제 순서를 미리 짜두면 중도 포기를 막을 수 있다.
- 주당 8~12시간을 6주 동안 투자할 수 있어야 의미가 있고, 그 미만이라면 Karpathy 영상이 더 현실적이다.
💡 CS336이 어떤 강의인지부터
스탠포드 CS336은 정식 명칭 "Language Modeling from Scratch"로, GPT 계열 모델을 처음부터 직접 구현하는 5학점 학점 강의다. 토크나이저·Transformer 구현·시스템 효율·스케일링·데이터 큐레이션·정렬(alignment)까지 한 학기에 다루며 총 5개의 정식 assignment가 있다.
공식 자료는 stanford-cs336.github.io와 GitHub 조직 stanford-cs336에 공개돼 있고, 강의 영상은 YouTube 공식 재생목록에 올라온다. 한국어 번역본은 없고 자동 자막 품질도 들쭉날쭉하다.
💡 핵심 포인트
CS336은 "LLM API 사용법"이 아니라 "GPT 같은 모델을 직접 만든다"는 관점의 강의다. 라이브러리 호출이 아닌 행렬 연산 단계에서 무엇이 일어나는지 알고 싶은 사람용이다.
✅ 시작 전 사전 지식 체크리스트
강의를 끝까지 따라가려면 아래 항목이 어느 정도 익숙해야 한다. 모르는 게 절반 이상이면 1주 정도 보강 학습을 먼저 권한다.
- PyTorch 기본기 —
nn.Module,autograd,DataLoader를 직접 짜본 적이 있는지 - 선형대수 — 행렬 곱·전치·고유벡터까지는 안 가도, 차원 추적이 막히지 않아야 함
- 확률·정보이론 기초 — cross-entropy, KL divergence가 무엇인지 한 줄로 설명 가능한지
- Transformer 구조 — attention, multi-head, residual, layer norm의 역할
- 토크나이저 개념 — BPE가 무엇인지, vocab 사이즈가 왜 중요한지
- Python 3.10+ 패키지 관리 —
uv나pip로 가상환경을 막히지 않고 만들 수 있어야 함 - GPU/CUDA 경험 — 로컬 RTX나 Colab T4에서 작은 모델을 한 번이라도 학습해본 경험
🗓️ 6주 학습 로드맵
강의는 정규 학기 기준 약 18주 분량이지만, 핵심 트랙만 추리면 한국어 독학자가 6주에 마칠 수 있다. 주당 8~12시간이 현실적인 부하다.
| 주차 | 주제 | 과제 | 예상 시간 |
|---|---|---|---|
| W1 | 강의 소개 + 토크나이저(BPE) | assignment1 절반 | 10h |
| W2 | Transformer 구현 + 학습 루프 | assignment1 마무리 | 12h |
| W3 | 시스템 효율(메모리·연산·분산) | assignment2 (systems) | 10h |
| W4 | 스케일링 법칙·실험 설계 | assignment3 (scaling) | 10h |
| W5 | 데이터 처리·큐레이션 | assignment4 (data) | 12h |
| W6 | 평가·정렬(RLHF/DPO)·정리 | assignment5 (alignment) + 미니 프로젝트 | 12h |
실제로 W1에서 가장 막혔던 부분은 BPE 토크나이저였다. 강의 영상은 알고리즘을 칠판에 빠르게 그리며 넘어가는데, 영어 단어 분할이 익숙하지 않은 상태에서 한국어로 매핑이 잘 안 됐다. 결국 영상을 멈추고 짧은 코퍼스 100문장으로 BPE를 손으로 돌려보고 나서야 감이 잡혔다. "강의 → 손 실습 → 다시 강의" 사이클이 한국어 독학자에게는 거의 필수다.
🆚 Karpathy "Let's build GPT" 영상과 비교
CS336을 검색하면 가장 자주 같이 추천되는 게 Andrej Karpathy의 nanoGPT 시리즈다. 둘은 목표가 다르다.
| 기준 | CS336 | Karpathy 영상 |
|---|---|---|
| 총 분량 | 한 학기, 약 50시간+ | 2~4시간(편당) |
| 깊이 | 대학 학점 강의 수준 | 압축 핸즈온 |
| 과제 | 정식 assignment 5개 | 영상 따라 코딩 |
| 분산 학습 | 포함 | 거의 없음 |
| 선수 지식 | PyTorch·확률·선형대수 | Python + 기초 ML |
Karpathy 영상을 먼저 본 뒤 CS336에 들어가는 순서가 가장 자연스럽다. nanoGPT로 큰 그림을 잡고, CS336에서 같은 개념을 학술적 깊이로 다시 만난다.
🔧 한국어 독학자를 위한 학습 환경 팁
- 자막은 YouTube 자동 번역보다 영어 자막 + 모르는 용어만 사전으로 찾는 방식이 빠르다.
- 강의 노트(PDF)가 영상보다 정밀하다. 영상은 1.25배속으로 흐름만 잡고 노트로 복습하는 패턴을 권한다.
- 실습 환경은 Colab L4/A100, 로컬 RTX 3090/4090, vast.ai 단기 GPU 임대 중 택일. assignment1 BPE까지는 CPU로도 가능하다.
- 과제 코드는 공식 저장소를 fork해서 주차별 브랜치로 관리하면 복기가 쉽다.
⚠️ 단점과 주의할 점
- 주당 8~12시간을 6주간 빼기 어렵다면 Karpathy 영상 + 짧은 RAG 튜토리얼이 ROI가 낫다.
- 한국어 커뮤니티가 거의 없어, 막히면 영문 Discord나 Reddit r/MachineLearning에 직접 질문해야 한다.
- 일부 자료(연습문제 풀이 등)는 재학생 전용일 수 있어 자가 채점이 완벽하지 않다.
⚠️ 흔한 실수
처음부터 시스템·분산 학습 강의(W3)로 점프하지 말 것. W1~W2의 단일 GPU 학습 루프를 손으로 완성하지 않으면 분산 코드가 무엇을 줄여주는지 체감이 안 된다.
🙋 이런 분께 추천 / 비추
- 추천 — LLM 내부 구조를 코드 레벨로 이해하려는 ML 엔지니어, 대학원 진학을 고려 중인 학부 고학년, 사내 모델 학습 파이프라인을 설계해야 하는 분.
- 비추 — LLM 호출 앱을 만들고 싶은 분(LangChain 가이드가 더 빠름), 주당 5시간 미만만 낼 수 있는 분, PyTorch가 처음인 분.
✅ 핵심 정리
- CS336은 학점 강의급 깊이의 "LLM from scratch" 코스다. 가볍게 보는 영상이 아니다.
- 6주 로드맵은 토크나이저 → Transformer → 시스템 효율 → 스케일링 → 분산 → 평가/정렬 순으로 짜는 게 자연스럽다.
- Karpathy 영상으로 큰 그림을 먼저 잡고 CS336에 들어가는 순서가 한국어 독학자에게 가장 안전하다.
🚀 지금 바로 할 일
- stanford-cs336.github.io에 접속해 최신 학기 강의 노트 PDF 1개를 다운로드한다.
- YouTube에서 CS336 1강과 Karpathy "Let's build GPT" 영상을 재생목록에 함께 저장한다.
- 로컬 또는 Colab에 PyTorch 2.x 환경을 만들고,
nn.Linear한 줄짜리 학습 루프를 굴려본다.
📚 참고 자료
💬 의견
CS336을 끝까지 완주해본 적이 있다면 어느 주차가 가장 힘들었는지 댓글로 알려주세요.
작성자: LLM·AI 도구를 매일 다루는 블로거가 공개된 스탠포드 CS336 자료와 한국어 독학자 관점을 결합해 정리했습니다. 강의 운영 정책은 학기마다 바뀔 수 있으니 등록 전 공식 사이트에서 최신 일정을 확인하세요.
'AI 튜토리얼' 카테고리의 다른 글
| TradingAgents: 멀티 에이전트 LLM 트레이딩 30분 가이드 (0) | 2026.06.03 |
|---|---|
| MAI-Code-1-Flash 출시 1차 분석 정리 (2026) (0) | 2026.06.03 |
| VoxCPM2 사용법: 로컬 오픈소스 TTS·보이스 클로닝 완벽 가이드 (2026) (0) | 2026.06.01 |
| Bonsai Image 4B 로컬 실행 가이드: 1-Bit 양자화로 노트북 이미지 생성 (2026) (0) | 2026.06.01 |
| SQLite durable workflow 실전 가이드 — 상태 머신·트랜잭션·폴링 워커 (2026) (0) | 2026.05.30 |