본문 바로가기
AI 튜토리얼

스탠포드 CS336 LLM 강의 6주 학습 로드맵 (2026)

by 정부우르사 2026. 6. 2.
반응형

"무료라는 말에 끌려서 스탠포드 CS336 강의를 켰는데, 첫 영상 10분 만에 머리가 하얘진 경험 있나요?"



📌 핵심 3줄 요약

  • CS336 LLM 강의는 스탠포드 학부·대학원 학점 코스라 깊이가 깊고, 토크나이저부터 분산 학습까지 직접 코드로 다룬다.
  • 한국어 자료가 거의 없어 공식 GitHub 자료 + 영상 + 과제 순서를 미리 짜두면 중도 포기를 막을 수 있다.
  • 주당 8~12시간을 6주 동안 투자할 수 있어야 의미가 있고, 그 미만이라면 Karpathy 영상이 더 현실적이다.

💡 CS336이 어떤 강의인지부터

스탠포드 CS336은 정식 명칭 "Language Modeling from Scratch"로, GPT 계열 모델을 처음부터 직접 구현하는 5학점 학점 강의다. 토크나이저·Transformer 구현·시스템 효율·스케일링·데이터 큐레이션·정렬(alignment)까지 한 학기에 다루며 총 5개의 정식 assignment가 있다.

공식 자료는 stanford-cs336.github.io와 GitHub 조직 stanford-cs336에 공개돼 있고, 강의 영상은 YouTube 공식 재생목록에 올라온다. 한국어 번역본은 없고 자동 자막 품질도 들쭉날쭉하다.

💡 핵심 포인트

CS336은 "LLM API 사용법"이 아니라 "GPT 같은 모델을 직접 만든다"는 관점의 강의다. 라이브러리 호출이 아닌 행렬 연산 단계에서 무엇이 일어나는지 알고 싶은 사람용이다.


✅ 시작 전 사전 지식 체크리스트

강의를 끝까지 따라가려면 아래 항목이 어느 정도 익숙해야 한다. 모르는 게 절반 이상이면 1주 정도 보강 학습을 먼저 권한다.

  • PyTorch 기본기nn.Module, autograd, DataLoader를 직접 짜본 적이 있는지
  • 선형대수 — 행렬 곱·전치·고유벡터까지는 안 가도, 차원 추적이 막히지 않아야 함
  • 확률·정보이론 기초 — cross-entropy, KL divergence가 무엇인지 한 줄로 설명 가능한지
  • Transformer 구조 — attention, multi-head, residual, layer norm의 역할
  • 토크나이저 개념 — BPE가 무엇인지, vocab 사이즈가 왜 중요한지
  • Python 3.10+ 패키지 관리 — uvpip로 가상환경을 막히지 않고 만들 수 있어야 함
  • GPU/CUDA 경험 — 로컬 RTX나 Colab T4에서 작은 모델을 한 번이라도 학습해본 경험

🗓️ 6주 학습 로드맵

강의는 정규 학기 기준 약 18주 분량이지만, 핵심 트랙만 추리면 한국어 독학자가 6주에 마칠 수 있다. 주당 8~12시간이 현실적인 부하다.

주차 주제 과제 예상 시간
W1 강의 소개 + 토크나이저(BPE) assignment1 절반 10h
W2 Transformer 구현 + 학습 루프 assignment1 마무리 12h
W3 시스템 효율(메모리·연산·분산) assignment2 (systems) 10h
W4 스케일링 법칙·실험 설계 assignment3 (scaling) 10h
W5 데이터 처리·큐레이션 assignment4 (data) 12h
W6 평가·정렬(RLHF/DPO)·정리 assignment5 (alignment) + 미니 프로젝트 12h

실제로 W1에서 가장 막혔던 부분은 BPE 토크나이저였다. 강의 영상은 알고리즘을 칠판에 빠르게 그리며 넘어가는데, 영어 단어 분할이 익숙하지 않은 상태에서 한국어로 매핑이 잘 안 됐다. 결국 영상을 멈추고 짧은 코퍼스 100문장으로 BPE를 손으로 돌려보고 나서야 감이 잡혔다. "강의 → 손 실습 → 다시 강의" 사이클이 한국어 독학자에게는 거의 필수다.


🆚 Karpathy "Let's build GPT" 영상과 비교

CS336을 검색하면 가장 자주 같이 추천되는 게 Andrej Karpathy의 nanoGPT 시리즈다. 둘은 목표가 다르다.

기준 CS336 Karpathy 영상
총 분량 한 학기, 약 50시간+ 2~4시간(편당)
깊이 대학 학점 강의 수준 압축 핸즈온
과제 정식 assignment 5개 영상 따라 코딩
분산 학습 포함 거의 없음
선수 지식 PyTorch·확률·선형대수 Python + 기초 ML

Karpathy 영상을 먼저 본 뒤 CS336에 들어가는 순서가 가장 자연스럽다. nanoGPT로 큰 그림을 잡고, CS336에서 같은 개념을 학술적 깊이로 다시 만난다.


🔧 한국어 독학자를 위한 학습 환경 팁

  • 자막은 YouTube 자동 번역보다 영어 자막 + 모르는 용어만 사전으로 찾는 방식이 빠르다.
  • 강의 노트(PDF)가 영상보다 정밀하다. 영상은 1.25배속으로 흐름만 잡고 노트로 복습하는 패턴을 권한다.
  • 실습 환경은 Colab L4/A100, 로컬 RTX 3090/4090, vast.ai 단기 GPU 임대 중 택일. assignment1 BPE까지는 CPU로도 가능하다.
  • 과제 코드는 공식 저장소를 fork해서 주차별 브랜치로 관리하면 복기가 쉽다.

⚠️ 단점과 주의할 점

  • 주당 8~12시간을 6주간 빼기 어렵다면 Karpathy 영상 + 짧은 RAG 튜토리얼이 ROI가 낫다.
  • 한국어 커뮤니티가 거의 없어, 막히면 영문 Discord나 Reddit r/MachineLearning에 직접 질문해야 한다.
  • 일부 자료(연습문제 풀이 등)는 재학생 전용일 수 있어 자가 채점이 완벽하지 않다.

⚠️ 흔한 실수

처음부터 시스템·분산 학습 강의(W3)로 점프하지 말 것. W1~W2의 단일 GPU 학습 루프를 손으로 완성하지 않으면 분산 코드가 무엇을 줄여주는지 체감이 안 된다.


🙋 이런 분께 추천 / 비추

  • 추천 — LLM 내부 구조를 코드 레벨로 이해하려는 ML 엔지니어, 대학원 진학을 고려 중인 학부 고학년, 사내 모델 학습 파이프라인을 설계해야 하는 분.
  • 비추 — LLM 호출 앱을 만들고 싶은 분(LangChain 가이드가 더 빠름), 주당 5시간 미만만 낼 수 있는 분, PyTorch가 처음인 분.

✅ 핵심 정리

  • CS336은 학점 강의급 깊이의 "LLM from scratch" 코스다. 가볍게 보는 영상이 아니다.
  • 6주 로드맵은 토크나이저 → Transformer → 시스템 효율 → 스케일링 → 분산 → 평가/정렬 순으로 짜는 게 자연스럽다.
  • Karpathy 영상으로 큰 그림을 먼저 잡고 CS336에 들어가는 순서가 한국어 독학자에게 가장 안전하다.

🚀 지금 바로 할 일

  1. stanford-cs336.github.io에 접속해 최신 학기 강의 노트 PDF 1개를 다운로드한다.
  2. YouTube에서 CS336 1강과 Karpathy "Let's build GPT" 영상을 재생목록에 함께 저장한다.
  3. 로컬 또는 Colab에 PyTorch 2.x 환경을 만들고, nn.Linear 한 줄짜리 학습 루프를 굴려본다.

📚 참고 자료


💬 의견

CS336을 끝까지 완주해본 적이 있다면 어느 주차가 가장 힘들었는지 댓글로 알려주세요.


작성자: LLM·AI 도구를 매일 다루는 블로거가 공개된 스탠포드 CS336 자료와 한국어 독학자 관점을 결합해 정리했습니다. 강의 운영 정책은 학기마다 바뀔 수 있으니 등록 전 공식 사이트에서 최신 일정을 확인하세요.

반응형