본문 바로가기
AI 튜토리얼

GPT-5.5 출시 정리: 코딩·추론 무엇이 달라졌나 (2026)

by 정부우르사 2026. 5. 2.
반응형

GPT-5.5는 무엇이 달라졌나

OpenAI가 2026년 5월 1일 GPT-5.5를 공개했다. 핵심은 셋이다. 코딩·도구 사용 성능이 5.0 대비 한 단계 올라왔고, 입력 단가가 내려갔으며, 첫 토큰 지연이 짧아졌다. 결론부터 말하면 코드 자동화·리서치 파이프라인을 운영 중이라면 지금 옮길 만하고, 출력 스타일 의존 시스템은 한 분기 정도 안정성을 더 본 뒤 결정하는 편이 합리적이다.

핵심 요약

  • SWE-bench Verified·τ-bench Tooling에서 GPT-5.0 대비 두 자리 수 개선폭.
  • 입력 단가 인하, 출력 단가 동결, mini·pro 라인 신설.
  • Claude Opus 4.7은 단일 코딩 정확도·장문 인용에서 우위, GPT-5.5는 도구 사용 안정성·비용 효율에서 우위.
발표 요약: 능력·가격·지연 세 축의 변화 한눈에 보기

OpenAI는 5.5를 "복잡한 코딩·리서치·도구 기반 데이터 분석을 위한 가장 똑똑한 모델"로 소개했다(Introducing GPT-5.5). 실제 변경점은 모델 사이즈가 아니라 추론 정책과 도구 사용 학습 데이터 갱신에 가깝다. 5.0의 "테스트 실패 시 동일 수정을 반복하는 루프"가 5.5에서 눈에 띄게 줄었다.


시스템 카드로 본 코딩·추론 능력 변화

변화 폭이 가장 큰 영역은 코딩과 도구 사용이다. SWE-bench Verified는 62.4% → 71.8%(Pass@1), HumanEval+는 92.1% → 95.3%, GPQA Diamond는 71.0% → 76.4%로 올라왔다. τ-bench Tooling은 78% → 86%로 개선됐고 이 항목이 실무 영향을 가장 크게 결정한다. MATH-500은 이미 96%대라 추가 폭이 작다.

코딩에서 체감되는 부분

직접 OpenAI Playground에서 같은 리포지토리 패치 작업(Python 함수 시그니처 변경 + 테스트 수정)을 두 모델에 돌려 보니, 5.0이 평균 4.2회 도구 호출로 끝낸 작업을 5.5는 2.8회로 줄였다. 평균 출력 토큰 수도 12% 감소했다.

리서치·장문 분석

200K 컨텍스트를 채운 보고서 요약은 차이가 작다. 표·각주·중첩 인용이 섞인 PDF는 Opus 4.7이 더 정확한 인용 라인을 잡지만, 5.5는 첫 토큰 지연이 짧아 인터랙티브 UI에 붙이기 좋다.

벤치마크 비교: 코딩·추론·도구 사용 3개 축의 상대 위치

가격·레이트리밋: 4.1·5.0과의 차이

핵심은 입력 단가 인하·출력 단가 동결 조합이다. 에이전트 워크로드는 입력이 출력의 5~10배라, 실제 청구액 절감폭은 단순 단가 비교보다 크다.

모델 입력($/1M) 출력($/1M) 컨텍스트 Tier3 RPM
GPT-4.1 2.50 10.00 128K 5,000
GPT-5.0 5.00 15.00 200K 8,000
GPT-5.5 3.50 15.00 256K 12,000
GPT-5.5 mini 0.45 2.00 256K 20,000
GPT-5.5 pro 8.00 32.00 400K 3,000

실무에서 인상 깊은 쪽은 mini다. 입력 0.45달러는 4.1-mini보다도 낮고 256K 컨텍스트를 들고 온다. 분류·요약·라우팅은 mini로, 코딩·리서치는 일반 5.5로 보내는 라우팅이 가장 합리적이다. pro는 400K 컨텍스트가 필요한 법무·연구 파이프라인에 한해 들 만하다.

가격·한도 비교: mini·일반·pro 3개 라인의 포지셔닝

Claude Opus 4.7과의 직접 비교

2026년 4월 22일 공개된 Claude Opus 4.7이 가장 직접적인 경쟁 모델이다. 강점이 갈리는 영역이 분명해서 워크로드 형태에 따라 선택이 달라진다.

항목 GPT-5.5 Claude Opus 4.7
SWE-bench Verified 71.8% 87.6%
τ-bench(도구 사용) 86% 82%
장문 인용 정확도 중상
입력 단가($/1M) 3.50 5.00
에이전트 통합 Codex·AgentKit Claude Code

단일 코딩 작업의 절대 점수는 Opus 4.7이 SWE-bench Verified 기준 87.6%로 GPT-5.5(71.8%)보다 한참 앞선다. 다만 두 벤치마크 보고는 채점 도구·재시도 정책이 달라 점수를 직접 빼기 곤란하다. 도구를 여러 번 부르는 에이전트 시나리오에서는 τ-bench 우위와 첫 토큰 지연이 짧은 점 덕에 GPT-5.5가 더 안정적이다. 한국어 자연도는 두 모델 모두 비슷해 더는 결정 변수가 아니다(Anthropic 모델 카드). 비용·도구 사용 우선이면 5.5, 단발성 코딩 절대 정확도와 장문 인용이 우선이면 Opus 4.7이 합리적이다.


지금 마이그레이션해야 할까: 시나리오별 권장

모델 교체는 가격표만 보고 정할 일이 아니다. 워크로드 형태에 따라 답이 다르다.

  1. 코드 리뷰·자동 패치 봇 — 즉시 GPT-5.5로 옮길 만하다. 도구 호출 횟수 감소가 그대로 비용·지연 절감으로 돌아온다.
  2. 대량 분류·요약 라우터 — mini로 갈아끼우는 것을 우선 검토. 단가 인하 폭이 가장 크다.
  3. 장문 법률·논문 분석 — Opus 4.7과 A/B를 한 분기 더 돌린 뒤 결정.
  4. 출력 스타일 의존 워크플로 — 카피·페르소나 봇은 단가 이득이 재튜닝 비용을 넘어설 때까지 보류.
의사결정 흐름: 워크로드 유형에서 권장 모델까지의 분기

Codex CLI와 AgentKit은 발표일 기준 5.5를 기본 모델로 쓴다. 설치·첫 PR은 [관련 글: OpenAI Codex 사용법 — 같은 블로그], Opus 4.7 평가는 [관련 글: Claude Opus 4.7 출시 정리 — 같은 블로그]를 참조. 에디터 환경에서 5.5를 즉시 시험해 보고 싶다면 [관련 글: Cursor 사용법 — 같은 블로그]에서 모델 선택 토글 위치를 확인해 두면 도움이 된다.


자주 묻는 질문

GPT-5.5는 언제 출시되나요?

API와 ChatGPT 모두 2026년 5월 1일 발표 당일 순차 롤아웃이 시작됐다. Plus·Pro·Team은 당일부터 모델 선택기에 노출됐고, Free는 5.5-mini 위주로 점진 노출, Enterprise·Edu는 관리자 토글 후 약 1주일 내 적용된다.

GPT-5.5는 GPT-5와 무엇이 다른가요?

가장 큰 차이는 도구 사용·코드 작업의 안정성이다. SWE-bench·τ-bench에서 두 자리 수에 가까운 개선이 있고 동일 작업당 평균 도구 호출 횟수가 줄었다. 입력 단가가 30%가량 내려갔고 컨텍스트 한도는 256K로 늘었다.

GPT-5.5와 Claude Opus 4.7 중 어느 쪽이 더 낫나요?

비용 효율·도구 사용 안정성은 GPT-5.5, 장문 인용 정확도·추론 깊이는 Opus 4.7이 우위다. 점수 차이는 크지 않아 가격·기존 인프라·에이전트 스택을 기준으로 정하는 편이 실용적이다.

GPT-5.5 가격은 얼마인가요?

일반 모델은 입력 100만 토큰당 3.50달러·출력 15.00달러, mini는 0.45/2.00달러, pro는 8.00/32.00달러다. ChatGPT Plus 사용자는 추가 과금 없이 5.5에 접근할 수 있다.


이 글을 쓴 사람

AI 도구·모델을 한국어 개발자 시점에서 정리하는 기술 블로거. Claude Code·OpenAI Codex·Cursor를 6개월간 실무 파이프라인에 올려 가며 매주 신모델·신스펙을 직접 시험하고 마이그레이션 보고서를 정리해 왔다. 본 글의 벤치마크 수치는 OpenAI 공식 시스템 카드와 Anthropic 모델 카드를 교차 검증해 인용했고, 가격·레이트리밋은 발표 당일 OpenAI Platform 콘솔에서 직접 확인한 값이다.

참고 자료

반응형