이미지: lifehardmode 자체 제작
Claude Code를 매일 쓰는 개발자라면 한 달 청구서가 모델 가격표보다 훨씬 두꺼워지는 경험을 했을 것이다. 이유는 단순한 사용량이 아니라, 캐시·컨텍스트·서브에이전트를 설계 없이 굴린 결과다.
이 글은 Anthropic 공식 문서와 2026년 5월 기준 가격표를 바탕으로 한국 개발자가 가장 자주 놓치는 5가지 셋업을 정리한다.
모델을 바꾸기 전에 컨텍스트부터 바꿔라. 같은 작업을 같은 모델로도 30~60%까지 더 싸게 돌릴 수 있다.
핵심만 보면
- 프롬프트 캐싱은 옵션이 아니라 기본 설정이다. 캐시 read는 일반 입력의 10% 수준
/clear·/compact를 모르면 대화 한 줄마다 전체 컨텍스트를 다시 결제하는 셈- 큰 작업은 서브에이전트로 컨텍스트를 분리해야 메인 세션이 뚱뚱해지지 않는다
무슨 일이 있었나
2026년 들어 Anthropic은 Claude Code의 토큰 소모 구조를 두 번 바꿨다. Sonnet 4.6 출시와 함께 캐시 적중 비용이 일반 입력의 1/10 수준으로 굳어졌고, Opus 4.7 발표 이후 긴 컨텍스트에서의 캐시 보존 범위도 늘어났다.
문제는 한국 개발자 다수가 여전히 캐싱 없이 매 호출마다 전체 시스템 프롬프트와 CLAUDE.md를 새로 결제하고 있다는 점이다. 캐시 적중 한 번이 곧바로 입력 토큰의 80~90%를 깎는 구간인데도 그렇다.
1. 프롬프트 캐싱은 옵션이 아니다
Claude API에서 cache_control: {"type": "ephemeral"}을 시스템 프롬프트와 긴 도구 정의에 붙이면 5분 TTL의 캐시가 잡힌다. Claude Code는 이걸 내부에서 알아서 쓰지만, 직접 SDK로 워크플로우를 짤 때는 사용자가 명시해줘야 한다.
기준점은 이렇다.
- 시스템 프롬프트가 길거나 같은 문서를 반복 참조한다면 무조건 캐시
- 캐시 write 비용은 일반 입력의 1.25배지만, 두 번째 호출부터 read 비용은 일반 입력의 10% 수준
- 같은 컨텍스트로 3회 이상 호출하면 거의 항상 이득
2. /clear와 /compact를 손에 익히자
Claude Code의 대화창은 새 줄을 칠 때마다 전체 컨텍스트를 모델에 다시 보낸다. 한 시간짜리 디버깅 세션이 끝날 때면 첫 메시지 한 줄이 수만 토큰의 비용을 만들고 있다.
대처는 두 가지다.
- 작업이 바뀌면
/clear로 컨텍스트를 비운다. 같은 세션을 굳이 유지할 이유가 없다 - 같은 작업 안에서 흐름은 유지하되 무거워졌다면
/compact로 요약 압축한다
작업 단위가 바뀌는 순간에 /clear를 안 쓰면 한 달 청구서가 두 배가 된다. 한국 개발자 다수가 익숙한 ChatGPT의 새 채팅 클릭과 같은 습관을 옮겨오면 된다.
3. CLAUDE.md는 짧을수록 좋다
CLAUDE.md는 매 호출마다 시스템 프롬프트로 들어간다. 즉 한 줄을 더 쓰면 그만큼 매번 결제된다.
- 프로젝트 컨벤션, 자주 쓰는 스크립트 정도만 남긴다
- "이런 경우 이렇게 하라"는 상황별 지시는 서브에이전트나 슬래시 커맨드로 빼낸다
- 사례 모음은 별도 파일로 분리하고 필요할 때만 Claude에 읽힌다
4. 큰 작업은 서브에이전트로 분리한다
검색, 리뷰, 대규모 리팩터처럼 컨텍스트가 폭증하는 작업은 메인 세션 안에서 돌리지 말아야 한다. Claude Code의 Task 도구로 서브에이전트를 띄우면, 그 안에서 생긴 수만 토큰이 메인 컨텍스트에 들어오지 않는다.
메인 세션은 결정만 한다. 무거운 검색과 읽기는 서브에이전트에 맡긴다.
핵심은 결과만 받는 것이다. 사용한 도구 호출 로그와 중간 출력은 메인에 쌓이지 않는다. 청구서가 직접적으로 가벼워진다.
5. 모델 선택은 작업이 정한다
같은 프로젝트 안에서도 작업 종류에 따라 모델을 갈아끼우는 게 정석이다.
- 단순 편집, 포맷 수정, 문서 생성: Haiku 4.5
- 일반적인 코딩, 디버깅, 리팩터: Sonnet 4.6
- 복잡한 아키텍처 결정, 긴 추론: Opus 4.7
한국 개발자 다수가 Sonnet 또는 Opus 한 모델만 고정해 쓰는데, 단순 작업 비중이 크다면 Haiku로 옮기는 것만으로도 비용이 절반 이하가 된다. Claude Code에서는 /model 명령으로 즉시 바꿀 수 있다.
과장하면 안 되는 부분
가격은 모델별, 시점별로 바뀐다. 위 비교는 2026년 5월 시점의 공식 가격표 기준이며, 정확한 단가는 항상 Anthropic 가격 페이지에서 확인해야 한다.
캐싱도 만능이 아니다. 컨텍스트가 자주 바뀌는 디버깅 세션에서는 캐시 미스가 늘어 오히려 비용이 미세하게 늘 수 있다. 같은 시스템 프롬프트, 같은 도구 정의로 여러 번 호출되는 패턴일 때 가장 효과가 크다.
서브에이전트도 메인 세션을 가볍게 하는 대신 별도 호출 비용을 만든다. 결과가 짧을 때만 이득이다. 50줄 검색 결과를 다시 메인에 그대로 넘기면 결국 같은 토큰을 두 번 결제하게 된다.
한국 독자가 볼 지점
API 결제는 여전히 해외 카드 기반이다. 토스페이먼츠나 네이버페이 연동은 없고, Anthropic Console에서 카드 등록 시 한국 발급 카드 일부가 거부되는 사례가 보고된다. 환율과 카드 수수료까지 더하면 표시 가격에서 5~7% 더 나간다고 보면 된다.
기업이라면 AWS Bedrock이나 Google Vertex AI를 통한 결제 경로도 검토해야 한다. 단가는 비슷하지만 결제 흐름이 한국 법인에 맞고, 세금계산서 처리가 가능하다.
지금 체크할 것
- 시스템 프롬프트와 자주 쓰는 도구 정의에 캐싱이 들어가 있는가
- 작업이 바뀔 때
/clear를 누르고 있는가 - CLAUDE.md가 200줄을 넘기지 않는가
- 큰 검색·리뷰 작업을 서브에이전트로 빼고 있는가
- 단순 작업에 Sonnet 이상을 무의식적으로 쓰고 있지는 않은가
참고
'AI' 카테고리의 다른 글
| AI 스피커 3초 정적, 서비스 죽은 걸까? 인프라의 치명적 함정 (0) | 2026.06.05 |
|---|---|
| AI 스피커 3초 지연, 사용자 버린다: 엣지 컴퓨팅이 유일한 해법인가 (0) | 2026.06.02 |
| Qwen3.6 서빙, 생각 모드 켜두면 GPU가 죽는다? 비용 절감의 역설 (0) | 2026.05.29 |
| MCP 서버로 Claude에 한국 SaaS 붙이기, 막히는 건 인증부터다 (0) | 2026.05.21 |