AI 모델이 몰래 쓰고 청구하는 '숨겨진 토큰' 비용 주의
AI API를 사용하면 실제 응답에 보이지 않는 내부 추론 토큰도 함께 과금됩니다. 이 숨겨진 토큰은 모델이 답변을 생각하는 과정에서 생성되며, 예상보다 비용이 훨씬 높아질 수 있습니다.
OpenAI의 o1·o3, Claude의 확장 사고(extended thinking) 같은 '추론 모델'은 답변을 내놓기 전에 내부적으로 긴 생각 과정을 거칩니다. 이 과정에서 생성된 토큰은 화면에 표시되지 않지만 API 요금에는 그대로 포함됩니다. 예를 들어 응답이 200토큰으로 보여도 내부 추론에 2,000토큰이 쓰였다면 2,200토큰 요금이 청구됩니다.
이 사실을 모르면 예산을 크게 초과할 수 있습니다. 비용을 줄이려면 추론 모델 사용 시 API 응답의 usage 필드에서 실제 토큰 사용량을 확인하고, 추론 토큰 한도(budget tokens)를 설정하거나 추론이 불필요한 작업엔 일반 모델을 선택하는 것이 좋습니다.
핵심 포인트
용어 한 줄 설명
- 추론 토큰
- AI 모델이 답변을 만들기 전에 내부적으로 '생각'하는 과정에서 사용하는 토큰으로, 사용자에게는 보이지 않지만 비용은 청구된다.
- 토큰
- AI가 글을 읽고 쓸 때 세는 작은 글자 조각 단위입니다.
- 확장 사고(extended thinking)
- Claude 같은 AI가 복잡한 문제를 풀기 위해 답변 전에 긴 내부 추론 과정을 거치는 기능.
- usage 필드
- API 응답에 포함된 토큰 사용량 정보로, 입력·출력·추론 토큰 수를 각각 확인할 수 있다.
- budget tokens
- 추론 모델이 내부 생각에 쓸 수 있는 최대 토큰 수를 미리 제한하는 설정값.
- tokens
- AI가 글을 읽고 쓸 때 나누어 처리하는 작은 단위입니다.
- token
- AI가 글을 읽고 쓸 때 세는 작은 글자 조각 단위입니다.
- 토큰 비용
- AI가 글을 읽고 답할 때 처리한 글자 조각 수에 따라 드는 비용입니다.