오픈소스중요도: 높음

AI 모델이 몰래 쓰고 청구하는 '숨겨진 토큰' 비용 주의

r/LLMDevs2026년 6월 10일 · 3시간 전

AI API를 사용하면 실제 응답에 보이지 않는 내부 추론 토큰도 함께 과금됩니다. 이 숨겨진 토큰은 모델이 답변을 생각하는 과정에서 생성되며, 예상보다 비용이 훨씬 높아질 수 있습니다.

OpenAI의 o1·o3, Claude의 확장 사고(extended thinking) 같은 '추론 모델'은 답변을 내놓기 전에 내부적으로 긴 생각 과정을 거칩니다. 이 과정에서 생성된 토큰은 화면에 표시되지 않지만 API 요금에는 그대로 포함됩니다. 예를 들어 응답이 200토큰으로 보여도 내부 추론에 2,000토큰이 쓰였다면 2,200토큰 요금이 청구됩니다.

이 사실을 모르면 예산을 크게 초과할 수 있습니다. 비용을 줄이려면 추론 모델 사용 시 API 응답의 usage 필드에서 실제 토큰 사용량을 확인하고, 추론 토큰 한도(budget tokens)를 설정하거나 추론이 불필요한 작업엔 일반 모델을 선택하는 것이 좋습니다.

핵심 포인트

추론 모델(o1, o3, Claude 확장 사고)은 내부 '생각' 과정에서 토큰을 소비하지만 그 내용은 응답에 보이지 않는다
보이지 않는 추론 토큰도 API 요금에 포함되어 실제 비용이 표시된 응답 토큰보다 훨씬 많을 수 있다
API 응답의 usage 필드를 반드시 확인해 실제 총 토큰 사용량을 파악해야 한다
추론 토큰 예산(budget tokens) 설정 기능을 지원하는 모델은 상한선을 지정해 비용을 제어할 수 있다
단순 작업에는 추론 모델 대신 일반 모델을 사용해 불필요한 추론 토큰 비용을 피해야 한다

용어 한 줄 설명

추론 토큰: AI 모델이 답변을 만들기 전에 내부적으로 '생각'하는 과정에서 사용하는 토큰으로, 사용자에게는 보이지 않지만 비용은 청구된다.
토큰: AI가 글을 읽고 쓸 때 세는 작은 글자 조각 단위입니다.
확장 사고(extended thinking): Claude 같은 AI가 복잡한 문제를 풀기 위해 답변 전에 긴 내부 추론 과정을 거치는 기능.
usage 필드: API 응답에 포함된 토큰 사용량 정보로, 입력·출력·추론 토큰 수를 각각 확인할 수 있다.
budget tokens: 추론 모델이 내부 생각에 쓸 수 있는 최대 토큰 수를 미리 제한하는 설정값.
tokens: AI가 글을 읽고 쓸 때 나누어 처리하는 작은 단위입니다.
token: AI가 글을 읽고 쓸 때 세는 작은 글자 조각 단위입니다.
토큰 비용: AI가 글을 읽고 답할 때 처리한 글자 조각 수에 따라 드는 비용입니다.

원문 보기 ↗