운영 중인 AI API 재시도와 비용 한도 관리 문제
운영 중인 AI 기능에서는 API 제공사가 응답하지 않거나 429 오류를 보낼 때 앱이 다시 요청을 보내는 일이 생긴다. 이때 무작정 재시도하면 같은 요청이 여러 번 처리되어 비용이 예상보다 커질 수 있다.
중요한 쟁점은 재시도 전에 얼마나 기다릴지, 언제 다른 제공사로 바꿀지, 응답 실패가 이미 비용으로 청구됐을 가능성을 어떻게 볼지다. 여러 요청이 동시에 재시도될 때 정해 둔 비용 한도를 넘지 않게 막는 것도 어렵다.
ai-prod-guard라는 초기 오픈소스 TypeScript 패키지는 요청별·세션별 강한 비용 한도, Retry-After에 따른 대기, 대체 제공사 사용, 제공사 상태를 잠시 기억해 아픈 제공사를 건너뛰는 기능을 목표로 한다. 실제 운영팀들은 이런 문제를 자체 개발, 게이트웨이, 제공사 SDK 기본값 중 무엇으로 처리하는지가 핵심 질문이다.
핵심 포인트
- API 제공사가 타임아웃이나 429 오류를 내면 재시도가 비용을 키울 수 있다.
- 응답 실패가 실제로 청구됐는지 확실하지 않을 때 가능한 비용 노출을 따로 추적해야 한다.
- 동시 재시도는 정해 둔 비용 한도를 한순간에 넘길 수 있다.
- ai-prod-guard는 요청·세션 단위 비용 한도와 제공사 전환을 다루려는 초기 오픈소스 TypeScript 패키지다.
- 제공사 SDK 기본값만 믿기보다 재시도, 대기, 중단, 전환 규칙을 명확히 둘 필요가 있다.
용어 한 줄 설명
- 429 오류
- 서버가 '요청이 너무 많다'고 거부할 때 반환하는 HTTP 상태 코드
- 오픈소스
- 소스 코드를 공개해 누구나 보고 사용할 수 있게 한 방식입니다.
- TypeScript
- JavaScript에 타입 검사를 더한 프로그래밍 언어입니다.
- 패키지
- 개발자가 기능을 빠르게 추가하려고 가져다 쓰는 외부 코드 묶음입니다.
- Retry-After
- 다시 요청하기 전에 얼마나 기다려야 하는지 알려주는 응답 정보다.
- 게이트웨이
- Hermes Agent와 외부 서비스 사이에서 연결을 중계하는 실행 환경입니다.
- SDK
- 프로그램을 더 쉽고 빠르게 만들 수 있도록 미리 짜여진 도구 모음입니다.
- AI 에이전트
- 사람 대신 정보를 찾거나 작업을 처리하도록 만든 AI 프로그램입니다.