AI 기능 수정 뒤 품질 흔들림을 줄이려는 평가 도입 고민
한 개발팀이 1년 동안 AI 기능을 자주 배포해 왔다고 말한다. 이 팀은 입력, 출력, 응답 시간, token usage를 기록해 왔고, 모델을 Gemini에서 Claude로 바꾸며 비용을 줄이려 했다. 하지만 작은 prompt 수정이나 모델 변경 뒤 답변 품질이 흔들려 hot fix를 해야 한 적이 있었다. 글쓴이는 eval pipeline을 가볍게 도입할 방법이 있는지, 아니면 Braintrust, Langfuse, Arize 같은 도구를 써야 하는지 묻고 있다.
핵심 포인트
- 팀은 AI 기능의 입력, 출력, 응답 시간, token usage를 이미 기록하고 있다.
- Gemini에서 Claude로 모델을 바꾸며 token usage를 줄였다고 말한다.
- 작은 prompt 수정과 모델 변경 뒤 답변 품질이 흔들린 경험이 있었다.
- 사용자 제보 뒤 hot fix를 해야 한 사례가 있었다.
- 글쓴이는 작은 팀에 맞는 가벼운 eval pipeline 도입 방법을 찾고 있다.
용어 한 줄 설명
- token usage
- AI가 답을 만들 때 사용한 글자 조각의 양으로, 보통 비용과 연결된다.
- token
- AI가 글을 읽고 쓸 때 세는 작은 글자 조각 단위입니다.
- prompt
- AI에게 원하는 결과를 설명하는 지시문입니다.
- Pro
- 보통 무료보다 더 많은 기능이나 사용량을 주는 유료 요금제를 뜻합니다.
- hot fix
- 문제가 생긴 뒤 급하게 내는 수정이다.
- eval pipeline
- AI 답변이 바뀌어도 품질이 괜찮은지 자동으로 확인하는 절차다.
- Rust
- 속도와 안정성을 높이기 위해 사용하는 프로그래밍 언어로, OpenAI가 Codex CLI를 이 언어로 다시 만들고 있습니다.
- AI 에이전트
- 사람 대신 정보를 찾거나 작업을 처리하도록 만든 AI 프로그램입니다.