llmtrim, AI 에이전트 호출 비용을 줄이는 로컬 압축 도구
llmtrim은 에 보내는 요청과 돌아오는 답변을 줄여 비용을 낮추는 도구다. 시스템 지시문, 도구 설명, 대화 기록, 도구 실행 결과, 코드, 긴 문맥에서 반복되거나 덜 중요한 부분을 줄인 뒤 모델 제공사로 보낸다. 112개의 실제 비교 테스트에서 입력 토큰은 31%, 은 74%, 전체 토큰은 43% 줄었고, 왕복 비용은 0.0365달러에서 0.0126달러로 66% 낮아졌다.
답변 품질 점수는 원본 78.9%, 압축본 82.2%였지만 표본 오차 범위 안이라 품질이 좋아졌다는 뜻보다는 뚜렷한 저하가 없었다는 뜻에 가깝다. Claude Code 실제 사용에서는 캐시로 이미 할인받는 앞부분은 건드리지 않고, 줄일 수 있는 입력의 68%를 줄였다고 제시한다. 압축해도 토큰이 줄지 않으면 원본으로 되돌리고, 요청이 거부되면 압축 전 요청을 다시 보내도록 설계되어 최악의 경우 절감이 없도록 한다.
설치는 전역 명령어, 셸 설정, 로컬 인증서, 서비스로 동작하며, OpenAI, Anthropic, Google 등 여러 제공사와 명령줄 기반 에이전트 도구에서 쓸 수 있다. 다만 기본 모드는 완전 무손실이 아니며, Anthropic과 Gemini의 토큰 계산은 공개된 정확한 계산기가 없어 근사값이라는 한계가 있다.
핵심 포인트
- 가 요청과 답변을 압축해 을 줄인다.
- 112개 실제 비교 테스트에서 입력 토큰 31%, 74%, 비용 66% 절감이 제시됐다.
- Claude Code 사용에서는 캐시 할인 구간을 유지하면서 줄일 수 있는 입력의 68%를 줄였다고 한다.
- 토큰 절감이 없거나 요청이 실패하면 원본 요청으로 되돌리는 안전장치가 있다.
- 기본 모드는 완전 무손실이 아니며 Anthropic과 Gemini 토큰 계산은 근사값이다.