llmbuffer, AI 에이전트 대화 비용을 줄이는 파이썬 도구
llmbuffer는 LLM 대화 기록을 더 잘 정리해 cache를 더 많이 쓰게 하는 파이썬 라이브러리입니다. 만든 사람은 agent 대화에서 dynamic context가 자주 바뀌어도 오래 유지되는 대화 기록은 덜 바뀌게 하는 방식이라고 설명합니다. README의 시뮬레이션 예시는 15번 대화에서 일반 방식보다 입력 비용이 약 43% 낮았다고 말합니다.
핵심 포인트
- 파이썬 3.9 이상에서 쓰는 LLM 대화 기록 관리 라이브러리입니다.
- 고정된 시스템 지시문과 오래된 대화 기록을 앞쪽에 두어 cache가 유지되게 합니다.
- 자주 바뀌는 RAG 결과, 시간, 도구 호출 내용은 뒤쪽에 두는 방식을 씁니다.
- OpenAI와 Anthropic 사용 예시가 있고, provider adapter를 바꿔 다른 제공자도 붙일 수 있다고 설명합니다.
- 긴 기록은 자르거나 요약하는 compaction hook을 넣을 수 있습니다.
용어 한 줄 설명
- Buffer
- 소셜미디어 게시물을 예약하고 관리하는 서비스입니다.
- dynamic context
- 대화마다 바뀌는 추가 정보입니다.
- context
- AI가 답을 만들 때 참고로 받는 배경 정보입니다.
- 시뮬레이션
- 실제로 실험하기 어려운 현상을 컴퓨터 계산으로 가상으로 재현하는 것입니다.
- AI 에이전트
- 사람 대신 정보를 찾거나 작업을 처리하도록 만든 AI 프로그램입니다.
- tokens
- AI가 글을 읽고 쓸 때 나누어 처리하는 작은 단위입니다.
- 도구 호출
- AI가 검색, 파일 읽기 같은 외부 기능을 부르는 일입니다.
- compaction
- 긴 대화가 쌓였을 때 맥락을 압축·요약해 처리하는 Claude Code의 내부 과정.