OSCAR, 2비트 KV cache로 긴 AI 실행 비용 줄이는 방법 공개
r/LocalLLaMA 글은 OSCAR라는 KV cache quantization 방법의 새 자료를 공유했다. 글에는 Gemma와 Qwen 모델용 GGUF 다운로드, llama.cpp와 SGLang용 코드, OSCAR 논문 링크가 포함됐다. 논문은 INT2 방식으로 KV cache 메모리를 약 8배 줄이고, 같은 메모리 조건에서 처리량을 크게 높였다고 주장한다.
핵심 포인트
용어 한 줄 설명
- r/LocalLLaMA
- 개인 장비에서 AI 모델을 돌리는 이야기를 주로 나누는 Reddit 커뮤니티다.
- LocalLLaMA
- 개인이 직접 돌릴 수 있는 AI 모델을 주로 다루는 Reddit 커뮤니티입니다.
- KV cache
- AI가 긴 대화를 처리할 때 이전 내용을 다시 계산하지 않도록 저장해 두는 메모리 공간이다.
- cache
- 이미 처리한 내용을 다시 쓰게 해 시간과 비용을 줄이는 저장 방식입니다.
- quantization
- AI 모델을 더 작고 가볍게 만들기 위해 숫자를 줄이는 방식이다.
- llama.cpp
- GPU 없이 CPU에서 AI 언어 모델을 실행할 수 있게 해주는 오픈소스 프로그램.
- AI 에이전트
- 사람 대신 정보를 찾거나 작업을 처리하도록 만든 AI 프로그램입니다.
- Thinking
- ChatGPT가 답하기 전에 문제를 단계별로 천천히 따져보는 고급 추론 기능