OSCAR, 2비트 KV cache로 긴 AI 실행 비용 줄이는 방법 공개

r/LocalLLaMA 글은 OSCAR라는 KV cache quantization 방법의 새 자료를 공유했다. 글에는 Gemma와 Qwen 모델용 GGUF 다운로드, llama.cpp와 SGLang용 코드, OSCAR 논문 링크가 포함됐다. 논문은 INT2 방식으로 KV cache 메모리를 약 8배 줄이고, 같은 메모리 조건에서 처리량을 크게 높였다고 주장한다.

핵심 포인트

  • OSCAR는 긴 문맥 LLM 실행에서 KV cache를 줄이기 위한 방법이다.
  • 게시글은 Gemma-4-12B-it, Qwen3-32B, Qwen3-4B-Thinking-2507용 GGUF 파일을 링크했다.
  • llama.cpp와 SGLang용 코드 링크가 함께 제공됐다.
  • 논문은 INT2 KV cache로 메모리를 약 8배 줄였다고 설명한다.
  • 논문은 일부 조건에서 BF16 대비 속도 이점도 있었다고 주장한다.

용어 한 줄 설명

r/LocalLLaMA
개인 장비에서 AI 모델을 돌리는 이야기를 주로 나누는 Reddit 커뮤니티다.
LocalLLaMA
개인이 직접 돌릴 수 있는 AI 모델을 주로 다루는 Reddit 커뮤니티입니다.
KV cache
AI가 긴 대화를 처리할 때 이전 내용을 다시 계산하지 않도록 저장해 두는 메모리 공간이다.
cache
이미 처리한 내용을 다시 쓰게 해 시간과 비용을 줄이는 저장 방식입니다.
quantization
AI 모델을 더 작고 가볍게 만들기 위해 숫자를 줄이는 방식이다.
llama.cpp
GPU 없이 CPU에서 AI 언어 모델을 실행할 수 있게 해주는 오픈소스 프로그램.
AI 에이전트
사람 대신 정보를 찾거나 작업을 처리하도록 만든 AI 프로그램입니다.
Thinking
ChatGPT가 답하기 전에 문제를 단계별로 천천히 따져보는 고급 추론 기능
원문 보기