AI중요도: 보통

InfiniteKV, 오래된 대화 내용을 작게 저장하는 캐시 공개

r/LocalLLaMA2026년 6월 12일 · 3시간 전

Reddit 글은 InfiniteKV라는 오픈소스 KV cache를 소개합니다. 글에 따르면 이 방식은 오래된 토큰을 지우지 않고 104바이트짜리 검색 가능한 기록으로 줄여 RAM이나 디스크에 저장합니다. 작성자는 Mistral-7B가 학습된 창보다 2.3배 긴 76,747번째 토큰의 내용으로 답했다고 말합니다.

핵심 포인트

InfiniteKV는 오래된 토큰을 삭제하지 않고 압축된 기록으로 저장한다고 설명합니다.
최근 256개 토큰은 GPU 메모리에 그대로 둔다고 합니다.
오래된 토큰은 RAM이나 디스크 파일에 저장할 수 있다고 합니다.
새 토큰을 만들 때 관련 있는 오래된 토큰을 다시 찾아 모델이 참고하게 한다고 설명합니다.
작성자는 100만 토큰을 약 3GB 기록으로 다룰 수 있다고 주장합니다.

용어 한 줄 설명

KV cache: AI가 긴 대화를 처리할 때 이전 내용을 다시 계산하지 않도록 저장해 두는 메모리 공간이다.
cache: 이미 처리한 내용을 다시 쓰게 해 시간과 비용을 줄이는 저장 방식입니다.
1인 개발자: 회사에 소속되지 않고 혼자서 기획부터 제작까지 모든 과정을 책임지는 제작자.
채팅 기록: 사용자가 AI와 주고받은 대화 내용입니다.
코드베이스: 한 소프트웨어를 이루는 전체 코드 묶음입니다.
로컬 AI: 인터넷 연결 없이 내 컴퓨터 안에서 직접 실행하는 AI 프로그램.
GPU 메모리: 그래픽카드 안에 있는 빠른 메모리로, AI 모델 실행에 자주 쓰입니다.
demo: 앱이 어떻게 작동하는지 보여 주는 짧은 시연입니다.

원문 보기 ↗