InfiniteKV, 오래된 대화 내용을 작게 저장하는 캐시 공개

Reddit 글은 InfiniteKV라는 오픈소스 KV cache를 소개합니다. 글에 따르면 이 방식은 오래된 토큰을 지우지 않고 104바이트짜리 검색 가능한 기록으로 줄여 RAM이나 디스크에 저장합니다. 작성자는 Mistral-7B가 학습된 창보다 2.3배 긴 76,747번째 토큰의 내용으로 답했다고 말합니다.

핵심 포인트

  • InfiniteKV는 오래된 토큰을 삭제하지 않고 압축된 기록으로 저장한다고 설명합니다.
  • 최근 256개 토큰은 GPU 메모리에 그대로 둔다고 합니다.
  • 오래된 토큰은 RAM이나 디스크 파일에 저장할 수 있다고 합니다.
  • 새 토큰을 만들 때 관련 있는 오래된 토큰을 다시 찾아 모델이 참고하게 한다고 설명합니다.
  • 작성자는 100만 토큰을 약 3GB 기록으로 다룰 수 있다고 주장합니다.

용어 한 줄 설명

KV cache
AI가 긴 대화를 처리할 때 이전 내용을 다시 계산하지 않도록 저장해 두는 메모리 공간이다.
cache
이미 처리한 내용을 다시 쓰게 해 시간과 비용을 줄이는 저장 방식입니다.
1인 개발자
회사에 소속되지 않고 혼자서 기획부터 제작까지 모든 과정을 책임지는 제작자.
채팅 기록
사용자가 AI와 주고받은 대화 내용입니다.
코드베이스
한 소프트웨어를 이루는 전체 코드 묶음입니다.
로컬 AI
인터넷 연결 없이 내 컴퓨터 안에서 직접 실행하는 AI 프로그램.
GPU 메모리
그래픽카드 안에 있는 빠른 메모리로, AI 모델 실행에 자주 쓰입니다.
demo
앱이 어떻게 작동하는지 보여 주는 짧은 시연입니다.
원문 보기