InfiniteKV, 오래된 대화 내용을 작게 저장하는 캐시 공개
Reddit 글은 InfiniteKV라는 오픈소스 KV cache를 소개합니다. 글에 따르면 이 방식은 오래된 토큰을 지우지 않고 104바이트짜리 검색 가능한 기록으로 줄여 RAM이나 디스크에 저장합니다. 작성자는 Mistral-7B가 학습된 창보다 2.3배 긴 76,747번째 토큰의 내용으로 답했다고 말합니다.
핵심 포인트
- InfiniteKV는 오래된 토큰을 삭제하지 않고 압축된 기록으로 저장한다고 설명합니다.
- 최근 256개 토큰은 GPU 메모리에 그대로 둔다고 합니다.
- 오래된 토큰은 RAM이나 디스크 파일에 저장할 수 있다고 합니다.
- 새 토큰을 만들 때 관련 있는 오래된 토큰을 다시 찾아 모델이 참고하게 한다고 설명합니다.
- 작성자는 100만 토큰을 약 3GB 기록으로 다룰 수 있다고 주장합니다.
용어 한 줄 설명
- KV cache
- AI가 긴 대화를 처리할 때 이전 내용을 다시 계산하지 않도록 저장해 두는 메모리 공간이다.
- cache
- 이미 처리한 내용을 다시 쓰게 해 시간과 비용을 줄이는 저장 방식입니다.
- 1인 개발자
- 회사에 소속되지 않고 혼자서 기획부터 제작까지 모든 과정을 책임지는 제작자.
- 채팅 기록
- 사용자가 AI와 주고받은 대화 내용입니다.
- 코드베이스
- 한 소프트웨어를 이루는 전체 코드 묶음입니다.
- 로컬 AI
- 인터넷 연결 없이 내 컴퓨터 안에서 직접 실행하는 AI 프로그램.
- GPU 메모리
- 그래픽카드 안에 있는 빠른 메모리로, AI 모델 실행에 자주 쓰입니다.
- demo
- 앱이 어떻게 작동하는지 보여 주는 짧은 시연입니다.