오픈소스중요도: 보통

LLM 비용을 줄이는 엣지 의미 캐시 구상

r/MachineLearning2026년 6월 12일 · 1일 전

고속 LLM 서비스에서 반복되는 요청을 매번 모델에 보내면 비용이 커지고 응답도 느려질 수 있다. 제안된 방식은 무거운 중앙 게이트웨이 대신, 사용자와 가까운 엣지 노드에서 바로 작동하는 가벼운 의미 캐시를 두는 것이다.

이 캐시는 Rust로 만들고 로 실행해, 나 Fastly 같은 엣지 환경에서 돌아가도록 한다. 사용자의 프롬프트가 들어오면 엣지에서 먼저 텍스트를 가로채고, bge-small-en-v1.5 같은 작은 모델로 벡터를 만든다.

그다음 로 이전 요청과 얼마나 비슷한지 빠르게 확인한다. 목표는 고객지원이나 정형 데이터 추출처럼 반복되기 쉬운 요청에서 API 호출을 줄이고, 지역 간 네트워크 지연도 낮추는 것이다.

핵심 포인트