LLM 비용을 줄이는 엣지 의미 캐시 구상

고속 LLM 서비스에서 반복되는 요청을 매번 모델에 보내면 비용이 커지고 응답도 느려질 수 있다. 제안된 방식은 무거운 중앙 게이트웨이 대신, 사용자와 가까운 엣지 노드에서 바로 작동하는 가벼운 의미 캐시를 두는 것이다.

이 캐시는 Rust로 만들고 로 실행해, 나 Fastly 같은 엣지 환경에서 돌아가도록 한다. 사용자의 프롬프트가 들어오면 엣지에서 먼저 텍스트를 가로채고, bge-small-en-v1.5 같은 작은 모델로 벡터를 만든다.

그다음 로 이전 요청과 얼마나 비슷한지 빠르게 확인한다. 목표는 고객지원이나 정형 데이터 추출처럼 반복되기 쉬운 요청에서 API 호출을 줄이고, 지역 간 네트워크 지연도 낮추는 것이다.

핵심 포인트

  • 반복되는 LLM 요청의 과 응답 지연을 줄이려는 엣지 의미 캐시 구상이다.
  • Python 기반 프록시나 중앙 캐시는 실시간 에이전트 단계에서 지연을 만들 수 있다는 문제의식이 있다.
  • Rust와 를 사용해 CDN 엣지에서 가볍게 실행하는 구조를 제안한다.
  • 프롬프트를 벡터로 바꾼 뒤 로 기존 요청과 비슷한지 확인한다.
  • 고객지원이나 정형 데이터 추출처럼 반복 요청이 많은 업무에 특히 맞을 수 있다.
원문 보기