여러 기기에서 LLM 실행을 나누는 방법을 묻는 글

작성자는 맥북, PC, 아이폰 같은 여러 기기에서 LLM 추론을 나눠 실행하고 싶다고 말한다. vllmAthena와 llmproxy라는 두 라우터를 알고 있으며, 어떤 것을 자신의 제로 트러스트 인프라에 붙이면 좋을지 의견을 묻는다. 또 Tailscale처럼 쓰되, 모든 키를 업체에 보내지 않는 오픈소스 대안을 찾고 있다.

핵심 포인트

  • 작성자는 여러 개인 기기에서 LLM 추론을 나눠 실행하려 한다.
  • 후보로 vllmAthena와 llmproxy를 언급했다.
  • vllmAthena는 작은 모델을 써서 요청을 어디로 보낼지 정하는 방식으로 설명됐다.
  • 작성자는 제로 트러스트 인프라에 맞는 선택을 찾고 있다.
  • Tailscale처럼 쓰되 업체에 키를 맡기지 않는 오픈소스 대안도 찾고 있다.

용어 한 줄 설명

vLLM
AI 모델을 서버에서 빠르고 효율적으로 실행하기 위한 오픈소스 엔진.
proxy
앱과 AI 서비스 사이에 서서 요청과 응답을 지나가게 하는 중간 프로그램입니다.
제로 트러스트 인프라
내부와 외부를 가리지 않고 매번 확인하고 접근을 제한하는 보안 구조다.
제로 트러스트
아무 것도 기본으로 믿지 않고 필요한 권한만 주는 보안 방식입니다.
Tailscale
인터넷을 통해 집 안의 기기에 안전하게 접속할 수 있게 해주는 가상 네트워크 도구
오픈소스
소스 코드를 공개해 누구나 보고 사용할 수 있게 한 방식입니다.
AI 에이전트
사람 대신 정보를 찾거나 작업을 처리하도록 만든 AI 프로그램입니다.
운영 부담
서비스를 쓰기 위해 계속 관리하고 확인해야 하는 일의 양입니다.
원문 보기