여러 기기에서 LLM 실행을 나누는 방법을 묻는 글
작성자는 맥북, PC, 아이폰 같은 여러 기기에서 LLM 추론을 나눠 실행하고 싶다고 말한다. vllmAthena와 llmproxy라는 두 라우터를 알고 있으며, 어떤 것을 자신의 제로 트러스트 인프라에 붙이면 좋을지 의견을 묻는다. 또 Tailscale처럼 쓰되, 모든 키를 업체에 보내지 않는 오픈소스 대안을 찾고 있다.
핵심 포인트
용어 한 줄 설명
- vLLM
- AI 모델을 서버에서 빠르고 효율적으로 실행하기 위한 오픈소스 엔진.
- proxy
- 앱과 AI 서비스 사이에 서서 요청과 응답을 지나가게 하는 중간 프로그램입니다.
- 제로 트러스트 인프라
- 내부와 외부를 가리지 않고 매번 확인하고 접근을 제한하는 보안 구조다.
- 제로 트러스트
- 아무 것도 기본으로 믿지 않고 필요한 권한만 주는 보안 방식입니다.
- Tailscale
- 인터넷을 통해 집 안의 기기에 안전하게 접속할 수 있게 해주는 가상 네트워크 도구
- 오픈소스
- 소스 코드를 공개해 누구나 보고 사용할 수 있게 한 방식입니다.
- AI 에이전트
- 사람 대신 정보를 찾거나 작업을 처리하도록 만든 AI 프로그램입니다.
- 운영 부담
- 서비스를 쓰기 위해 계속 관리하고 확인해야 하는 일의 양입니다.