16GB 그래픽카드에서 큰 AI 모델을 돌리는 Luce Spark
Luce Spark는 33~35B급 을 16GB급 안에서 돌리려는 오픈소스 도구다. 35B-A3B는 약 20.5GiB가 필요하던 사용량을 13.3GiB로 낮췄고, Laguna XS.2 33B-A3B는 18.8GiB에서 14.6GiB로 낮췄다. 핵심은 매 토큰마다 실제로 자주 쓰이는 전문가 부분만 그래픽카드에 두고, 덜 쓰이는 부분은 일반 메모리에 두는 방식이다.
Spark는 실제 요청을 보며 어떤 부분이 자주 쓰이는지 스스로 기록하고, 다음 실행 때 더 나은 배치를 불러온다. 별도 학습용 자료나 사전 보정 작업은 필요 없다고 한다. 속도는 모두 그래픽카드에 올렸을 때 초당 119토큰이고, Spark의 배치·캐시·묶음 실행을 쓰면 약 초당 100토큰까지 나온다.
단, 이 수치는 에서 잰 것이며, 실제 16GB 그래픽카드에서는 아직 검증되지 않았다. 의 CPU 오프로드와 같은 조건에서 직접 비교한 결과도 아직 없다.
핵심 포인트
- 33~35B급 의 사용량을 13.3~14.6GiB 수준으로 낮췄다.
- 자주 쓰이는 전문가 부분만 그래픽카드에 두고 나머지는 일반 메모리에서 필요할 때 가져온다.
- 실제 요청을 바탕으로 배치를 계속 조정하므로 별도 보정 자료가 필요 없다고 한다.
- 기준으로 전체 그래픽카드 실행은 초당 119토큰, Spark 방식은 약 초당 100토큰이다.
- 실제 16GB 그래픽카드 테스트와 CPU 오프로드와의 정면 비교는 아직 없다.