두 GPU로 로컬 AI 모델을 더 빠르게 돌리려는 질문

한 사용자가 12GB 3080 Ti와 20GB 3080을 함께 써서 로컬 AI 모델을 돌리고 있다고 설명했다. 모델 파일, KV cache, 작업 데이터가 GPU 메모리에 다 들어가면 속도가 크게 빨라졌다고 말했다. 설정을 조금 바꿔 GPU 메모리에 더 많이 올리자 초당 처리 속도가 약 20t/s에서 70t/s로 올랐다고 했다. 사용자는 비대칭 듀얼 GPU 환경에서 메모리를 잘 나누는 방법을 묻고 있다.

핵심 포인트

  • 사용자는 12GB GPU와 20GB GPU를 함께 쓰는 비대칭 듀얼 GPU 환경을 설명했다.
  • 모델 데이터와 KV cache가 GPU 메모리에 모두 들어가면 속도가 크게 좋아졌다고 말했다.
  • 일부 cache 설정을 바꾼 뒤 속도가 약 20t/s에서 70t/s로 올랐다고 했다.
  • split mode와 main GPU 설정을 바꿔도 큰 차이는 느끼지 못했다고 했다.
  • 질문의 핵심은 작은 모델 파일도 실제 inference 때 훨씬 많은 메모리를 쓸 수 있느냐는 것이다.

용어 한 줄 설명

로컬 AI 모델
인터넷에 연결하지 않고 내 컴퓨터 안에서 직접 돌아가는 인공지능 프로그램입니다.
로컬 AI
인터넷 연결 없이 내 컴퓨터 안에서 직접 실행하는 AI 프로그램.
KV cache
AI가 긴 대화를 처리할 때 이전 내용을 다시 계산하지 않도록 저장해 두는 메모리 공간이다.
cache
이미 처리한 내용을 다시 쓰게 해 시간과 비용을 줄이는 저장 방식입니다.
AI 에이전트
사람 대신 정보를 찾거나 작업을 처리하도록 만든 AI 프로그램입니다.
직접 운영
외부 업체에 맡기지 않고 자신의 서버나 장비에서 서비스를 돌리는 방식입니다.
로컬 LLM
클라우드 서버가 아닌 내 컴퓨터에서 직접 실행하는 AI 언어 모델.
inference
이미 만든 AI 모델에 질문을 넣고 답을 만들어 내는 실행 과정입니다.
원문 보기