두 GPU로 로컬 AI 모델을 더 빠르게 돌리려는 질문
한 사용자가 12GB 3080 Ti와 20GB 3080을 함께 써서 로컬 AI 모델을 돌리고 있다고 설명했다. 모델 파일, KV cache, 작업 데이터가 GPU 메모리에 다 들어가면 속도가 크게 빨라졌다고 말했다. 설정을 조금 바꿔 GPU 메모리에 더 많이 올리자 초당 처리 속도가 약 20t/s에서 70t/s로 올랐다고 했다. 사용자는 비대칭 듀얼 GPU 환경에서 메모리를 잘 나누는 방법을 묻고 있다.
핵심 포인트
용어 한 줄 설명
- 로컬 AI 모델
- 인터넷에 연결하지 않고 내 컴퓨터 안에서 직접 돌아가는 인공지능 프로그램입니다.
- 로컬 AI
- 인터넷 연결 없이 내 컴퓨터 안에서 직접 실행하는 AI 프로그램.
- KV cache
- AI가 긴 대화를 처리할 때 이전 내용을 다시 계산하지 않도록 저장해 두는 메모리 공간이다.
- cache
- 이미 처리한 내용을 다시 쓰게 해 시간과 비용을 줄이는 저장 방식입니다.
- AI 에이전트
- 사람 대신 정보를 찾거나 작업을 처리하도록 만든 AI 프로그램입니다.
- 직접 운영
- 외부 업체에 맡기지 않고 자신의 서버나 장비에서 서비스를 돌리는 방식입니다.
- 로컬 LLM
- 클라우드 서버가 아닌 내 컴퓨터에서 직접 실행하는 AI 언어 모델.
- inference
- 이미 만든 AI 모델에 질문을 넣고 답을 만들어 내는 실행 과정입니다.