소형 AI 모델 12개 추론 능력 비교 테스트 결과 공개
1B~35B 크기의 소형 AI 모델 12개를 15개 추론 문제로 직접 테스트한 결과가 공개됐습니다. Qwen, Gemma, Phi, Llama 등 주요 오픈소스 모델들이 포함됐습니다. 로컬에서 AI를 직접 돌려 쓰는 사람에게 모델 선택에 참고할 수 있는 비교 자료입니다.
이번 테스트는 인터넷 연결 없이 내 컴퓨터에서 직접 실행하는 소형 AI 모델들을 대상으로 했습니다. 모델 크기는 1B(10억 매개변수)부터 35B(350억 매개변수)까지 다양하며, 크기가 클수록 더 많은 컴퓨터 자원이 필요합니다. 테스트 항목은 논리 추론, 수학, 상식 등 15개 문제로 구성됐습니다.
비교 대상에는 Qwen, Ministral, Nemotron, Gemma, Phi, Llama, LFM, GPT-OSS 계열 모델이 포함됐습니다. 로컬 AI를 쓰는 1인 개발자나 메이커 입장에서는 성능과 모델 크기(=필요한 컴퓨터 사양) 사이의 균형을 찾는 데 이 결과가 직접적인 도움이 됩니다.
핵심 포인트
용어 한 줄 설명
- 1B~35B
- AI 모델의 크기를 나타내는 단위로, 숫자가 클수록 모델이 더 크고 더 많은 컴퓨터 성능이 필요합니다.
- AI 모델
- 질문에 답하거나 글을 만드는 방법을 배운 프로그램입니다.
- AMA
- '무엇이든 물어보세요'의 약자로, 커뮤니티에서 특정 경험자가 질문에 답해주는 공개 토크 형식
- 오픈소스 모델
- 소스 코드가 공개되어 누구나 무료로 내려받아 직접 실행할 수 있는 AI 모델입니다.
- 오픈소스
- 소스 코드를 공개해 누구나 보고 사용할 수 있게 한 방식입니다.
- TRON
- AI가 도구 정보를 더 짧게 표현하도록 만든 데이터 형식입니다.
- 로컬 AI
- 인터넷 연결 없이 내 컴퓨터 안에서 직접 실행하는 AI 프로그램.
- 벤치마크
- 성능을 비교하려고 정해진 방식으로 해보는 시험입니다.