소형 AI 모델 12개 추론 능력 비교 테스트 결과 공개

1B~35B 크기의 소형 AI 모델 12개를 15개 추론 문제로 직접 테스트한 결과가 공개됐습니다. Qwen, Gemma, Phi, Llama 등 주요 오픈소스 모델들이 포함됐습니다. 로컬에서 AI를 직접 돌려 쓰는 사람에게 모델 선택에 참고할 수 있는 비교 자료입니다.

이번 테스트는 인터넷 연결 없이 내 컴퓨터에서 직접 실행하는 소형 AI 모델들을 대상으로 했습니다. 모델 크기는 1B(10억 매개변수)부터 35B(350억 매개변수)까지 다양하며, 크기가 클수록 더 많은 컴퓨터 자원이 필요합니다. 테스트 항목은 논리 추론, 수학, 상식 등 15개 문제로 구성됐습니다.

비교 대상에는 Qwen, Ministral, Nemotron, Gemma, Phi, Llama, LFM, GPT-OSS 계열 모델이 포함됐습니다. 로컬 AI를 쓰는 1인 개발자나 메이커 입장에서는 성능과 모델 크기(=필요한 컴퓨터 사양) 사이의 균형을 찾는 데 이 결과가 직접적인 도움이 됩니다.

핵심 포인트

  • 12개 소형 모델을 같은 15문제로 직접 비교한 벤치마크
  • 모델 크기 범위: 1B(가장 작음) ~ 35B(가장 큼)
  • 포함 모델: Qwen, Gemma, Phi, Llama, Ministral, Nemotron, LFM 등
  • 내 컴퓨터에서 AI를 돌릴 때 어떤 모델이 추론을 잘하는지 고르는 데 참고 가능
  • 크기 대비 성능 효율이 좋은 모델을 찾는 데 유용한 자료

용어 한 줄 설명

1B~35B
AI 모델의 크기를 나타내는 단위로, 숫자가 클수록 모델이 더 크고 더 많은 컴퓨터 성능이 필요합니다.
AI 모델
질문에 답하거나 글을 만드는 방법을 배운 프로그램입니다.
AMA
'무엇이든 물어보세요'의 약자로, 커뮤니티에서 특정 경험자가 질문에 답해주는 공개 토크 형식
오픈소스 모델
소스 코드가 공개되어 누구나 무료로 내려받아 직접 실행할 수 있는 AI 모델입니다.
오픈소스
소스 코드를 공개해 누구나 보고 사용할 수 있게 한 방식입니다.
TRON
AI가 도구 정보를 더 짧게 표현하도록 만든 데이터 형식입니다.
로컬 AI
인터넷 연결 없이 내 컴퓨터 안에서 직접 실행하는 AI 프로그램.
벤치마크
성능을 비교하려고 정해진 방식으로 해보는 시험입니다.
원문 보기