AI중요도: 보통

소형 AI 모델 12개 추론 능력 비교 테스트 결과 공개

r/LocalLLM2026년 6월 11일 · 5시간 전

1B~35B 크기의 소형 AI 모델 12개를 15개 추론 문제로 직접 테스트한 결과가 공개됐습니다. Qwen, Gemma, Phi, Llama 등 주요 오픈소스 모델들이 포함됐습니다. 로컬에서 AI를 직접 돌려 쓰는 사람에게 모델 선택에 참고할 수 있는 비교 자료입니다.

이번 테스트는 인터넷 연결 없이 내 컴퓨터에서 직접 실행하는 소형 AI 모델들을 대상으로 했습니다. 모델 크기는 1B(10억 매개변수)부터 35B(350억 매개변수)까지 다양하며, 크기가 클수록 더 많은 컴퓨터 자원이 필요합니다. 테스트 항목은 논리 추론, 수학, 상식 등 15개 문제로 구성됐습니다.

비교 대상에는 Qwen, Ministral, Nemotron, Gemma, Phi, Llama, LFM, GPT-OSS 계열 모델이 포함됐습니다. 로컬 AI를 쓰는 1인 개발자나 메이커 입장에서는 성능과 모델 크기(=필요한 컴퓨터 사양) 사이의 균형을 찾는 데 이 결과가 직접적인 도움이 됩니다.

핵심 포인트

12개 소형 모델을 같은 15문제로 직접 비교한 벤치마크
모델 크기 범위: 1B(가장 작음) ~ 35B(가장 큼)
포함 모델: Qwen, Gemma, Phi, Llama, Ministral, Nemotron, LFM 등
내 컴퓨터에서 AI를 돌릴 때 어떤 모델이 추론을 잘하는지 고르는 데 참고 가능
크기 대비 성능 효율이 좋은 모델을 찾는 데 유용한 자료

용어 한 줄 설명

1B~35B: AI 모델의 크기를 나타내는 단위로, 숫자가 클수록 모델이 더 크고 더 많은 컴퓨터 성능이 필요합니다.
AI 모델: 질문에 답하거나 글을 만드는 방법을 배운 프로그램입니다.
AMA: '무엇이든 물어보세요'의 약자로, 커뮤니티에서 특정 경험자가 질문에 답해주는 공개 토크 형식
오픈소스 모델: 소스 코드가 공개되어 누구나 무료로 내려받아 직접 실행할 수 있는 AI 모델입니다.
오픈소스: 소스 코드를 공개해 누구나 보고 사용할 수 있게 한 방식입니다.
TRON: AI가 도구 정보를 더 짧게 표현하도록 만든 데이터 형식입니다.
로컬 AI: 인터넷 연결 없이 내 컴퓨터 안에서 직접 실행하는 AI 프로그램.
벤치마크: 성능을 비교하려고 정해진 방식으로 해보는 시험입니다.

원문 보기 ↗