오픈소스중요도: 높음

로컬 AI 에이전트용 Qwen 모델, 긴 문맥에서 도구 호출 약화

r/LocalLLaMA2026년 6월 9일 · 4일 전

-35B-A3B를 로컬에서 작게 줄여 쓰는 여러 모델이 성능으로 비교됐다. 은 가 검색, 계산, 파일 처리 같은 외부 기능을 정확히 부르는 능력이다. 비교 대상은 ByteShape 3종과 5종이며, 모델 크기는 13.2GB부터 29.3GB까지였다.

총 144번의 실험이 이뤄졌고, 짧은 문맥은 약 5천 토큰, 긴 문맥은 여기에 약 12만2천 토큰을 더 넣어 대화 기록과 기록이 많이 쌓인 상황을 흉내 냈다. 전체 평균에서는 ByteShape GPU-5가 가장 높았고, ByteShape CPU-5가 가장 낮았다. 하지만 ByteShape와 중 어느 쪽이 항상 낫다고 보기는 어려웠다.

를 q8_0으로 줄여도 f16과 거의 같은 점수를 냈고, q4_0은 조금 낮았지만 큰 폭은 아니었다. 긴 문맥에서는 모든 설정의 점수가 크게 떨어졌고, 평균 차이는 거의 10점이었다.

핵심 포인트

-35B-A3B의 ByteShape 3종과 5종이 비교됐다.
ByteShape GPU-5는 평균 점수가 가장 높았지만, ByteShape CPU-5는 가장 낮아 브랜드만으로 고르기 어렵다.
q8_0 는 f16과 거의 같은 성능을 보여 메모리 절감 선택지로 보인다.
q4_0 는 점수가 약간 낮아졌지만 손실은 작았다.
긴 문맥에서는 성능이 모든 설정에서 크게 떨어졌다.

원문 보기 ↗