16GB Jetson으로 저전력 AI 에이전트를 돌린 벤치마크

16GB 를 조용한 40W급 소형 장비로 개조해 를 돌린 실사용 벤치마크다. 목표는 큰 소음 없이 긴 문맥을 처리하고, 초당 생성 토큰 속도를 실사용 가능한 수준으로 유지하는 것이었다. 핵심 제약은 16GB 메모리가 모델뿐 아니라 운영체제, KV 캐시, 도구 호출, 까지 함께 감당해야 한다는 점이었다.

26B A4B UD Q2_K_XL은 약 66K 문맥에서 답변 생성을 할 수 있었고, 약 60K 문맥에서는 초당 10.21 토큰 수준을 보였다. Qwen 3.6 35B는 일부 도구 호출 테스트에서 더 정확했지만, 긴 문맥에서 답변 생성 속도가 느려 의 기본 선택지로는 덜 적합했다. 는 100K 문맥까지 버텼지만, 비슷한 도구 중 무엇을 써야 하는지 고르는 테스트에서는 26B보다 약했다.

최종적으로 도구 사용이 많은 용도에는 26B가 속도와 품질의 균형이 좋고, 긴 대화 기억이 더 중요하면 가 더 나은 선택으로 정리된다.

핵심 포인트

  • 16GB 를 40W급 저소음 장비로 개조했다.
  • 26B A4B UD Q2_K_XL은 긴 문맥에서 약 10 토큰/초 수준으로 답변을 만들었다.
  • Qwen 3.6 35B는 도구 호출 정확도는 좋았지만 긴 문맥 생성 속도가 약점이었다.
  • 는 100K 문맥까지 가능했지만 복잡한 도구 선택에서는 26B보다 약했다.
  • 메모리 절약을 위해 q8_0/q4_0 같은 KV 캐시 조합과 문맥 길이 조정이 핵심이었다.
원문 보기