AI 모델을 작업 종류에 따라 골라 쓰면 비용·품질 둘 다 잡힌다

AI에게 시킬 일이 '정답이 있는 일'인지 '판단이 필요한 일'인지에 따라 다른 모델을 쓰면 비용을 줄이고 품질을 높일 수 있다는 소규모 실험 결과다. 120개 작업, 3개 모델로 검증했다.

AI 연구자 Andrej Karpathy가 제시한 아이디어에서 출발한 실험이다. 핵심 개념은 '검증 가능성(verifiability)'이다. 수학 문제나 코드 테스트처럼 답이 맞는지 바로 확인할 수 있는 작업은 저렴한 모델에 맡겨도 되고, 결과가 틀렸으면 재시도하면 된다. 반면 글쓰기나 전략 조언처럼 정답이 없는 작업은 처음부터 더 강력한 모델이 필요하다.

실험에서는 작업을 먼저 '검증 가능'과 '검증 불가' 두 종류로 분류한 뒤 각각 다른 모델로 라우팅했다. 120개 샘플, 3개 모델 조합으로 테스트한 결과, 이 방식이 모든 작업에 비싼 모델을 쓰는 것보다 비용 효율이 높았다. AI 에이전트를 여러 단계로 구성할 때 각 단계에 맞는 모델을 자동으로 고르는 데 응용할 수 있다.

핵심 포인트

  • 작업에 '정답 확인 가능 여부'를 따져 어떤 AI 모델을 쓸지 결정하는 방식
  • 수학·코드·분류처럼 결과 검증이 쉬운 작업 → 저렴한 모델 사용 후 틀리면 재시도
  • 글쓰기·전략처럼 정답이 없는 작업 → 처음부터 강력한 모델 투입
  • 120개 작업·3개 모델 소규모 실험에서 비용 절감 효과 확인
  • AI 에이전트의 각 단계에 적합한 모델을 자동 배정하는 데 응용 가능

용어 한 줄 설명

검증
제품을 만들기 전에 사람들이 정말 필요로 하고 돈을 낼지 확인하는 일입니다.
아이디어
새로운 사업이나 제품을 만들기 위한 생각이나 구상입니다.
검증 가능성
어떤 작업의 결과가 맞는지 틀린지를 자동으로 또는 쉽게 확인할 수 있는 정도.
테스트
소프트웨어가 의도한 대로 작동하는지 확인하는 과정으로, 버그(오류)를 찾아내는 작업이다.
라우팅
요청의 특성에 따라 어떤 AI 모델로 보낼지 자동으로 결정하는 방식.
AI 에이전트
사람 대신 정보를 찾거나 작업을 처리하도록 만든 AI 프로그램입니다.
AI 모델
질문에 답하거나 글을 만드는 방법을 배운 프로그램입니다.
원문 보기