AI 모델을 작업 종류에 따라 골라 쓰면 비용·품질 둘 다 잡힌다
AI에게 시킬 일이 '정답이 있는 일'인지 '판단이 필요한 일'인지에 따라 다른 모델을 쓰면 비용을 줄이고 품질을 높일 수 있다는 소규모 실험 결과다. 120개 작업, 3개 모델로 검증했다.
AI 연구자 Andrej Karpathy가 제시한 아이디어에서 출발한 실험이다. 핵심 개념은 '검증 가능성(verifiability)'이다. 수학 문제나 코드 테스트처럼 답이 맞는지 바로 확인할 수 있는 작업은 저렴한 모델에 맡겨도 되고, 결과가 틀렸으면 재시도하면 된다. 반면 글쓰기나 전략 조언처럼 정답이 없는 작업은 처음부터 더 강력한 모델이 필요하다.
실험에서는 작업을 먼저 '검증 가능'과 '검증 불가' 두 종류로 분류한 뒤 각각 다른 모델로 라우팅했다. 120개 샘플, 3개 모델 조합으로 테스트한 결과, 이 방식이 모든 작업에 비싼 모델을 쓰는 것보다 비용 효율이 높았다. AI 에이전트를 여러 단계로 구성할 때 각 단계에 맞는 모델을 자동으로 고르는 데 응용할 수 있다.
핵심 포인트
용어 한 줄 설명
- 검증
- 제품을 만들기 전에 사람들이 정말 필요로 하고 돈을 낼지 확인하는 일입니다.
- 아이디어
- 새로운 사업이나 제품을 만들기 위한 생각이나 구상입니다.
- 검증 가능성
- 어떤 작업의 결과가 맞는지 틀린지를 자동으로 또는 쉽게 확인할 수 있는 정도.
- 테스트
- 소프트웨어가 의도한 대로 작동하는지 확인하는 과정으로, 버그(오류)를 찾아내는 작업이다.
- 라우팅
- 요청의 특성에 따라 어떤 AI 모델로 보낼지 자동으로 결정하는 방식.
- AI 에이전트
- 사람 대신 정보를 찾거나 작업을 처리하도록 만든 AI 프로그램입니다.
- AI 모델
- 질문에 답하거나 글을 만드는 방법을 배운 프로그램입니다.