Minimax M3가 Kimi K2.6보다 에이전트 작업 비용이 낮았다는 테스트
과 를 실제 에서 비교한 결과, 가 더 많은 일을 끝내면서 비용은 더 낮았다. 비교에는 터미널에서 코딩하기, 외부 서비스와 연결되는 , , 여러 단계를 거치는 에이전트 반복 작업이 들어갔다. 같은 프롬프트, 같은 도구, 같은 샌드박스 환경을 쓰고 모델만 바꿨다.
어려운 터미널 코딩 과제에서는 가 10개 중 5개를 풀었고 비용은 2.80달러였다. 은 10개 중 4개를 풀었고 비용은 6.61달러로, 더 비쌌지만 해결 수는 적었다. 특히 134번의 터미널 왕복이 필요한 어려운 경로 추적 역추적 과제에서 는 끝까지 진행해 완료했고, 은 시간 초과가 났다.
이메일 요약, 드라이브 정리, 깃허브 분석, 스타트업 조사, 영업 연락 초안 작성, 여러 앱을 잇는 자동화 같은 25개 실제 업무에서도 의 평균 점수는 0.75, 비용은 0.81달러였고 은 평균 점수 0.72, 비용 4.08달러였다.
핵심 포인트
- 같은 프롬프트, 도구, 샌드박스에서 과 만 바꿔 비교했다.
- 터미널 코딩 과제에서 는 5개, 은 4개를 해결했다.
- 터미널 코딩 비용은 가 2.80달러, 이 6.61달러였다.
- 25개 실제 에이전트 업무에서 는 평균 점수 0.75에 0.81달러, 은 0.72에 4.08달러였다.
- 긴 터미널 작업에서 는 완료했고 은 시간 초과가 났다.