코드 생성용 LLM 8곳의 토큰 비용을 비교한 벤치마크

한 Reddit 사용자가 한 달에 약 5천만 토큰을 쓰는 코드 생성 파이프라인에서 8개 LLM 제공업체를 비교했다고 밝혔다. 같은 200개 코딩 과제를 넣고, 성공률, 작업당 비용, 지연 시간을 측정했다고 설명했다. 글에 따르면 DeepSeek V3는 낮은 비용에 83% 성공률을 보였고, 한 보조 시장 엔드포인트는 OpenAI와 Anthropic 모델 품질과 같으면서 비용이 약 10% 수준이었다고 주장했다.

핵심 포인트

  • 비교 대상은 OpenAI, Anthropic, Groq, Together, Fireworks, OpenRouter, DeepSeek API, 보조 시장 엔드포인트였다.
  • 테스트는 함수 작성, 리팩터링, 테스트 추가, 디버깅 등 200개 코딩 과제로 진행됐다고 한다.
  • 측정 항목은 pass@1, 작업당 총비용, P95 지연 시간이었다.
  • 글쓴이는 DeepSeek V3가 100만 completion tokens당 0.42달러에 83% 성공률을 냈다고 적었다.
  • 보조 시장 엔드포인트는 품질이 같고 비용이 낮았다고 주장하지만, 운영 위험은 별도로 확인해야 한다.

용어 한 줄 설명

코드 생성
AI가 사람이 쓸 프로그램 코드를 대신 작성하는 일을 말합니다.
파이프라인
데이터를 가져오고 바꾸고 내보내는 여러 작업을 순서대로 묶은 흐름입니다.
지연 시간
사용자 입력 후 AI가 응답을 시작할 때까지 걸리는 시간
엔드포인트
프로그램이 외부 서비스에 요청을 보내는 접속 주소다.
AI 에이전트
사람 대신 정보를 찾거나 작업을 처리하도록 만든 AI 프로그램입니다.
OpenRouter
다양한 AI 모델을 하나의 API로 묶어 쉽게 바꿔 쓸 수 있게 해주는 서비스
tokens
AI가 글을 읽고 쓸 때 나누어 처리하는 작은 단위입니다.
token
AI가 글을 읽고 쓸 때 세는 작은 글자 조각 단위입니다.
원문 보기