코드 생성용 LLM 8곳의 토큰 비용을 비교한 벤치마크
한 Reddit 사용자가 한 달에 약 5천만 토큰을 쓰는 코드 생성 파이프라인에서 8개 LLM 제공업체를 비교했다고 밝혔다. 같은 200개 코딩 과제를 넣고, 성공률, 작업당 비용, 지연 시간을 측정했다고 설명했다. 글에 따르면 DeepSeek V3는 낮은 비용에 83% 성공률을 보였고, 한 보조 시장 엔드포인트는 OpenAI와 Anthropic 모델 품질과 같으면서 비용이 약 10% 수준이었다고 주장했다.
핵심 포인트
- 비교 대상은 OpenAI, Anthropic, Groq, Together, Fireworks, OpenRouter, DeepSeek API, 보조 시장 엔드포인트였다.
- 테스트는 함수 작성, 리팩터링, 테스트 추가, 디버깅 등 200개 코딩 과제로 진행됐다고 한다.
- 측정 항목은 pass@1, 작업당 총비용, P95 지연 시간이었다.
- 글쓴이는 DeepSeek V3가 100만 completion tokens당 0.42달러에 83% 성공률을 냈다고 적었다.
- 보조 시장 엔드포인트는 품질이 같고 비용이 낮았다고 주장하지만, 운영 위험은 별도로 확인해야 한다.
용어 한 줄 설명
- 코드 생성
- AI가 사람이 쓸 프로그램 코드를 대신 작성하는 일을 말합니다.
- 파이프라인
- 데이터를 가져오고 바꾸고 내보내는 여러 작업을 순서대로 묶은 흐름입니다.
- 지연 시간
- 사용자 입력 후 AI가 응답을 시작할 때까지 걸리는 시간
- 엔드포인트
- 프로그램이 외부 서비스에 요청을 보내는 접속 주소다.
- AI 에이전트
- 사람 대신 정보를 찾거나 작업을 처리하도록 만든 AI 프로그램입니다.
- OpenRouter
- 다양한 AI 모델을 하나의 API로 묶어 쉽게 바꿔 쓸 수 있게 해주는 서비스
- tokens
- AI가 글을 읽고 쓸 때 나누어 처리하는 작은 단위입니다.
- token
- AI가 글을 읽고 쓸 때 세는 작은 글자 조각 단위입니다.