GLM-5.2, 개인 코딩 평가에서 상위권 성적
GLM-5.2가 개인이 운영하는 코딩 벤치마크에서 , 과 함께 상위권에 올랐다. 이 평가는 맥 앱, 앱, 웹, 게임, Rust 앱 같은 실제 개발 과제를 모델에게 맡기고 결과를 비교한다.
GLM-5.2는 앱에서 6/A, 웹에서 8/A, 게임에서 8/A를 받았고, 맥 앱은 16/B+, Rust 앱은 43/C였다. 표에는 GLM-5.2가 Claude Code 환경에서 실행됐고, 사고 모드를 켠 것으로 표시돼 있다.
는 에서, 은 Claude Code에서 함께 비교됐다. 이 평가는 공개 문제가 아닌 작은 개인 문제 세트로 만든 것이어서 공식 순위처럼 믿기보다는 모델 흐름을 보는 참고 자료에 가깝다.
핵심 포인트
- GLM-5.2는 코딩 벤치마크에서 , 과 함께 비교됐다.
- 평가 과제는 맥 앱, 앱, 웹, 게임, Rust 앱처럼 실제 개발 작업에 가깝다.
- GLM-5.2는 , 웹, 게임 과제에서 A 등급을 받았다.
- Rust 앱 과제에서는 C 등급으로 약했다.
- 이 결과는 공식 평가가 아니라 개인이 운영하는 참고용 벤치마크다.