온폴리시 증류, 에이전트 실수만 골라 줄이는 훈련법
는 이 작업을 수행하는 중에 낸 실수를 더 정확히 고치는 방법이다. 예를 들어 가 존재하지 않는 도구를 호출했다면, 최종 점수만 보고 전체 과정을 흐릿하게 벌주는 대신 어느 지점에서 잘못됐는지를 따로 찾아낸다. 다른 모델이 실행 과정을 읽고, 실수가 난 바로 앞부분에 힌트 토큰을 넣는다.
그 뒤 원래 모델을 다시 실행하지만 새 답변을 처음부터 만들지는 않는다. 힌트가 들어가면 모델은 잘못된 선택에 더 낮은 가능성을 주게 되고, 원래 모델은 그 바뀐 판단을 따라 배우도록 훈련된다. 이 방식은 Qwen 3.6과 3.7, GLM-5.1, 같은 모델의 핵심 기법으로 언급된다.
PapersWithCode에는 이 방법을 처음 제안한 논문, 관련 설명, 인용하거나 언급한 논문들이 모여 있다.
핵심 포인트
- 는 모델이 실제로 만든 실행 과정 안에서 특정 실수를 골라 고치는 방법이다.
- 최종 결과 점수만 쓰지 않고, 실수가 난 위치 근처에 힌트 토큰을 넣어 더 직접적인 학습 신호를 만든다.
- 새 실행을 다시 생성하지 않아도 되므로, 답변 생성 비용을 일부 피할 수 있다는 장점이 있다.
- 존재하지 않는 처럼 에서 자주 생기는 오류를 줄이는 데 특히 관련이 있다.
- Qwen, GLM, 계열 최신 모델들의 과 연결되어 언급된다.