도구 쓰는 AI 에이전트, 검증을 붙이면 안전해지지만 성공률이 줄 수 있다

도구를 사용하는 는 일을 끝냈다고 해서 항상 좋은 결과를 낸 것은 아니다. 예를 들어 예약, 조회, 변경 같은 작업은 완료했지만, 정해진 안전 규칙이나 정책을 어겼을 수 있다.

이 연구는 결과를 안전한 성공, 위험한 성공, 실패로 나누어 평가해야 한다고 본다. 라는 로 실험했고, 먼저 규칙으로 확인할 수 있는 정책과 을 검사한 뒤, 더 복잡한 경우에는 를 쓰는 2단계 구조를 제안한다.

검증은 위험한 성공을 줄일 수 있지만, 작업 단계가 길어질수록 전체 완료율도 함께 떨어질 수 있다. 이처럼 검증을 추가할 때 생기는 안전성과 성공률의 맞교환을 검증 비용이라고 부른다.

핵심 포인트

  • 에이전트 평가는 단순 성공률만 보면 위험한 결과를 놓칠 수 있다.
  • 결과를 안전한 성공, 위험한 성공, 실패로 나누는 방식이 제안됐다.
  • 먼저 규칙 검사를 하고, 복잡한 경우에만 를 쓰는 2단계 구조가 제시됐다.
  • 검증은 위험한 성공을 줄이지만, 긴 작업에서는 완료율을 낮출 수 있다.
  • 토큰과 비용을 줄이려면 값싼 규칙 검사와 비싼 를 나누어 쓰는 설계가 중요하다.
원문 보기