AI 에이전트 성능은 모델만이 아니라 하네스가 크게 좌우한다

이 Reddit 글은 같은 모델을 써도 AI 에이전트 결과가 크게 달라지는 이유를 설명한다. 글쓴이는 모델보다 하네스, 도구 구성, 실행 방식, 평가 방식이 성능에 큰 영향을 준다고 말한다. 예시로 LangChain이 같은 모델에서 하네스 변경만으로 Terminal-Bench 2.0 점수를 52.8%에서 66.5%로 올렸다는 사례를 든다. 또 Vercel은 에이전트 도구를 약 80% 줄인 뒤 결과가 좋아졌다고 소개한다.

핵심 포인트

  • 글쓴이는 모델을 컴퓨터 전체가 아니라 CPU에 비유한다.
  • 하네스는 도구, 권한, 작업 순서, 테스트, 추적을 포함하는 실행 환경으로 설명된다.
  • 같은 모델도 하네스 변경만으로 성능 점수가 크게 달라질 수 있다고 주장한다.
  • 도구를 많이 붙이는 것이 항상 좋은 것은 아니며, Vercel 사례처럼 줄였을 때 결과가 좋아질 수도 있다고 말한다.
  • 작은 모델이나 오픈 웨이트 모델을 쓰려면 하네스를 더 신중하게 설계해야 한다는 관점을 제시한다.

용어 한 줄 설명

DDI
DNS·DHCP·IP 주소 관리를 합쳐서 부르는 말
AI 에이전트
사람 대신 정보를 찾거나 작업을 처리하도록 만든 AI 프로그램입니다.
하네스
AI가 도구를 쓰는 방식과 안전 규칙을 묶어 관리하는 틀입니다.
LangChain
AI 에이전트가 여러 작업을 연결해 처리할 수 있도록 돕는 오픈소스 프레임워크입니다.
Terminal-Bench 2.0
AI가 터미널에서 과제를 얼마나 잘 푸는지 재는 시험 이름이다.
terminal
명령어를 직접 입력해 프로그램을 실행하는 화면입니다.
RCE
공격자가 멀리서 다른 컴퓨터에 명령을 실행하게 만들 수 있는 보안 문제입니다.
오픈 웨이트
모델 내부 숫자(가중치)를 누구나 내려받을 수 있도록 공개한 방식으로, 자유롭게 실행·수정할 수 있습니다.
원문 보기