복잡한 조사형 AI 도구 4종을 비용까지 함께 비교

내부용 조사 도구를 만들기 위해, 복잡한 질문을 여러 자료에서 확인하고 사람이 바로 쓸 수 있는 답으로 정리하는 깊은 조사 API 4종을 같은 과제로 시험했다. 과제는 일부러 얕은 AI 에이전트가 틀리기 쉬운 형태였다.

처음 세 자료가 서로 충돌했고, 그중 하나는 조용히 오래된 정보였으며, 정답을 내려면 질문 안에 잘못된 전제가 있다는 점도 잡아내야 했다. 평가는 최종 답이 잘못된 전제를 알아챘는지, 모든 주장이 실제 출처로 이어지는지, 답을 만들기까지 도구 호출토큰을 얼마나 썼는지로 했다.

차이는 더 많은 페이지를 읽는 능력보다 자료가 서로 맞지 않을 때 처리하는 방식에서 났다. 약한 두 도구는 마지막에 본 자료를 따라가며 자신 있게 틀린 답을 냈고, 나은 두 도구는 충돌을 표시한 뒤 어느 쪽이 맞는지 풀어냈다.

핵심 포인트

  • 깊은 조사 API 4종을 같은 복잡한 다단계 과제로 비교했다.
  • 평가 기준에는 잘못된 전제 감지, 실제 출처 연결, 도구 호출 수, 토큰 사용량이 포함됐다.
  • 약한 도구들은 마지막으로 본 자료를 따라가며 틀린 답을 자신 있게 냈다.
  • 좋은 도구들은 출처 충돌을 표시하고 어느 쪽이 맞는지 따졌다.
  • AI 에이전트 비용 평가는 답 품질과 토큰 사용량을 함께 봐야 한다.

용어 한 줄 설명

Pi
작은 컴퓨터 보드인 Raspberry Pi를 줄여 부르는 말입니다.
AI 에이전트
사람 대신 정보를 찾거나 작업을 처리하도록 만든 AI 프로그램입니다.
평가
AI의 답이나 행동이 기준에 맞는지 점수로 확인하는 과정이다.
도구 호출
AI가 검색, 파일 읽기 같은 외부 기능을 부르는 일입니다.
토큰
AI가 글을 읽고 쓸 때 세는 작은 글자 조각 단위입니다.
검색
AI가 답하는 데 필요한 관련 정보 조각을 찾아 가져오는 단계입니다.
토큰 사용량
AI에게 보내고 받은 글의 양을 세는 단위 사용량입니다.
사용량
AI 도구를 일정 기간 동안 얼마나 많이 쓸 수 있는지를 뜻합니다.
원문 보기