AI 에이전트에는 GPU보다 다른 칩이 더 맞을 수 있다는 경험담
업무용 AI 에이전트 인프라를 18개월 다룬 경험 기준으로, NVIDIA GPU는 학습과 일반 챗봇 추론에는 강하지만 에이전트 작업에는 항상 잘 맞지 않을 수 있다. SambaNova의 SN40L/SN50과 NVIDIA의 H200/B200을 비교한 결과, 기존 GPU 인프라는 많은 토큰을 한꺼번에 싸게 만들어내는 일에 더 맞춰져 있다는 평가다. 챗봇에서는 사용자 한 명당 토큰 생성 속도가 낮아도 전체 비용이 낮으면 괜찮을 수 있다.
반면 에이전트는 긴 문맥을 읽고, 조사하고, 판단하고, 도구를 여러 번 부른 뒤 짧은 결과를 조금씩 내는 방식으로 움직인다. 이런 작업은 출력보다 입력이 훨씬 많아질 수 있고, 예시 비율은 입력 65 대 출력 1이다. NVIDIA는 답변을 만들기 전에 입력을 빠르게 읽는 프롬프트 처리에서는 매우 강하다는 평가도 함께 나온다.
SambaNova의 Reconfigurable Dataflow Unit은 이런 길고 순서가 있는 에이전트 작업에 더 잘 맞게 설계됐다는 주장이다.
핵심 포인트
용어 한 줄 설명
- AI 에이전트
- 사람 대신 정보를 찾거나 작업을 처리하도록 만든 AI 프로그램입니다.
- 에이전트 작업
- AI가 목표를 받고 여러 단계를 스스로 처리하는 작업입니다.
- ANOVA
- 여러 그룹의 평균 차이가 우연인지 아닌지 살펴보는 통계 방법이다.
- 프롬프트 처리
- AI가 답을 만들기 전에 사용자의 입력과 참고 자료를 먼저 읽는 단계다.
- config
- 프로그램이 어떻게 동작할지 정해두는 설정 파일이나 설정값입니다.
- 지연 시간
- 사용자 입력 후 AI가 응답을 시작할 때까지 걸리는 시간
- 에이전트 흐름
- AI가 여러 작업을 순서대로 이어서 처리하도록 만든 자동 작업 절차다.
- 에이전트형 작업
- AI가 한 번 답하는 데 그치지 않고 여러 단계를 스스로 처리하는 작업이다.