MTP로 생성 속도 2배, 하지만 긴 문맥에서는 체감 개선 3%에 불과
MTP(다중 토큰 예측) 기능을 켜면 글자 생성 속도는 2배로 빨라집니다. 그런데 64,000 토큰 길이의 긴 문맥에서는 전체 응답 시간이 고작 3%밖에 줄지 않았습니다. 그 이유는 '프리필' 단계가 대부분의 시간을 잡아먹기 때문입니다.
AI가 답변을 만들 때는 두 단계를 거칩니다. 첫 번째는 입력 문맥 전체를 한꺼번에 읽어들이는 '프리필' 단계, 두 번째는 실제로 단어를 하나씩(또는 여러 개씩) 만들어내는 '생성' 단계입니다. MTP는 생성 단계에서 한 번에 여러 토큰을 예측해 속도를 높이는 기술입니다.
문제는 64,000 토큰처럼 긴 문맥을 다룰 때입니다. 프리필에 걸리는 시간이 워낙 길어서, 생성 속도가 2배가 되어도 전체 대기 시간은 3%밖에 줄지 않습니다. RTX 3090 GPU로 직접 측정한 결과로, 짧은 문맥에서는 MTP가 체감 효과가 크지만 긴 문맥(예: 긴 문서 분석, 대화 이력이 쌓인 에이전트)에서는 기대만큼 빠르지 않습니다.
핵심 포인트
용어 한 줄 설명
- MTP(다중 토큰 예측)
- AI가 한 번에 하나씩 단어를 만드는 대신 여러 단어를 동시에 예측해 생성 속도를 높이는 기술입니다.
- 토큰
- AI가 글을 읽고 쓸 때 세는 작은 글자 조각 단위입니다.
- 프리필
- AI가 답변을 생성하기 전에 입력된 문맥 전체를 처음부터 끝까지 읽어들이는 준비 단계입니다.
- GPU
- AI 연산에 특화된 고성능 칩으로, 대량의 계산을 동시에 처리할 수 있어 AI 모델 학습에 필수적이다.
- AI 에이전트
- 사람 대신 정보를 찾거나 작업을 처리하도록 만든 AI 프로그램입니다.