큰 컨텍스트 창이 RAG를 대체할 수 있을까
대규모 언어 모델이 한 번에 더 많은 문서를 읽을 수 있게 되면서, 검색 증강 생성이 계속 필요할지에 대한 질문이 제기됐다. 핵심 쟁점은 모든 자료를 모델의 컨텍스트 창에 넣는 방식이 실제 서비스에서 충분히 싸고 빠른지다. 검색 증강 생성은 필요한 정보만 골라 넣기 때문에 비용과 지연 시간을 줄이는 데 도움이 될 수 있다.
또 최신 정보 반영, 관련성 높은 문맥 선택, 접근 권한 관리 같은 문제 때문에 실제 운영 환경에서는 여전히 중요한 역할을 할 수 있다. 앞으로 몇 년 동안 AI 애플리케이션이 “전부 컨텍스트에 넣기”로 갈지, 아니면 검색을 계속 함께 쓸지가 주요 판단점이다.
핵심 포인트
용어 한 줄 설명
- 대규모 언어 모델
- 글을 이해하고 답하거나 판단을 돕는 큰 인공지능 모델이다.
- 검색 증강 생성
- AI가 답하기 전에 외부 자료를 먼저 찾아 그 내용을 참고하게 하는 방식이다.
- 컨텍스트 창
- AI 모델이 한 번에 읽고 처리할 수 있는 텍스트의 최대 분량.
- 지연 시간
- 사용자 입력 후 AI가 응답을 시작할 때까지 걸리는 시간
- 운영 환경
- 실제 사용자가 접속하는 서비스가 돌아가는 환경이다.
- 애플리케이션
- 스마트폰이나 컴퓨터에서 쓰는 앱이나 프로그램을 말합니다.
- AI 에이전트
- 사람 대신 정보를 찾거나 작업을 처리하도록 만든 AI 프로그램입니다.
- 추론 비용
- AI가 답변을 만들어낼 때 들어가는 서비스 이용료를 말합니다.