LLM 앱이 시간이 지나며 틀리는 이유를 어떻게 찾을까

한 Reddit 사용자가 LLM 기반 제품을 운영할 때 생기는 문제를 묻고 있습니다. 처음에는 잘 되던 질문이 몇 주 뒤 틀리거나, 내부 용어를 모르거나, retrieval이 오래된 문서를 가져오는 상황을 예로 듭니다. 글쓴이는 같은 증상처럼 보여도 원인이 달라서, 어떤 방식으로 문제를 나누고 eval set을 만드는지 질문합니다.

핵심 포인트

  • 처음에는 맞던 LLM 답변이 시간이 지나며 틀릴 수 있다고 말합니다.
  • 원인 후보로 새 내부 용어, 오래된 문서, 잘못된 retrieval을 듭니다.
  • 같은 오답이라도 고쳐야 할 방법은 서로 다를 수 있다고 봅니다.
  • 문제를 먼저 묶어 보는지, eval set에 넣어 확인하는지 다른 개발자들의 방식을 묻습니다.
  • 이미 고친 문제가 다시 생기는 것을 막는 방법도 질문합니다.

용어 한 줄 설명

DDI
DNS·DHCP·IP 주소 관리를 합쳐서 부르는 말
LLM
글과 코드를 읽고 답을 만드는 대형 AI 모델입니다.
retrieval
모델이 답하기 전에 관련 문서나 정보를 찾아오는 방식입니다.
VA
UPS 용량 단위로, 숫자가 클수록 더 많은 기기를 더 오래 지탱할 수 있습니다.
eval set
모델이 잘 답하는지 반복해서 확인하는 테스트 질문 모음입니다.
AI 에이전트
사람 대신 정보를 찾거나 작업을 처리하도록 만든 AI 프로그램입니다.
토큰
AI가 글을 읽고 쓸 때 세는 작은 글자 조각 단위입니다.
개발
컴퓨터 프로그램을 만드는 모든 과정입니다.
원문 보기