검색 결과 재정렬에 쓰는 간단한 점수 공식

검색 결과를 더 알맞은 순서로 다시 정렬할 때, 문서가 다른 문서에서 얼마나 많이 연결되는지를 점수에 반영할 수 있다. 공식은 연결 수를 정해 둔 최대값까지만 인정한 뒤, 로그 계산으로 점수를 천천히 키운다.

그래서 연결이 1개만 있어도 어느 정도 가산점이 붙지만, 연결이 아주 많은 문서가 결과를 과하게 지배하지 않는다. 이 방식은 법률 문서를 찾는 RAG 기반 앱에서 문서 인기도를 반영하는 데 쓰였다.

나중에는 임베딩으로 비슷한 코드를 찾는 다른 도구에서도, 코드베이스 안에서 가까운 위치에 있는 항목에 가산점을 주는 방식으로 다시 쓰였다. 핵심은 더 복잡한 인공지능 모델을 추가하지 않고도, 싸고 예측 가능한 방식으로 검색 품질을 개선할 수 있다는 점이다.

핵심 포인트

  • 연결 수가 많을수록 검색 결과에 가산점을 주되, 영향은 점점 작아지게 만든다.
  • 최대 연결 수와 최대 가산점을 정해 두면 특정 문서가 결과를 과하게 지배하지 않는다.
  • 법률 문서 검색과 비슷한 코드 찾기라는 서로 다른 작업에 같은 방식이 쓰였다.
  • 복잡한 인공지능 모델을 추가하지 않아도 검색 결과를 개선할 수 있다.
  • AI 에이전트가 덜 중요한 자료를 읽는 일을 줄이면 토큰과 비용 절감에 도움이 될 수 있다.

용어 한 줄 설명

검색
AI가 답하는 데 필요한 관련 정보 조각을 찾아 가져오는 단계입니다.
RAG
AI가 답하기 전에 관련 자료를 검색해서 그 내용을 참고하게 하는 방식입니다.
임베딩
텍스트를 숫자 벡터로 변환해 의미가 비슷한 내용끼리 검색할 수 있게 만드는 과정입니다.
코드베이스
한 소프트웨어를 이루는 전체 코드 묶음입니다.
인공지능 모델
사람처럼 글을 쓰거나 이미지를 만들도록 많은 데이터를 학습한 컴퓨터 프로그램입니다.
인공지능
인간처럼 생각하고 문제를 해결하도록 만든 컴퓨터 프로그램입니다.
AI 에이전트
사람 대신 정보를 찾거나 작업을 처리하도록 만든 AI 프로그램입니다.
토큰
AI가 글을 읽고 쓸 때 세는 작은 글자 조각 단위입니다.
원문 보기