검색 결과 재정렬에 쓰는 간단한 점수 공식
검색 결과를 더 알맞은 순서로 다시 정렬할 때, 문서가 다른 문서에서 얼마나 많이 연결되는지를 점수에 반영할 수 있다. 공식은 연결 수를 정해 둔 최대값까지만 인정한 뒤, 로그 계산으로 점수를 천천히 키운다.
그래서 연결이 1개만 있어도 어느 정도 가산점이 붙지만, 연결이 아주 많은 문서가 결과를 과하게 지배하지 않는다. 이 방식은 법률 문서를 찾는 RAG 기반 앱에서 문서 인기도를 반영하는 데 쓰였다.
나중에는 임베딩으로 비슷한 코드를 찾는 다른 도구에서도, 코드베이스 안에서 가까운 위치에 있는 항목에 가산점을 주는 방식으로 다시 쓰였다. 핵심은 더 복잡한 인공지능 모델을 추가하지 않고도, 싸고 예측 가능한 방식으로 검색 품질을 개선할 수 있다는 점이다.
핵심 포인트
용어 한 줄 설명
- 검색
- AI가 답하는 데 필요한 관련 정보 조각을 찾아 가져오는 단계입니다.
- RAG
- AI가 답하기 전에 관련 자료를 검색해서 그 내용을 참고하게 하는 방식입니다.
- 임베딩
- 텍스트를 숫자 벡터로 변환해 의미가 비슷한 내용끼리 검색할 수 있게 만드는 과정입니다.
- 코드베이스
- 한 소프트웨어를 이루는 전체 코드 묶음입니다.
- 인공지능 모델
- 사람처럼 글을 쓰거나 이미지를 만들도록 많은 데이터를 학습한 컴퓨터 프로그램입니다.
- 인공지능
- 인간처럼 생각하고 문제를 해결하도록 만든 컴퓨터 프로그램입니다.
- AI 에이전트
- 사람 대신 정보를 찾거나 작업을 처리하도록 만든 AI 프로그램입니다.
- 토큰
- AI가 글을 읽고 쓸 때 세는 작은 글자 조각 단위입니다.