대규모 벡터 검색은 직접 운영 비용이 크다

Qdrant가 연 Vector Space Day에서는 벡터 데이터베이스가 단순 저장소보다 검색 엔진에 가까워지고 있다는 흐름이 드러났다. 벡터를 저장하는 일 자체는 점점 평범한 기능이 되고, 실제 차이는 검색할 때 여러 방식의 결과를 섞는 하이브리드 검색, 점수 조정, 실행 방식 제어에서 난다. HubSpot은 자체 운영 Qdrant에 200억 개가 넘는 벡터를 저장하고, 클러스터 앞단에 Kafka 인덱서를 둔 내부 “서비스형 벡터” 플랫폼을 만들었다.

규모가 커지자 Helm만으로는 부족해서, 클러스터 상태를 보고 조각을 다시 나누는 Kubernetes 오퍼레이터까지 직접 만들었다. 이 오퍼레이터는 60초마다 상태를 확인하고 필요한 조정을 한다. 벡터를 줄여 저장하는 양자화는 임베딩 모델마다 성능 저하가 다르게 나타나므로, 도입 전 자기 데이터로 시험해야 한다.

Salesforce는 여전히 검색에 Solr를 쓰는 사례로 언급됐다.

핵심 포인트

  • 벡터 저장 자체보다 검색 시 결과를 어떻게 섞고 점수를 매기는지가 차별점이 되고 있다.
  • HubSpot은 자체 운영 Qdrant에 200억 개 이상의 벡터를 저장한다.
  • 대규모 자체 운영에는 Kafka 인덱서와 Kubernetes 오퍼레이터 같은 추가 시스템이 필요했다.
  • Helm은 템플릿 도구라서 클러스터 상태를 보고 자동 조정하는 데 한계가 있다.
  • 양자화는 저장비를 줄일 수 있지만, 임베딩 모델마다 검색 품질 저하가 다르다.

용어 한 줄 설명

벡터 데이터베이스
텍스트나 이미지를 숫자 형태로 변환해 저장하고, 의미가 비슷한 내용을 빠르게 찾아주는 특수 저장소
데이터베이스
많은 정보를 체계적으로 모아두어 찾아보기 쉽게 만든 정보의 집합체입니다.
하이브리드 검색
키워드 검색과 의미 기반 검색을 함께 쓰는 검색 방식이다.
HubSpot
영업과 고객 관리를 위해 많이 쓰는 CRM 서비스다.
Kubernetes 오퍼레이터
서버 묶음의 상태를 보고 필요한 운영 작업을 자동으로 수행하는 프로그램이다.
Kubernetes
많은 서버와 앱을 묶어서 관리하는 도구입니다.
Salesforce
기업용 고객 관리 소프트웨어를 제공하는 큰 기술 회사다.
AI 에이전트
사람 대신 정보를 찾거나 작업을 처리하도록 만든 AI 프로그램입니다.
원문 보기