대규모 벡터 검색은 직접 운영 비용이 크다
Qdrant가 연 Vector Space Day에서는 벡터 데이터베이스가 단순 저장소보다 검색 엔진에 가까워지고 있다는 흐름이 드러났다. 벡터를 저장하는 일 자체는 점점 평범한 기능이 되고, 실제 차이는 검색할 때 여러 방식의 결과를 섞는 하이브리드 검색, 점수 조정, 실행 방식 제어에서 난다. HubSpot은 자체 운영 Qdrant에 200억 개가 넘는 벡터를 저장하고, 클러스터 앞단에 Kafka 인덱서를 둔 내부 “서비스형 벡터” 플랫폼을 만들었다.
규모가 커지자 Helm만으로는 부족해서, 클러스터 상태를 보고 조각을 다시 나누는 Kubernetes 오퍼레이터까지 직접 만들었다. 이 오퍼레이터는 60초마다 상태를 확인하고 필요한 조정을 한다. 벡터를 줄여 저장하는 양자화는 임베딩 모델마다 성능 저하가 다르게 나타나므로, 도입 전 자기 데이터로 시험해야 한다.
Salesforce는 여전히 검색에 Solr를 쓰는 사례로 언급됐다.
핵심 포인트
- 벡터 저장 자체보다 검색 시 결과를 어떻게 섞고 점수를 매기는지가 차별점이 되고 있다.
- HubSpot은 자체 운영 Qdrant에 200억 개 이상의 벡터를 저장한다.
- 대규모 자체 운영에는 Kafka 인덱서와 Kubernetes 오퍼레이터 같은 추가 시스템이 필요했다.
- Helm은 템플릿 도구라서 클러스터 상태를 보고 자동 조정하는 데 한계가 있다.
- 양자화는 저장비를 줄일 수 있지만, 임베딩 모델마다 검색 품질 저하가 다르다.
용어 한 줄 설명
- 벡터 데이터베이스
- 텍스트나 이미지를 숫자 형태로 변환해 저장하고, 의미가 비슷한 내용을 빠르게 찾아주는 특수 저장소
- 데이터베이스
- 많은 정보를 체계적으로 모아두어 찾아보기 쉽게 만든 정보의 집합체입니다.
- 하이브리드 검색
- 키워드 검색과 의미 기반 검색을 함께 쓰는 검색 방식이다.
- HubSpot
- 영업과 고객 관리를 위해 많이 쓰는 CRM 서비스다.
- Kubernetes 오퍼레이터
- 서버 묶음의 상태를 보고 필요한 운영 작업을 자동으로 수행하는 프로그램이다.
- Kubernetes
- 많은 서버와 앱을 묶어서 관리하는 도구입니다.
- Salesforce
- 기업용 고객 관리 소프트웨어를 제공하는 큰 기술 회사다.
- AI 에이전트
- 사람 대신 정보를 찾거나 작업을 처리하도록 만든 AI 프로그램입니다.