고카디널리티 메트릭이란 무엇이고 왜 문제가 되나

소프트웨어 모니터링에서 '고카디널리티 메트릭'은 수백만 가지 고유 값을 가진 측정 데이터를 뜻합니다. 이런 데이터는 문제 원인을 정확히 찾는 데 유용하지만, 저장·처리 비용이 급격히 커집니다. AI 에이전트를 운영할 때도 요청별 추적 데이터가 늘어나면 같은 문제가 생깁니다.

모니터링 시스템은 서비스가 얼마나 잘 돌아가는지 숫자로 측정합니다. 예를 들어 '오류 횟수'나 '응답 시간' 같은 것들입니다. 여기에 '어느 사용자', '어느 요청 ID'처럼 개인마다 다른 값을 붙이면, 조합의 수가 폭발적으로 늘어납니다. 이것이 고카디널리티(high cardinality) 문제입니다.

데이터가 많을수록 버그를 빠르게 찾을 수 있지만, Prometheus 같은 일반 메트릭 도구는 이 규모를 감당하기 어렵습니다. 그래서 커뮤니티에서는 어떤 도구를 쓰는지, 비용을 줄이는 방법은 무엇인지 활발히 논의 중입니다. 특히 AI 에이전트처럼 요청마다 고유한 ID나 세션 정보가 붙는 시스템에서는 이 문제가 더 두드러집니다.

핵심 포인트

  • 고카디널리티란 측정 항목의 고유 값 조합이 매우 많은 상태를 말합니다.
  • 사용자 ID·요청 ID처럼 값이 무한히 늘어나는 태그가 주된 원인입니다.
  • 일반 메트릭 도구(예: Prometheus)는 고카디널리티 데이터를 처리하면 느려지거나 비용이 급증합니다.
  • 해결책으로 Honeycomb, ClickHouse 같은 전용 도구나 데이터 샘플링 기법이 거론됩니다.
  • AI 에이전트 운영 시 요청 추적 데이터 설계 단계부터 카디널리티를 고려해야 합니다.

용어 한 줄 설명

소프트웨어
컴퓨터나 스마트 장치에서 작업을 수행하는 프로그램입니다.
고카디널리티
측정 데이터에서 가능한 고유 값의 조합이 매우 많은 상태를 뜻합니다.
AI 에이전트
사람 대신 정보를 찾거나 작업을 처리하도록 만든 AI 프로그램입니다.
Prometheus
서버나 서비스의 상태를 숫자로 수집하고 저장하는 오픈소스 모니터링 도구입니다.
PR
Pull Request의 줄임말로, 코드 변경 사항을 프로젝트에 반영해달라는 요청입니다.
YC
초기 스타트업에 투자하고 성장을 돕는 유명 프로그램입니다.
CLI
터미널에서 명령어로 실행하는 프로그램입니다.
샘플링
전체 데이터 중 일부만 골라 분석해 비용과 저장 공간을 줄이는 기법입니다.
원문 보기