영화별 팟캐스트 에피소드를 찾는 검색 엔진 사례
한 개발자가 특정 영화에 대해 실제로 다룬 팟캐스트 에피소드를 찾는 검색 엔진을 만들었다고 소개했습니다. 기존 팟캐스트 검색은 주제보다 쇼나 키워드 중심이라 결과가 뒤섞인다고 설명했습니다. 이 서비스는 에피소드가 영화를 제대로 다루는지, 단순히 언급만 하는지 분류한다고 합니다. 만든 사람은 목록이 아직 완전하지 않고 classifier가 틀릴 때도 있다고 밝혔습니다.
핵심 포인트
- 서비스 이름은 impdb.dev입니다.
- 약 110만 개 팟캐스트 에피소드를 corpus로 사용한다고 밝혔습니다.
- 명확한 영화 제목 일치는 직접 처리하고, 애매한 경우는 LLM이 에피소드를 읽고 분류합니다.
- 기술 구성으로 Hono SSR, Cloudflare Workers, D1 databases를 언급했습니다.
- 제작자는 catalog가 불완전하고 classifier가 틀릴 수 있다고 공개했습니다.
용어 한 줄 설명
- 검색 엔진
- 구글이나 네이버처럼 인터넷에서 원하는 정보를 찾을 수 있게 도와주는 웹사이트입니다.
- classifier
- 입력이나 작업을 어떤 종류로 볼지 나누는 자동 판단 기능이다.
- 비즈니스
- 돈을 벌기 위해 가치 있는 것을 만들어 파는 모든 활동을 말합니다.
- corpus
- 검색이나 분석에 쓰는 큰 자료 묶음입니다.
- LLM
- 글과 코드를 읽고 답을 만드는 대형 AI 모델입니다.
- Cloudflare Workers
- 서버를 직접 관리하지 않고 웹 기능을 실행하게 해주는 서비스입니다.
- Cloudflare
- 웹사이트를 보호하고 접속을 관리하는 서비스입니다.
- database
- 서비스가 사용자 정보와 작업 내용을 저장하는 공간이다.