Duckle 0.2.0, 로컬 데이터 작업을 더 빠르게 처리

오픈소스 데이터 도구 Duckle이 0.2.0으로 업데이트됐습니다. 큰 데이터를 내 컴퓨터에서 빠르게 옮기고 합치는 기능이 늘었습니다. AI 에이전트용 데이터를 자주 갱신해야 할 때 시간과 비용을 줄이는 데 도움이 될 수 있습니다.

Duckle은 클라우드 계정 없이 내 컴퓨터에서 데이터 파이프라인을 만들고 실행하는 도구입니다. 이번 버전에는 CDC, 증분 로드, 병렬 실행, 화면에서 데이터를 합치는 Visual Map 기능이 추가됐다고 합니다. CSV, Parquet, DuckDB, SQLite, 데이터 웨어하우스의 데이터를 SQL 없이 연결할 수 있다고 설명합니다.

게시물에 따르면 16GB 노트북에서 500만 행짜리 3방향 조인과 여러 출력 작업이 약 3.0초에 끝났습니다. 10만 행 DuckLake CDC 복사 작업은 약 1.7초, 500만 행 증분 로드는 약 1.8초였다고 합니다. AI 에이전트가 참고할 최신 데이터를 만들 때 전체를 매번 다시 처리하지 않고 바뀐 부분만 처리할 수 있어, 토큰을 쓰기 전 단계의 데이터 준비 비용을 줄이는 쪽에 의미가 있습니다.

핵심 포인트

  • Duckle은 무료 오픈소스이며 로컬 우선 데이터 도구입니다.
  • 새 버전은 CDC, 증분 로드, 병렬 파이프라인, Visual Map을 추가했습니다.
  • 게시물 기준 16GB 노트북에서 500만 행 작업을 약 3초 안팎에 처리했습니다.
  • 계정, 클라우드, 텔레메트리 없이 데이터를 내 컴퓨터에 두고 처리한다고 설명합니다.
  • AI 에이전트용 데이터 갱신 작업에서 바뀐 데이터만 처리하면 시간과 비용을 줄일 수 있습니다.

용어 한 줄 설명

오픈소스
소스 코드를 공개해 누구나 보고 사용할 수 있게 한 방식입니다.
AI 에이전트
사람 대신 정보를 찾거나 작업을 처리하도록 만든 AI 프로그램입니다.
클라우드
내 컴퓨터가 아니라 인터넷으로 연결된 외부 컴퓨터를 쓰는 방식입니다.
데이터 파이프라인
데이터가 수집된 곳에서 목적지(AI 모델 등)까지 자동으로 흘러가는 처리 경로입니다.
파이프라인
데이터를 가져오고 바꾸고 내보내는 여러 작업을 순서대로 묶은 흐름입니다.
CDC
데이터에서 새로 생기거나 바뀌거나 삭제된 부분만 추적하는 방식입니다.
증분 로드
전체 데이터를 다시 가져오지 않고 바뀐 데이터만 추가로 가져오는 방식입니다.
로컬 우선
데이터를 먼저 인터넷 서버가 아니라 내 기기에 저장하고 다루는 방식입니다.
원문 보기