오픈소스중요도: 보통

정상 JSONL이어도 파인튜닝 데이터는 망가질 수 있다

r/LLMDevs2026년 6월 13일 · 8시간 전

Parallelogram은 파인튜닝용 데이터를 검사하는 로컬 우선 도구다. 데이터 파일이 JSONL 형식으로는 맞아도, 실제 학습에는 문제가 있을 수 있다. 예를 들면 역할 순서가 틀리거나, 모델이 배워야 할 답변이 비어 있거나, 같은 예제가 반복되거나, 문맥 창을 넘거나, 이상한 문자 깨짐이 섞일 수 있다.

공개 전 점검에서 웹사이트 보안 신뢰 표시도 부족하다는 지적이 나왔다. HSTS는 있었지만 CSP, 화면 끼워넣기 방지, nosniff, Referrer-Policy, robots.txt, security.txt 같은 기본 설정이 빠져 있었다. 지금은 엄격한 CSP, 끼워넣기 방지, nosniff, Referrer-Policy, Permissions-Policy, robots.txt, 사이트맵, security.txt, 저장소의 SECURITY.md가 추가됐다.

브라우저 데모는 여전히 데이터 검사 중 외부 네트워크 호출을 하지 않는다.

핵심 포인트

JSONL 파일이 형식상 정상이어도 학습 데이터로는 잘못될 수 있다.
검사 대상에는 역할 순서, 빈 답변, 중복 예제, 문맥 창 초과, 문자 깨짐이 포함된다.
Parallelogram은 브라우저에서 데이터셋을 검사하면서 외부 네트워크 호출을 하지 않는다.
웹사이트에는 CSP, Referrer-Policy, security.txt 등 기본 보안 신뢰 장치가 추가됐다.
개발자 도구는 기능뿐 아니라 보안과 신뢰 표시도 중요하다.

용어 한 줄 설명

로컬 우선: 데이터를 먼저 인터넷 서버가 아니라 내 기기에 저장하고 다루는 방식입니다.
JSONL: 한 줄에 하나씩 기록을 저장하는 텍스트 파일 형식입니다.
JSON: 프로그램들이 데이터를 주고받을 때 자주 쓰는 글 형식입니다.
robots.txt: 웹사이트 루트에 두는 텍스트 파일로, 어떤 봇이 어느 페이지에 접근할 수 있는지 알려주는 규칙 파일입니다.
security: 사이트가 해킹이나 악성 접근에 얼마나 안전한지 보는 항목입니다.
사이트맵: 웹페이지 안에 무엇이 있는지 간단히 정리한 지도 같은 목록입니다.
AI 에이전트: 사람 대신 정보를 찾거나 작업을 처리하도록 만든 AI 프로그램입니다.
학습 데이터: AI가 공부하고 배우는 데 사용되는 엄청난 양의 정보나 자료들을 말합니다.

원문 보기 ↗