정상 JSONL이어도 파인튜닝 데이터는 망가질 수 있다

Parallelogram은 파인튜닝용 데이터를 검사하는 로컬 우선 도구다. 데이터 파일이 JSONL 형식으로는 맞아도, 실제 학습에는 문제가 있을 수 있다. 예를 들면 역할 순서가 틀리거나, 모델이 배워야 할 답변이 비어 있거나, 같은 예제가 반복되거나, 문맥 창을 넘거나, 이상한 문자 깨짐이 섞일 수 있다.

공개 전 점검에서 웹사이트 보안 신뢰 표시도 부족하다는 지적이 나왔다. HSTS는 있었지만 CSP, 화면 끼워넣기 방지, nosniff, Referrer-Policy, robots.txt, security.txt 같은 기본 설정이 빠져 있었다. 지금은 엄격한 CSP, 끼워넣기 방지, nosniff, Referrer-Policy, Permissions-Policy, robots.txt, 사이트맵, security.txt, 저장소의 SECURITY.md가 추가됐다.

브라우저 데모는 여전히 데이터 검사 중 외부 네트워크 호출을 하지 않는다.

핵심 포인트

  • JSONL 파일이 형식상 정상이어도 학습 데이터로는 잘못될 수 있다.
  • 검사 대상에는 역할 순서, 빈 답변, 중복 예제, 문맥 창 초과, 문자 깨짐이 포함된다.
  • Parallelogram은 브라우저에서 데이터셋을 검사하면서 외부 네트워크 호출을 하지 않는다.
  • 웹사이트에는 CSP, Referrer-Policy, security.txt 등 기본 보안 신뢰 장치가 추가됐다.
  • 개발자 도구는 기능뿐 아니라 보안과 신뢰 표시도 중요하다.

용어 한 줄 설명

로컬 우선
데이터를 먼저 인터넷 서버가 아니라 내 기기에 저장하고 다루는 방식입니다.
JSONL
한 줄에 하나씩 기록을 저장하는 텍스트 파일 형식입니다.
JSON
프로그램들이 데이터를 주고받을 때 자주 쓰는 글 형식입니다.
robots.txt
웹사이트 루트에 두는 텍스트 파일로, 어떤 봇이 어느 페이지에 접근할 수 있는지 알려주는 규칙 파일입니다.
security
사이트가 해킹이나 악성 접근에 얼마나 안전한지 보는 항목입니다.
사이트맵
웹페이지 안에 무엇이 있는지 간단히 정리한 지도 같은 목록입니다.
AI 에이전트
사람 대신 정보를 찾거나 작업을 처리하도록 만든 AI 프로그램입니다.
학습 데이터
AI가 공부하고 배우는 데 사용되는 엄청난 양의 정보나 자료들을 말합니다.
원문 보기