정상 JSONL이어도 파인튜닝 데이터는 망가질 수 있다
Parallelogram은 파인튜닝용 데이터를 검사하는 로컬 우선 도구다. 데이터 파일이 JSONL 형식으로는 맞아도, 실제 학습에는 문제가 있을 수 있다. 예를 들면 역할 순서가 틀리거나, 모델이 배워야 할 답변이 비어 있거나, 같은 예제가 반복되거나, 문맥 창을 넘거나, 이상한 문자 깨짐이 섞일 수 있다.
공개 전 점검에서 웹사이트 보안 신뢰 표시도 부족하다는 지적이 나왔다. HSTS는 있었지만 CSP, 화면 끼워넣기 방지, nosniff, Referrer-Policy, robots.txt, security.txt 같은 기본 설정이 빠져 있었다. 지금은 엄격한 CSP, 끼워넣기 방지, nosniff, Referrer-Policy, Permissions-Policy, robots.txt, 사이트맵, security.txt, 저장소의 SECURITY.md가 추가됐다.
브라우저 데모는 여전히 데이터 검사 중 외부 네트워크 호출을 하지 않는다.
핵심 포인트
용어 한 줄 설명
- 로컬 우선
- 데이터를 먼저 인터넷 서버가 아니라 내 기기에 저장하고 다루는 방식입니다.
- JSONL
- 한 줄에 하나씩 기록을 저장하는 텍스트 파일 형식입니다.
- JSON
- 프로그램들이 데이터를 주고받을 때 자주 쓰는 글 형식입니다.
- robots.txt
- 웹사이트 루트에 두는 텍스트 파일로, 어떤 봇이 어느 페이지에 접근할 수 있는지 알려주는 규칙 파일입니다.
- security
- 사이트가 해킹이나 악성 접근에 얼마나 안전한지 보는 항목입니다.
- 사이트맵
- 웹페이지 안에 무엇이 있는지 간단히 정리한 지도 같은 목록입니다.
- AI 에이전트
- 사람 대신 정보를 찾거나 작업을 처리하도록 만든 AI 프로그램입니다.
- 학습 데이터
- AI가 공부하고 배우는 데 사용되는 엄청난 양의 정보나 자료들을 말합니다.