같은 AI 모델 두 개를 돌려도 코드 수정 결과는 매번 다르다

같은 AI 모델을 동시에 두 번 실행해도 코드 변경 내용이 서로 다르게 나온다는 실험 결과가 공유됐습니다. AI는 매번 조금씩 다른 답을 내놓는 구조이기 때문입니다. 여러 AI 에이전트를 병렬로 돌릴 때 이 점을 반드시 고려해야 합니다.

AI 언어 모델은 같은 질문을 받아도 매번 완전히 똑같은 답을 내놓지 않습니다. 내부적으로 확률 기반으로 단어를 선택하기 때문입니다. 이 글은 동일한 모델 두 인스턴스에 같은 코드 작업을 시켰을 때, 서로 다른 diff(코드 변경 내역)가 나온다는 점을 직접 실험으로 보여줍니다.

이는 AI 에이전트 시스템을 설계할 때 중요한 함의를 가집니다. '다수결 투표'나 '결과 검증'을 위해 같은 모델을 여러 번 돌리는 전략이 유효하지만, 결과가 항상 수렴한다고 가정하면 안 됩니다. 안정적인 출력이 필요할 때는 temperature(랜덤성 조절값)를 낮추거나 결과를 명시적으로 비교·검증하는 단계를 파이프라인에 넣어야 합니다.

핵심 포인트

  • 같은 모델을 두 번 실행하면 코드 변경 내용(diff)이 서로 달라질 수 있다
  • AI는 확률적으로 답을 생성하므로 완전한 재현성을 보장하지 않는다
  • 멀티 에이전트 시스템에서 결과가 일치한다고 가정하면 버그가 생긴다
  • temperature 값을 낮추면 출력이 더 일관되지만 완전히 동일하지는 않다
  • 여러 에이전트 결과를 비교할 때는 명시적인 검증 단계가 필요하다

용어 한 줄 설명

AI 모델
질문에 답하거나 글을 만드는 방법을 배운 프로그램입니다.
AI 에이전트
사람 대신 정보를 찾거나 작업을 처리하도록 만든 AI 프로그램입니다.
인스턴스
클라우드에서 시간 단위로 빌려 쓰는 가상 서버 또는 GPU 컴퓨팅 단위.
diff
코드에서 무엇이 추가되거나 삭제됐는지 보여주는 변경 내역입니다.
temperature
AI가 답을 생성할 때 얼마나 다양하고 창의적으로 선택할지를 조절하는 숫자 설정값입니다.
파이프라인
데이터를 가져오고 바꾸고 내보내는 여러 작업을 순서대로 묶은 흐름입니다.
재현성
다른 사람이 같은 방법으로 실험해도 동일한 결과가 나오는 성질입니다.
멀티 에이전트
여러 AI 에이전트가 각자 역할을 나눠 협력하는 구조입니다.
원문 보기