오픈소스중요도: 보통

Claude·GPT·Gemini가 서로 토론하게 자동화했더니, 진짜 반박 유도가 핵심 난관이었다

r/AI_Agents2026년 6월 11일 · 4시간 전

여러 AI 모델에게 같은 질문을 던지고 서로의 답을 반박하게 만드는 과정을 자동화한 경험담이다. 수작업으로 답변을 복붙하던 것을 코드로 자동화했지만, 모델들이 서로 동의만 하고 실질적으로 반박하지 않는 문제가 핵심 과제였다.

작성자는 Claude, GPT, Gemini에게 동일한 질문을 하고, 각 모델의 답변을 다른 모델에게 보여주며 비판하게 하는 '다중 LLM 토론' 방식을 직접 사용해왔다. 처음엔 일일이 손으로 복사-붙여넣기를 했는데, 이를 자동화하는 스크립트를 만들었다.

자동화 자체는 어렵지 않았지만, 모델들이 서로의 답변에 동의하거나 피상적인 칭찬만 하는 경향이 강해 실제로 의견 충돌이 일어나게 만드는 프롬프트 설계가 예상보다 훨씬 어려웠다고 한다. 이 방식은 단일 모델보다 더 다양한 시각을 얻고 오류를 잡아내는 데 유용하지만, 여러 모델을 호출하므로 토큰(비용)이 늘어난다는 트레이드오프가 있다.

핵심 포인트

Claude, GPT, Gemini 세 모델에게 같은 질문을 주고 서로 반박하게 만드는 방식
수작업 복붙을 자동화하는 스크립트를 직접 제작
모델들이 서로 동의만 하고 진짜 반박을 안 하는 게 가장 어려운 문제
반박을 유도하는 프롬프트 설계가 핵심 기술 포인트
여러 모델을 쓰는 만큼 토큰(API 비용)이 늘어나는 단점 존재

용어 한 줄 설명

AI 모델: 질문에 답하거나 글을 만드는 방법을 배운 프로그램입니다.
자동화: 사람이 반복해서 하던 일을 도구가 대신 하게 만드는 것입니다.
LLM: 글과 코드를 읽고 답을 만드는 대형 AI 모델입니다.
스크립트: 반복 작업을 자동으로 처리하게 만든 작은 프로그램입니다.
프롬프트: AI에게 원하는 일을 설명하는 지시문입니다.
토큰: AI가 글을 읽고 쓸 때 세는 작은 글자 조각 단위입니다.
API 비용: 서비스 기능을 프로그램으로 호출할 때 사용량에 따라 내는 돈입니다.

원문 보기 ↗