구글, 이미지 확산 방식으로 텍스트 생성하는 오픈 모델 DiffusionGemma 공개

구글 딥마인드가 기존 AI와 완전히 다른 방식으로 텍스트를 생성하는 실험적 오픈 모델 DiffusionGemma를 공개했습니다. 전용 GPU에서 기존 모델 대비 최대 4배 빠른 출력 속도를 보여, AI 에이전트의 응답 비용을 크게 줄일 가능성이 있습니다.

기존 LLM은 단어를 한 글자씩 순서대로 생성합니다(자기회귀 방식). DiffusionGemma는 이미지 생성 AI에서 쓰는 '확산(diffusion)' 기법을 텍스트에 적용해, 여러 위치의 토큰을 동시에 반복 정제하는 방식으로 문장을 만들어냅니다. 이 구조적 차이 덕분에 전용 GPU 환경에서 최대 4배 빠른 출력이 가능하다고 발표됐습니다.

속도 향상은 AI 에이전트 운영 비용에 직결됩니다. 에이전트는 짧은 시간에 수십 번 LLM을 호출하는 경우가 많아, 추론 속도가 빠를수록 비용이 줄어듭니다. 완전 오픈 모델이라 자체 서버에서 직접 돌릴 수 있고, 개발자 가이드도 함께 공개돼 실제 통합 경로가 열려 있습니다. 다만 아직 '실험적' 단계이므로 품질·안정성 검증은 필요합니다.

핵심 포인트

  • 텍스트를 한 토큰씩 순서대로 생성하지 않고, 이미지 확산 방식으로 병렬 정제해 속도를 높임
  • 전용 GPU에서 최대 4배 빠른 출력 — 같은 GPU 시간에 더 많은 에이전트 호출 처리 가능
  • 완전 오픈 모델이라 자체 서버에 배포해 API 비용 없이 운영 가능
  • 구글 공식 개발자 가이드 동시 공개 — 실제 통합 방법 제공
  • 현재 실험 단계이므로 프로덕션 적용 전 품질 검증 권장

용어 한 줄 설명

diff
코드에서 무엇이 추가되거나 삭제됐는지 보여주는 변경 내역입니다.
AI 에이전트
사람 대신 정보를 찾거나 작업을 처리하도록 만든 AI 프로그램입니다.
자기회귀 방식
ChatGPT·Gemini 같은 기존 LLM이 사용하는 방식으로, 단어를 왼쪽부터 한 번에 하나씩 순서대로 생성합니다.
이미지 생성 AI
텍스트로 설명을 입력하면 그에 맞는 그림을 자동으로 만들어 주는 인공지능 도구입니다.
확산(diffusion)
노이즈를 점점 제거해 결과물을 만드는 기법으로, 원래 이미지 생성 AI에서 쓰였으나 DiffusionGemma는 이를 텍스트 생성에 적용했습니다.
운영 비용
사업이나 서비스를 유지하기 위해 계속해서 들어가는 돈입니다.
API 비용
서비스 기능을 프로그램으로 호출할 때 사용량에 따라 내는 돈입니다.
프로덕션
실제 사용자가 쓰는 서비스 환경(개발·테스트 환경과 반대 개념)

이 사건을 다룬 원문 (6)

원문 보기