샤오미, 8개 GPU 서버로 초당 1,000토큰 처리 주장

Reddit 글은 샤오미 MiMo가 MiMo-V2.5-Pro UltraSpeed를 발표했다고 전한다. 글에 따르면 이 모델은 1조 개 규모의 MoE 모델에서 초당 1,000개가 넘는 토큰 출력을 냈다고 주장한다. 작성자는 이것이 Cerebras나 Groq 같은 특수 하드웨어가 아니라 일반 8-GPU 서버에서 이뤄졌다고 설명했다. 댓글에서는 어떤 GPU를 썼는지, 실제 비용이 얼마나 되는지는 아직 분명하지 않다는 반응도 나왔다.

핵심 포인트

  • 샤오미 MiMo가 MiMo-V2.5-Pro UltraSpeed 발표를 했다고 Reddit 글이 전했다.
  • 주장은 1조 개 규모의 MoE 모델에서 초당 1,000개 이상 토큰을 출력했다는 내용이다.
  • 작성자는 특수 하드웨어가 아니라 일반 8-GPU 서버를 썼다고 설명했다.
  • 댓글에서는 어떤 GPU를 썼는지와 실제 비용이 핵심 변수라는 지적이 나왔다.
  • 일부 댓글은 FP4와 QAT 같은 방식으로 모델 크기와 처리 부담을 줄였다는 점을 언급했다.

용어 한 줄 설명

DDI
DNS·DHCP·IP 주소 관리를 합쳐서 부르는 말
Pro
보통 무료보다 더 많은 기능이나 사용량을 주는 유료 요금제를 뜻합니다.
Ultra
Cursor의 더 높은 단계 유료 요금제 이름으로 보입니다.
Groq
AI 프로그램을 아주 빠르게 실행하도록 돕는 특별한 기술과 서비스를 제공하는 회사.
하드웨어
컴퓨터를 구성하는 기계 장치나 부품을 말합니다.
8-GPU 서버
그래픽 처리 장치 8개를 넣어 AI 계산을 하는 컴퓨터다.
AI 에이전트
사람 대신 정보를 찾거나 작업을 처리하도록 만든 AI 프로그램입니다.
FP4
AI 모델 숫자를 아주 작게 줄여 저장하고 계산하는 방식이다.
원문 보기