영상 AI가 덜 중요한 장면 토큰을 줄이는 연구

이 글은 영상의 복잡도에 따라 토큰 수를 자동으로 조절하는 연구를 소개합니다. 연구는 연속된 영상 프레임에서 거의 변하지 않는 위치는 새 정보가 적다고 보고, 그 부분의 토큰을 줄이는 방식을 제안합니다. 정적인 장면은 더 많이 압축하고, 움직임이 많은 장면은 더 많은 토큰을 남깁니다.

핵심 포인트

  • 영상의 복잡도에 따라 토큰 사용량을 자동으로 바꾸는 방법을 다룹니다.
  • 연속된 프레임에서 거의 변하지 않는 부분은 정보가 적다고 판단합니다.
  • 정적인 장면은 더 강하게 압축하고, 움직임이 많은 장면은 더 많은 토큰을 유지합니다.
  • 추가로 학습한 조절 모델 없이 고정된 기준값으로 중복 부분을 골라냅니다.
  • 영상 기반 AI 에이전트의 입력 비용을 줄이는 연구 흐름과 관련이 있습니다.

용어 한 줄 설명

토큰
AI가 글을 읽고 쓸 때 세는 작은 글자 조각 단위입니다.
프레임
영상 안의 한 장면을 이루는 한 장의 이미지입니다.
압축
AI가 메모리 공간을 아끼기 위해 과거 대화 내용을 스스로 요약하는 과정입니다.
AI 에이전트
사람 대신 정보를 찾거나 작업을 처리하도록 만든 AI 프로그램입니다.
원문 보기