로컬 AI가 PC를 조작 못하는 진짜 이유: 창 하나에 토큰 4,000개 소모

AI가 컴퓨터 화면을 직접 조작하려면 창의 '접근성 트리'를 읽어야 하는데, 창 하나만 해도 토큰 4,000개를 차지한다. 이 때문에 로컬(내 PC)에서 돌리는 작은 AI 모델은 금세 처리 한계에 부딪혀 루프가 멈춘다. 대형 클라우드 모델 없이는 PC 자동화가 현실적으로 어렵다는 뜻이다.

AI가 컴퓨터를 대신 조작하는 기능을 '컴퓨터 사용(computer-use)'이라고 부른다. 이 기능이 작동하려면 AI는 현재 화면에 어떤 버튼·텍스트·입력창이 있는지를 '접근성 트리'라는 목록 형태로 받아 읽는다. 문제는 이 목록이 생각보다 훨씬 방대하다는 것 — 창 하나만으로도 토큰 4,000개(짧은 글 약 3,000단어 분량)를 소비한다.

로컬 AI 모델은 한 번에 처리할 수 있는 토큰 수(컨텍스트 창)가 제한돼 있다. 창 여러 개를 다루거나 여러 단계를 반복하면 금방 한계를 넘어 오류가 나거나 루프가 멈춰버린다. 결국 PC 자동화를 안정적으로 쓰려면 컨텍스트가 넉넉한 대형 클라우드 모델(GPT-4o, Gemini 등)이 사실상 필수라는 결론이 나온다. 로컬에서 해결하려면 접근성 트리를 압축하거나 필요한 요소만 추리는 전처리가 필요하다.

핵심 포인트

  • 창 하나의 접근성 트리를 읽는 데만 토큰 4,000개가 필요하다
  • 로컬 소형 모델은 컨텍스트(처리 한계)가 부족해 여러 단계 자동화에서 멈춘다
  • 안정적인 PC 자동화에는 컨텍스트가 큰 클라우드 모델이 현실적
  • 접근성 트리를 미리 필터링·압축하면 로컬에서도 가능성이 생긴다
  • 이 문제는 AI 에이전트가 PC를 쓰는 모든 시나리오에 공통으로 적용된다

용어 한 줄 설명

접근성 트리
운영체제가 화면의 모든 버튼·텍스트·입력창을 목록으로 정리해 놓은 구조로, AI가 화면을 '읽을' 때 사용한다.
AI 모델
질문에 답하거나 글을 만드는 방법을 배운 프로그램입니다.
클라우드
내 컴퓨터가 아니라 인터넷으로 연결된 외부 컴퓨터를 쓰는 방식입니다.
컴퓨터 사용(computer-use)
AI가 사람처럼 마우스·키보드를 조작해 컴퓨터 화면의 프로그램을 직접 다루는 기능이다.
로컬 AI
인터넷 연결 없이 내 컴퓨터 안에서 직접 실행하는 AI 프로그램.
컨텍스트 창
AI 모델이 한 번에 읽고 처리할 수 있는 텍스트의 최대 분량.
컨텍스트
AI가 현재 대화에서 기억하고 있는 모든 내용으로, 길어질수록 더 많은 토큰을 소모한다
AI 에이전트
사람 대신 정보를 찾거나 작업을 처리하도록 만든 AI 프로그램입니다.
원문 보기