로컬 AI가 PC를 조작 못하는 진짜 이유: 창 하나에 토큰 4,000개 소모
AI가 컴퓨터 화면을 직접 조작하려면 창의 '접근성 트리'를 읽어야 하는데, 창 하나만 해도 토큰 4,000개를 차지한다. 이 때문에 로컬(내 PC)에서 돌리는 작은 AI 모델은 금세 처리 한계에 부딪혀 루프가 멈춘다. 대형 클라우드 모델 없이는 PC 자동화가 현실적으로 어렵다는 뜻이다.
AI가 컴퓨터를 대신 조작하는 기능을 '컴퓨터 사용(computer-use)'이라고 부른다. 이 기능이 작동하려면 AI는 현재 화면에 어떤 버튼·텍스트·입력창이 있는지를 '접근성 트리'라는 목록 형태로 받아 읽는다. 문제는 이 목록이 생각보다 훨씬 방대하다는 것 — 창 하나만으로도 토큰 4,000개(짧은 글 약 3,000단어 분량)를 소비한다.
로컬 AI 모델은 한 번에 처리할 수 있는 토큰 수(컨텍스트 창)가 제한돼 있다. 창 여러 개를 다루거나 여러 단계를 반복하면 금방 한계를 넘어 오류가 나거나 루프가 멈춰버린다. 결국 PC 자동화를 안정적으로 쓰려면 컨텍스트가 넉넉한 대형 클라우드 모델(GPT-4o, Gemini 등)이 사실상 필수라는 결론이 나온다. 로컬에서 해결하려면 접근성 트리를 압축하거나 필요한 요소만 추리는 전처리가 필요하다.
핵심 포인트
용어 한 줄 설명
- 접근성 트리
- 운영체제가 화면의 모든 버튼·텍스트·입력창을 목록으로 정리해 놓은 구조로, AI가 화면을 '읽을' 때 사용한다.
- AI 모델
- 질문에 답하거나 글을 만드는 방법을 배운 프로그램입니다.
- 클라우드
- 내 컴퓨터가 아니라 인터넷으로 연결된 외부 컴퓨터를 쓰는 방식입니다.
- 컴퓨터 사용(computer-use)
- AI가 사람처럼 마우스·키보드를 조작해 컴퓨터 화면의 프로그램을 직접 다루는 기능이다.
- 로컬 AI
- 인터넷 연결 없이 내 컴퓨터 안에서 직접 실행하는 AI 프로그램.
- 컨텍스트 창
- AI 모델이 한 번에 읽고 처리할 수 있는 텍스트의 최대 분량.
- 컨텍스트
- AI가 현재 대화에서 기억하고 있는 모든 내용으로, 길어질수록 더 많은 토큰을 소모한다
- AI 에이전트
- 사람 대신 정보를 찾거나 작업을 처리하도록 만든 AI 프로그램입니다.