Inferoa, AI 에이전트의 토큰과 비용을 줄이는 실행 도구
Inferoa는 AI 에이전트가 여러 번 작업을 반복할 때 쓰는 실행 도구라고 설명한다. 이 프로젝트는 목표, 피드백, 검증, 기억, 도구를 함께 다루는 loop 방식을 내세운다. README는 prefix cache, context 관리, model routing을 통해 토큰 사용과 비용 압박을 줄이는 데 초점을 둔다. 설치는 npm으로 하며, 최신 GitHub 릴리스는 2026년 6월 10일 기준 0.14.1이다.
핵심 포인트
- AI 에이전트가 목표를 잡고, 확인하고, 고치고, 계속 진행하는 loop 작업을 지원한다.
- /loop 명령은 긴 작업을 여러 단계로 이어 가며 테스트와 검증 결과를 남기도록 설계됐다.
- /tokenmaxxing 명령은 토큰 사용, 비용 압박, prefix cache 재사용 상태를 보여준다고 설명한다.
- context를 너무 크게 키우지 않도록 요약, 제한된 기록, 필요한 증거 선택을 강조한다.
- 비용, 안전, 개인정보, 성능에 따라 model routing을 선택할 수 있다고 설명한다.
용어 한 줄 설명
- AI 에이전트
- 사람 대신 정보를 찾거나 작업을 처리하도록 만든 AI 프로그램입니다.
- README
- 프로그램을 어떻게 쓰는지 설명하는 안내 문서다.
- prefix cache
- 반복해서 쓰는 앞부분 입력을 다시 계산하지 않게 저장해 두는 방식이다.
- cache
- 이미 처리한 내용을 다시 쓰게 해 시간과 비용을 줄이는 저장 방식입니다.
- context
- AI가 답을 만들 때 참고로 받는 배경 정보입니다.
- routing
- 요청을 어떤 처리 방식이나 도구로 보낼지 정하는 과정입니다.
- 토큰 사용량
- AI에게 보내고 받은 글의 양을 세는 단위 사용량입니다.
- /loop
- 매 단계마다 사람의 허락을 기다리지 않고 AI가 스스로 판단해 연속적으로 작업을 진행하도록 허용하는 명령어입니다.