Midas가 BEAM 기억력 테스트를 LLM 호출 없이 실행했다고 밝힘

한 Reddit 사용자가 Midas를 BEAM 벤치마크에서 처음 시험했다고 올렸습니다. 글에 따르면 Midas는 BEAM 100K에서 recall@k 0.56, BEAM 500K에서 0.51을 기록했습니다. 작성자는 이 결과가 LLM 호출 0회, API 비용 0달러, 데이터 반출 0으로 나왔다고 말했습니다. 다음에는 1M과 10M 단계도 시험할 계획이라고 했습니다.

핵심 포인트

  • Midas를 BEAM 벤치마크에서 시험했다고 밝혔습니다.
  • BEAM 100K 결과는 recall@k 0.56이라고 했습니다.
  • BEAM 500K 결과는 recall@k 0.51이라고 했습니다.
  • 작성자는 LLM 호출, API 비용, 데이터 반출이 모두 0이었다고 말했습니다.
  • 작성자는 1M과 10M 단계 시험을 다음 목표로 적었습니다.

용어 한 줄 설명

BEAM 벤치마크
AI 에이전트가 많은 정보를 오래 기억하고 다시 찾는 능력을 재는 테스트입니다.
recall@k
정답에 가까운 정보를 상위 몇 개 결과 안에서 얼마나 잘 찾았는지를 나타내는 점수입니다.
recall
찾아야 할 정보 중 실제로 얼마나 많이 찾아냈는지를 뜻한다.
LLM 호출
ChatGPT나 Claude 같은 AI 언어 모델에 질문을 보내고 답변을 받는 동작입니다.
API 비용
서비스 기능을 프로그램으로 호출할 때 사용량에 따라 내는 돈입니다.
AI 에이전트
사람 대신 정보를 찾거나 작업을 처리하도록 만든 AI 프로그램입니다.
로컬 방식
인터넷 서버가 아닌 사용자의 컴퓨터나 기기 안에서 직접 작업을 처리하는 방식입니다.
excerpt
글의 일부를 짧게 가져온 미리보기 내용입니다.
원문 보기