Midas가 BEAM 기억력 테스트를 LLM 호출 없이 실행했다고 밝힘
한 Reddit 사용자가 Midas를 BEAM 벤치마크에서 처음 시험했다고 올렸습니다. 글에 따르면 Midas는 BEAM 100K에서 recall@k 0.56, BEAM 500K에서 0.51을 기록했습니다. 작성자는 이 결과가 LLM 호출 0회, API 비용 0달러, 데이터 반출 0으로 나왔다고 말했습니다. 다음에는 1M과 10M 단계도 시험할 계획이라고 했습니다.
핵심 포인트
용어 한 줄 설명
- BEAM 벤치마크
- AI 에이전트가 많은 정보를 오래 기억하고 다시 찾는 능력을 재는 테스트입니다.
- recall@k
- 정답에 가까운 정보를 상위 몇 개 결과 안에서 얼마나 잘 찾았는지를 나타내는 점수입니다.
- recall
- 찾아야 할 정보 중 실제로 얼마나 많이 찾아냈는지를 뜻한다.
- LLM 호출
- ChatGPT나 Claude 같은 AI 언어 모델에 질문을 보내고 답변을 받는 동작입니다.
- API 비용
- 서비스 기능을 프로그램으로 호출할 때 사용량에 따라 내는 돈입니다.
- AI 에이전트
- 사람 대신 정보를 찾거나 작업을 처리하도록 만든 AI 프로그램입니다.
- 로컬 방식
- 인터넷 서버가 아닌 사용자의 컴퓨터나 기기 안에서 직접 작업을 처리하는 방식입니다.
- excerpt
- 글의 일부를 짧게 가져온 미리보기 내용입니다.