아이폰에서 인터넷 없이 실시간 음성 인식 — 오픈소스 데모 공개
아이폰에서 인터넷 연결 없이 말하는 즉시 텍스트로 변환하는 앱 데모가 오픈소스로 공개됐습니다. NVIDIA의 음성 인식 모델(Nemotron 3.5)을 애플 기기 전용 포맷(Core ML)으로 변환해 기기 안에서만 동작하도록 만든 것입니다. AI 에이전트에 음성 입력을 붙이고 싶은 개발자에게 출발점이 될 수 있습니다.
이 프로젝트는 아이폰·아이패드에서 외부 서버 없이 음성을 실시간으로 텍스트로 바꾸는 '개념 증명(PoC)' 앱입니다. 핵심은 NVIDIA가 만든 음성 인식 모델 Nemotron 3.5를 애플의 Core ML 형식으로 변환한 것으로, 덕분에 모든 처리가 기기 안에서 완결됩니다. 즉, 음성 데이터가 외부로 나가지 않아 프라이버시 측면에서 유리하고 오프라인에서도 쓸 수 있습니다.
스트리밍 방식이기 때문에 말이 끝나길 기다리지 않고 말하는 중에 텍스트가 실시간으로 나타납니다. 아직 완성된 제품이 아닌 초기 데모 수준이지만, 코드가 공개돼 있어 iOS 앱에 오프라인 음성 인식을 직접 붙여보고 싶은 개발자가 코드를 바로 가져다 쓸 수 있습니다.
핵심 포인트
용어 한 줄 설명
- 오픈소스
- 소스 코드를 공개해 누구나 보고 사용할 수 있게 한 방식입니다.
- TRON
- AI가 도구 정보를 더 짧게 표현하도록 만든 데이터 형식입니다.
- Core ML
- 애플이 만든 AI 모델 실행 도구로, 아이폰·맥 등 애플 기기 안에서 AI를 빠르게 돌릴 수 있게 해줍니다.
- AI 에이전트
- 사람 대신 정보를 찾거나 작업을 처리하도록 만든 AI 프로그램입니다.
- PoC
- Proof of Concept의 줄임말로, '이 아이디어가 실제로 동작한다'는 걸 보여주기 위한 초기 시범 구현입니다.
- 오프라인
- 인터넷이나 통신망에 연결되지 않은 상태에서도 작동한다는 뜻입니다.
- 스트리밍
- 여기서는 말이 끝나기 전에도 텍스트가 실시간으로 계속 나타나는 방식을 뜻합니다.
- iOS
- 아이폰과 아이패드에서 쓰는 애플의 운영체제입니다.