Omi Med STT v1: Open-Weight Medical ASR Fine-Tuned from Parakeet 0.6B
Original: I fine-tuned Parakeet 0.6B for medical ASR — open weights, local Mac/CUDA/CPU
Omi released an open-weight local medical ASR model fine-tuned from NVIDIA Parakeet 0.6B.
Omi Health’s founder says he fine-tuned NVIDIA Parakeet TDT 0.6B v2 for clinical speech and released Omi Med STT v1 under CC-BY-4.0. The runtime supports Mac, Windows, and Linux, auto-selecting MLX, NeMo, or GGUF/parakeet.cpp backends. In the author’s held-out medical benchmark, it reports 2.37% medical-WER and 145× realtime on local A10 compute.
這篇 r/LocalLLaMA 貼文介紹 Omi Health 創辦人釋出的 Omi Med STT v1,一個以 NVIDIA Parakeet TDT 0.6B v2 為基礎、針對臨床語音微調的醫療 ASR 模型。作者表示權重以 CC-BY-4.0 開放,目標是讓病患音訊能留在裝置本機完成轉錄,降低對雲端語音辨識服務的依賴。使用方式主打簡單:安裝 `omi-med-stt` 後即可對音訊檔執行轉錄,runtime 支援 Mac、Windows、Linux,並會依機器自動選擇 Apple Silicon 上的 MLX、CUDA 上的 NeMo,或 CPU 上的 GGUF/parakeet.cpp。作者說預設提供 q8 量化;雖然也做了 q4 並測試過,但因藥名準確率退步太多而未釋出。評測部分使用 1,513 段、共 7.18 小時的保留醫療音訊,所有模型使用相同音訊與 scorer,主要排序指標是 medical-WER,也就是只計算臨床術語錯誤,另列一般 WER、藥名錯誤與 RTFx 速度。與開放或本機模型相比,Omi Med STT v1 的 M-WER 為 2.37%、WER 為 8.30%、藥名錯誤為 4.75%、速度為 145× realtime。它只在 M-WER 上輸給 VibeVoice-ASR 9B 的 1.78%,但作者指出 VibeVoice 是 9B 模型、約大 15 倍,且在他的測試中更慢、整體 WER 也較高。相較原始 Parakeet TDT 0.6B v2,Omi 的 M-WER 從 8.36% 降至 2.37%,WER 約減半,誤冒出的藥名提及也從 131 次降到 9 次。與一般雲端 API 相比,Omi 仍落後 ElevenLabs Scribe v2、Gemini 3.1 Pro Preview、Soniox STT Async v4 等最強結果,但接近 Gemini 3.5 Flash,並宣稱本機速度遠高於多數雲端往返測試。不過這些數據來自作者自述評測,讀者仍應留意資料集代表性、醫療場景差異與外部重現性。
Free shows the 3-line summary; Pro unlocks the full deep summary (~300 words) so you never have to click through.
See Pro plans →Want the original English / full article?
Read on r/LocalLLaMA top day →Related
Summaries are AI-generated; the original article is authoritative.