Omi Med STT v1: Open-Weight Medical ASR Fine-Tuned from Parakeet 0.6B | EveryCorner

這篇 r/LocalLLaMA 貼文介紹 Omi Health 創辦人釋出的 Omi Med STT v1，一個以 NVIDIA Parakeet TDT 0.6B v2 為基礎、針對臨床語音微調的醫療 ASR 模型。作者表示權重以 CC-BY-4.0 開放，目標是讓病患音訊能留在裝置本機完成轉錄，降低對雲端語音辨識服務的依賴。使用方式主打簡單：安裝 `omi-med-stt` 後即可對音訊檔執行轉錄，runtime 支援 Mac、Windows、Linux，並會依機器自動選擇 Apple Silicon 上的 MLX、CUDA 上的 NeMo，或 CPU 上的 GGUF/parakeet.cpp。作者說預設提供 q8 量化；雖然也做了 q4 並測試過，但因藥名準確率退步太多而未釋出。評測部分使用 1,513 段、共 7.18 小時的保留醫療音訊，所有模型使用相同音訊與 scorer，主要排序指標是 medical-WER，也就是只計算臨床術語錯誤，另列一般 WER、藥名錯誤與 RTFx 速度。與開放或本機模型相比，Omi Med STT v1 的 M-WER 為 2.37%、WER 為 8.30%、藥名錯誤為 4.75%、速度為 145× realtime。它只在 M-WER 上輸給 VibeVoice-ASR 9B 的 1.78%，但作者指出 VibeVoice 是 9B 模型、約大 15 倍，且在他的測試中更慢、整體 WER 也較高。相較原始 Parakeet TDT 0.6B v2，Omi 的 M-WER 從 8.36% 降至 2.37%，WER 約減半，誤冒出的藥名提及也從 131 次降到 9 次。與一般雲端 API 相比，Omi 仍落後 ElevenLabs Scribe v2、Gemini 3.1 Pro Preview、Soniox STT Async v4 等最強結果，但接近 Gemini 3.5 Flash，並宣稱本機速度遠高於多數雲端往返測試。不過這些數據來自作者自述評測，讀者仍應留意資料集代表性、醫療場景差異與外部重現性。