Replicate 平台正式支援 MiniMax 的 Speech-02 語音生成模型 API。該模型提供高品質的文字轉語音(TTS)服務,並具備聲音複製(Voice Cloning)、豐富的情感表達以及多語言支持等強大功能。開發者現在可以透過簡單的 API 呼叫,輕鬆將這款先進的語音合成技術整合至自己的應用程式中。
Replicate 發布了一篇趣味實用的技術教學,展示如何利用網路攝影機(Webcam)捕捉畫面,並透過 LLaVA 或 GPT-4V 等多模態視覺模型分析影像,最後結合 ElevenLabs 的語音合成技術,以經典自然紀錄片主持人大衛·艾登堡(David Attenborough)的口吻與聲音,為你的日常生活進行即時的幽默旁白。
Hugging Face 分享了建立「AI WebTV」的實戰指南。該專案整合了多種開源 AI 技術:利用 LLM 自動生成劇本、透過 Stable Diffusion 產生視覺畫面,並結合 TTS 語音合成技術。最後,利用 FFmpeg 將這些素材即時融合成影片串流,部署於 Hugging Face Spaces 並可同步直播至 Twitch 等平台,展示了多模態 AI 工作流的強大整合能力。