Replicate 發表指南,展示如何在其平台上運行開源的 BGE (BAAI General Embedding) 模型。相較於當時 OpenAI 的 Embedding API,BGE 模型在 MTEB 排行榜上表現優異,且在 Replicate 上運行能提供更低的延遲與更便宜的價格,非常適合需要大量處理文字向量化與建置 RAG 系統的開發者。
Hugging Face 宣布其 Inference Endpoints 正式支援高效部署嵌入模型(Embedding Models)。此服務整合了 Text Embeddings Inference (TEI) 技術,提供極低的延遲、動態批處理與高吞吐量。開發者只需幾鍵即可在專屬雲端基礎設施(如 AWS 或 Azure)上部署開源嵌入模型,極大簡化了 RAG(檢索增強生成)與向量搜尋系統的建置流程。