PyTorch 的 torch.compile 能顯著提升模型推論速度,但首次編譯的「冷啟動」時間往往令人頭痛。Replicate 介紹了如何透過快取(Caching)編譯後的模型成品,避免每次容器啟動時重複編譯。這項技術能有效縮短伺服器無預載(Serverless)部署時的啟動延遲,讓開發者在享受高效能推論的同時,也能擁有極速的部署與反應時間。
AI 託管平台 Replicate 宣布重大計費調整:所有公開模型(如 Llama、Stable Diffusion 等)的 API 呼叫價格直接減半(降價 50%)。與此同時,為了平衡伺服器資源成本,未來將開始對新用戶的私有模型(Private Models)在設定(冷啟動)與閒置(Idle)時間進行計費。這項調整旨在降低開源模型使用門檻,同時優化專屬資源的利用率。