Snowflake has signed a massive five-year agreement with Amazon worth $6 billion to secure chips for AI usage. The deal is framed as another win for AWS as major data and cloud platforms lock in long-term compute capacity. TechCrunch also notes that Nvidia is being put on notice as alternative AI chip supply paths gain attention.
Digital Infinite will exhibit AI-Stack and ixCSP at COMPUTEX 2026. AI-Stack focuses on managing heterogeneous AI compute resources, while ixCSP turns compute capacity into operable and billable cloud services. The article frames the company’s direction as moving from AI infrastructure toward cloud-based compute commercialization, though it does not provide benchmark data, pricing, customer deployments, or model-specific details.
Vercel 宣布其 Sandbox 運算環境進行重大升級,最高可配置 32 vCPU 與 64 GB RAM。這項更新打破了以往 Serverless 環境的資源限制,讓開發者能在 Vercel 上直接執行高負載任務。這對於需要高運算能力的 AI 代理(Agents)、大型數據處理或複雜渲染的應用來說是一大福音。
Hugging Face 宣布與歐洲最大雲端服務商 OVHcloud 合作,將其納入「推理供應商(Inference Providers)」生態系。開發者現在可以直接在 Hugging Face Hub 上,選擇由 OVHcloud 託管的基礎設施來運行開源 AI 模型。此合作為重視 GDPR 合規與數據主權的企業,提供了安全、高效且具成本效益的無伺服器(Serverless)推理新選擇。
Hugging Face 與 Google Cloud 達成全新戰略合作,旨在為開發者提供更便利的開源 AI 開發環境。 開發者現在可以直接在 Google Cloud 的 Vertex AI 和 GKE 上一鍵部署 Hugging Face 的數十萬個開源模型。 此合作還整合了 Google Cloud Marketplace,並支援 TPU 與 GPU 加速,大幅降低企業與個人開發者訓練與部署 AI 的門檻。
Vercel 撰文闡述其「反供應商鎖定」的雲端定位。文章指出,Vercel 透過支持開源 Web 標準、多框架相容性(如 Next.js、Astro、Remix),以及優化自我託管(Self-hosting)路徑,確保開發者不會被平台綁架。Vercel 強調,其客戶的留存應建立在優異的開發體驗與價值上,而非技術限制。
Vercel 宣布推出 Fluid Compute 的部署級別設定功能(Deployment-level configuration)。開發者現在可以針對個別部署(如 Preview 或 Production)進行獨立的運算資源與效能配置,而不再受限於專案整體的全域設定。這項更新大幅提升了資源分配的彈性,有助於優化成本並進行更精細的效能測試。
Hugging Face 宣佈與 Public AI 合作,正式將其整合至「推理提供商(Inference Providers)」生態系中。開發者現在可以直接在 Hugging Face Hub 上,選擇由 Public AI 提供的無伺服器(Serverless)API 來運行 Llama、Mistral 等熱門開源模型。此舉不僅簡化了 AI 應用的部署流程,也為開發者在尋求高效能、低延遲且具成本效益的推理基礎設施時,提供了全新的選擇。
Hugging Face 宣布與 Together AI 深度整合,推出全新微調解決方案。開發者現在可以直接從 Hugging Face Hub 選擇任何開源大語言模型,並利用 Together AI 的高效能 GPU 叢集與微調 API 進行訓練。此合作大幅簡化了微調的工作流程,免去繁瑣的硬體設定,並提供極具成本效益的無伺服器微調體驗。
Vercel 宣布針對 Enterprise 企業客戶推出「異常警報 (Anomaly Alerts)」限量測試功能。該功能旨在幫助企業用戶即時偵測並防範非預期的流量激增、伺服器錯誤或帳單異常,避免因突發狀況導致服務中斷或高額費用。目前此功能僅開放給特定企業客戶搶先體驗。
Vercel 推出全新基礎設施技術「Fluid」,旨在解決傳統 Serverless 架構的冷啟動與執行時間限制。Fluid 透過創新的微型虛擬化與動態資源調配技術,讓開發者能以 Serverless 的方式部署應用,卻能享有如傳統常駐伺服器(Server)般的持續連線、極低延遲與狀態保持能力,重新定義了現代雲端網頁應用的部署標準。
Vercel 宣布針對其 Fluid Compute 運算服務推出全新的「活動 CPU (Active CPU)」計費機制。過去伺服器端運算通常依據整體的執行時間計費,而新機制讓用戶只需為 CPU 實際執行任務的時間付費。這項改變能有效避免因等待外部 API 或處於閒置狀態而產生的不必要開銷,為運行動態網站與 API 的開發者省下顯著的雲端成本。
Vercel 宣布為其 Fluid Compute 服務引進「活躍 CPU(Active CPU)」計費模式。此模式改變了傳統 Serverless 按整體執行時間計費的缺點,讓開發者只需為 CPU 實際進行運算的毫秒數付費。這對於需要長時間等待外部 API(如 LLM 串流回應)或進行 I/O 密集型操作的現代 AI 應用來說,能顯著降低託管成本。
Hugging Face 宣布與 NVIDIA 合作推出「訓練集群即服務」(Training Cluster as a Service)。這項新服務旨在簡化大規模 AI 模型的訓練流程,讓企業與開發者無需處理繁雜的基礎設施設定,即可直接在 Hugging Face 平台上租用由 NVIDIA 技術支援的高效能 GPU 運算集群,快速進行模型微調與訓練。
Microsoft 與 Hugging Face 宣布深化合作,將 Hugging Face 的開源模型庫與 Azure AI Foundry(前身為 Azure AI Studio)進行深度整合。開發者現在可以直接在 Azure 安全且具備合規性的企業級環境中,輕鬆搜尋、部署與微調數十萬個 Hugging Face 的開源模型,大幅簡化企業導入開源 AI 的工作流程。
AI 雲端託管平台 Replicate 宣布正式支援 NVIDIA H100 GPU。這項硬體升級將為平台用戶帶來顯著的效能提升,並透過縮短運算時間來降低實際使用成本。對於需要在雲端高效運行或微調開源模型的開發者與研究人員而言,這是一個高性價比的新選擇。
Vercel 發表「Fluid Compute」技術細節,這是一種新型的無伺服器(Serverless)運算架構。它解決了傳統 Serverless 的冷啟動、固定記憶體配置與執行時間限制等痛點。透過動態且彈性的資源調配,Fluid Compute 能在毫秒內根據請求負載自動調整 CPU 與記憶體,特別適合需要長連接、串流輸出及高運算需求的 AI Agent 和 LLM 應用。
Hugging Face 宣布新增三家無伺服器(Serverless)推論合作夥伴:Hyperbolic、Nebius AI Studio 與 Novita AI。開發者現在能直接在 Hugging Face 生態系中,以更具彈性、低延遲且具成本效益的方式呼叫各類主流開源模型。這項更新不僅擴展了 Hugging Face 的推論 API 選擇,也為去中心化運算與高效能 GPU 雲端服務帶來更多應用場景。
AI 部署平台 Replicate 正式推出 NVIDIA L40S GPU 算力選項。與傳統的 A100 或 A10G 相比,L40S 在圖像生成(如 Stable Diffusion)和中小型語言模型推理上,提供了更優異的性能與更低的運算成本,是開發者優化 AI 部署成本的新選擇。
Vercel 發表了其下一代建置基礎架構「Hive」的技術細節。Hive 解決了每日數百萬次建置面臨的隔離性、速度與資源利用率挑戰。透過採用基於 Firecracker 的微型虛擬機器(microVMs)技術,Hive 實現了毫秒級的啟動速度與強大的安全隔離,並結合智慧調度演算法,顯著優化了快取命中率與建置效率,為現代 Web 與 AI 應用提供更穩健的部署支援。
Hugging Face 推出全新微服務 HUGS(Hugging Face Microservices),旨在簡化開源 AI 模型的部署流程。HUGS 提供經過高度優化且開箱即用的 Docker 容器,支援 Llama、Mistral 等熱門模型,並針對 NVIDIA、AMD 及 AWS 等硬體進行效能優化。開發者可以透過與 OpenAI 相容的 API 快速整合,在私有雲或主流雲端平台上輕鬆擴展 AI 應用。
Hugging Face 與 Google Cloud 合作,正式將 TPU(如 TPU v5e)引入其平台。用戶現在可以在 Hugging Face Spaces 和 Inference Endpoints 中直接選擇 TPU 作為硬體加速器。這項整合為部署大型語言模型和擴散模型提供了極具性價比的 GPU 替代方案,大幅降低了雲端推理的成本與門檻。
AI 雲端託管平台 Replicate 宣佈即將引進強大的 NVIDIA H100 Tensor Core GPU。此硬體升級將全面支援平台上的模型推理(Predictions)與微調訓練(Training),為開發者帶來更低的延遲與更快的運算速度。目前官方已正式開放早期存取(Early Access)的申請管道,有高算力需求、想搶先體驗 H100 效能的開發者與企業,現在即可聯繫官方團隊加入測試名單。
Hugging Face 宣布其託管服務 Inference Endpoints 正式支援 AWS Inferentia2 (Inf2) 執行個體。這項整合讓開發者無需繁瑣的編譯設定,即可將 Llama、Mistral 等大型語言模型部署至 AWS 的專屬推論晶片上。相較於傳統 GPU,Inferentia2 能大幅降低推論成本並提升吞吐量,為企業提供更具成本效益的生產環境部署選擇。
Hugging Face 宣布與微軟深化合作,將其開源模型庫與 Azure AI Studio 進行深度整合。開發者現在可以直接在 Azure 上以無伺服器 API(Model-as-a-Service)形式部署熱門開源模型。此外,雙方也加強了對 Windows AI 本地端運算(如 ONNX Runtime)的支援,全面打通從雲端到邊緣端的開發流程。
Hugging Face 宣布其企業級平台 Enterprise Hub 已正式上架 AWS Marketplace。企業客戶現在可以直接使用現有的 AWS 帳戶進行訂閱,並將費用合併至 AWS 帳單中,簡化企業內部的採購與財務審批流程。此舉讓企業能更安全、合規地在 AWS 雲端環境中協作、部署與管理開源 AI 模型與數據集。
Hugging Face 宣布與 NVIDIA 深度整合,將 DGX Cloud 的強大算力直接引入平台。開發者現在可以輕鬆調用 NVIDIA H100 GPU 來訓練與微調大型語言模型,無需自行管理複雜的底層基礎設施。這項合作大幅降低了獲取頂級 AI 算力的門檻,加速了企業與研究人員的模型開發流程。
Hugging Face 宣佈旗下高效能大語言模型推理框架 Text Generation Inference (TGI) 正式支援 AWS Inferentia2 (Inf2) 執行個體。透過與 AWS Neuron SDK 的整合,開發者現在能以極具性價比的方式在 AWS 上部署 Llama 2、Mistral 等主流開源模型。此舉不僅簡化了專用硬體上的部署流程,更可望降低高達 50% 的推理成本。
Meta 推出的 Code Llama 70B 是目前最強大的開源程式碼生成模型之一。Replicate 現在支援透過 API 託管該模型,讓開發者無需自行管理 GPU 基礎設施。只需一行程式碼,即可在雲端快速呼叫並整合至現有的開發工作流中。
Hugging Face 針對 Llama 2 (7B、13B、70B) 在 Amazon SageMaker 上的部署進行了全面的效能基準測試。測試涵蓋了多種 AWS g5 與 p4 實例,評估指標包括首字延遲 (TTFT)、吞吐量 (tokens/sec) 與成本。這份指南能幫助開發者在部署開源大模型時,在效能與雲端預算之間取得最佳平衡。