AMD 執行長蘇姿丰表示,AI 應用正從訓練快速轉向推論階段,帶動 CPU 需求急遽上升。過去半年至一年內少有人提及的 CPU 短缺問題,自去年底起已出現明顯供需轉變。她預期 CPU 市場將迎來年增 35% 的成長,且硬體架構很快將轉變為 CPU 與 GPU 比例趨近「1:1」的新格局。
Hugging Face 宣布與極速微調工具 Unsloth 合作,推出免費的 AI 模型訓練方案。使用者可以透過 Hugging Face Jobs 平台,直接在雲端免費運行 Unsloth 的高效微調任務。這項合作大幅降低了個人開發者與研究人員微調 Llama 3、Gemma 等開源大模型的門檻與成本。
Hugging Face 發表最新「Upskill」專案,展示如何利用 Claude 3.5 等強大商用模型生成複雜的 CUDA 核心(Kernel)程式碼與測試案例。透過這套包含編譯與效能驗證的自動化管線,他們篩選出高品質的合成數據,並成功用來微調開源模型,大幅提升開源社群在極具挑戰性的 GPU 硬體加速編程任務上的表現。
Hugging Face 推出全新支援,簡化 AMD ROCm 運算核心(Kernels)的構建與分享。開發者現在可以更輕鬆地在平台上打包與分發適用於 AMD GPU 的自訂運算核心(如 Triton 核心),解決了以往 AMD 生態系中編譯與部署優化核心的痛點,進一步提升 AMD 硬體在 AI 推理與訓練上的效能與易用性。
本文深入探討全球 AI 算力基礎設施的劇烈變革。隨著地緣政治與市場需求的變化,算力正從少數雲端巨頭壟斷,走向「主權算力」與區域化部署。同時,AMD、Intel 及邊緣裝置晶片的崛起打破了單一硬體壟斷,而開源社群與 Hugging Face 的優化工具(如 Optimum)正成為連接多元硬體與模型的關鍵橋樑,推動 AI 走向去中心化與普及化。
Hugging Face 宣布歐洲知名雲端服務商 Scaleway 正式加入其「推理提供商(Inference Providers)」生態系。開發者現在可以直接在 Hugging Face Hub 上,一鍵選擇 Scaleway 作為後端 API 來部署與運行開源 AI 模型。這項合作為重視數據隱私與歐盟 GDPR 合規性的企業與開發者,提供了更具性價比且符合法規的歐洲本土 GPU 推理新選擇。
Hugging Face 推出實用指南,協助開發者克服自訂 GPU 算子的開發門檻。文章深入探討如何從零開始撰寫 CUDA Kernel,並介紹如何利用 OpenAI Triton 簡化開發流程。最後,指南展示了如何將這些自訂算子無縫整合至 PyTorch 中,並透過 Profiling 工具進行效能調優,以達到生產環境的擴展需求。
Hugging Face 發布技術指南,介紹如何為 AMD Instinct MI300 系列 GPU 撰寫自訂 Kernel。文章重點介紹利用 OpenAI Triton 框架在 ROCm 生態系中進行開發,讓開發者能用 Python 撰寫高效的 GPU 算子,繞過複雜的 HIP C++。這項技術能顯著提升 LLM 在 AMD 硬體上的推理與訓練效率。
Hugging Face 宣布與 Featherless AI 合作,將其納入官方推理供應商(Inference Providers)名單。Featherless 專注於無冷啟動的無伺服器(Serverless)推理技術,能高效運行數千種開源與微調模型。開發者現在可以直接在 Hugging Face Hub 上,透過 Featherless 的高效能架構一鍵部署與調用各種利基型模型,大幅降低延遲與維運成本。
Hugging Face 宣布與 NVIDIA 合作推出「訓練集群即服務」(Training Cluster as a Service)。這項新服務旨在簡化大規模 AI 模型的訓練流程,讓企業與開發者無需處理繁雜的基礎設施設定,即可直接在 Hugging Face 平台上租用由 NVIDIA 技術支援的高效能 GPU 運算集群,快速進行模型微調與訓練。
AI 雲端託管平台 Replicate 宣布正式支援 NVIDIA H100 GPU。這項硬體升級將為平台用戶帶來顯著的效能提升,並透過縮短運算時間來降低實際使用成本。對於需要在雲端高效運行或微調開源模型的開發者與研究人員而言,這是一個高性價比的新選擇。
本期 AINews 指出這幾天 AI 領域相對平靜,並無重大新聞發布。編輯特別推薦讀者收聽 Latent.Space 最新釋出的節目,內容聚焦於 SF Compute 以及 GPU 新興雲端服務(Neocloud)的發展與討論。這對於關注 AI 算力基礎設施、GPU 租賃市場與雲端運算趨勢的開發者與創業者來說,是相當值得參考的產業情報。
Hugging Face 宣布新增三家無伺服器(Serverless)推論合作夥伴:Hyperbolic、Nebius AI Studio 與 Novita AI。開發者現在能直接在 Hugging Face 生態系中,以更具彈性、低延遲且具成本效益的方式呼叫各類主流開源模型。這項更新不僅擴展了 Hugging Face 的推論 API 選擇,也為去中心化運算與高效能 GPU 雲端服務帶來更多應用場景。
AI 部署平台 Replicate 正式推出 NVIDIA L40S GPU 算力選項。與傳統的 A100 或 A10G 相比,L40S 在圖像生成(如 Stable Diffusion)和中小型語言模型推理上,提供了更優異的性能與更低的運算成本,是開發者優化 AI 部署成本的新選擇。
Hugging Face 宣布與 NVIDIA 深度整合,在 Hugging Face Hub 上推出全新「無伺服器推論 (Serverless Inference)」服務。該服務由 NVIDIA NIM 微服務與 DGX Cloud 驅動,開發者無需管理複雜的 GPU 基礎設施,即可一鍵部署 Llama 3、Mistral 等熱門開源模型,並享有 TensorRT 優化帶來的極致效能與低延遲。
Replicate 發表最新技術週報,重點包括:1. 介紹如何透過稀疏自編碼器(SAE)在 GPT 模型中定位與提取特定概念;2. 展示利用瀏覽器進行低延遲、隱私安全的即時語音轉文字技術;3. 宣布 Replicate 平台即將迎來 NVIDIA H100 GPU,大幅提升開源模型推理與微調的速度。
AI 雲端託管平台 Replicate 宣佈即將引進強大的 NVIDIA H100 Tensor Core GPU。此硬體升級將全面支援平台上的模型推理(Predictions)與微調訓練(Training),為開發者帶來更低的延遲與更快的運算速度。目前官方已正式開放早期存取(Early Access)的申請管道,有高算力需求、想搶先體驗 H100 效能的開發者與企業,現在即可聯繫官方團隊加入測試名單。
Hugging Face 宣布與 NVIDIA 深度整合,將 DGX Cloud 的強大算力直接引入平台。開發者現在可以輕鬆調用 NVIDIA H100 GPU 來訓練與微調大型語言模型,無需自行管理複雜的底層基礎設施。這項合作大幅降低了獲取頂級 AI 算力的門檻,加速了企業與研究人員的模型開發流程。
Hugging Face 與 NVIDIA 合作推出 Optimum-NVIDIA 庫,旨在簡化 TensorRT-LLM 的使用門檻。開發者只需將原本的 Transformers 模型載入程式碼替換為 Optimum-NVIDIA 的對應類別,即可在 NVIDIA GPU 上獲得極致的推理加速與顯存優化,並支援 FP8 等低精度量化。
Hugging Face 宣布與 AMD 深度合作,推出 optimum-amd 套件,旨在簡化 AMD GPU(如 Instinct 與 Radeon 系列)上的模型部署與加速。該套件整合了 AMD ROCm 軟體平台,開發者只需修改幾行程式碼,即可在 AMD 硬體上無縫運行並加速主流的大語言模型(LLM)。此舉打破了過去 NVIDIA CUDA 在 AI 訓練與推理上的壟斷,為企業與開發者提供更具性價比的硬體選擇。
Hugging Face 正式將 AutoGPTQ 整合進 transformers 生態系,支援直接載入與運行 4-bit GPTQ 量化模型。此更新大幅降低了 LLM 的 GPU 記憶體門檻(如 70B 模型可在單張消費級 GPU 運行),並提供極佳的推理加速。開發者只需簡單修改程式碼即可啟用,並能無縫使用 Hub 上數千個現成的 GPTQ 模型。
Hugging Face 宣佈與 AMD 展開深度合作,旨在為 AMD 的 CPU 和 GPU 平台(包括 Ryzen、EPYC、Radeon 及 Instinct 系列)提供頂級的 AI 模型加速。雙方將共同優化 Hugging Face 的 Optimum 庫,讓開發者能無縫地在 AMD 硬體上部署與訓練 Transformer 模型。此舉為 AI 社群提供了 NVIDIA 之外的高性價比硬體選擇,促進開源 AI 生態的多樣性。
Hugging Face 宣布調整其平台定價機制。本次更新推出了每月 9 美元的 PRO 方案,為個人創作者與研究人員提供 GPU 額度與進階功能。同時,針對 Spaces 硬體升級、Inference Endpoints 與 AutoTrain 等付費服務,全面改為更靈活的按需計費(Pay-as-you-go)模式,而免費社群版功能則維持不變。