Hugging Face 發表最新技術,展示如何讓 AI Agent(如基於 smolagents 框架)具備編寫自訂 CUDA/Triton Kernel 的「技能」。透過將編譯器、正確性驗證與基準測試(Benchmarking)工具整合為 Agent 的 Tool,Agent 能自主撰寫低階 GPU 程式碼、讀取錯誤訊息進行 Debug,並持續優化效能。這項突破大幅降低了 GPU 算子開發的門檻。
Hugging Face 推出全新支援,簡化 AMD ROCm 運算核心(Kernels)的構建與分享。開發者現在可以更輕鬆地在平台上打包與分發適用於 AMD GPU 的自訂運算核心(如 Triton 核心),解決了以往 AMD 生態系中編譯與部署優化核心的痛點,進一步提升 AMD 硬體在 AI 推理與訓練上的效能與易用性。
Hugging Face 推出實用指南,協助開發者克服自訂 GPU 算子的開發門檻。文章深入探討如何從零開始撰寫 CUDA Kernel,並介紹如何利用 OpenAI Triton 簡化開發流程。最後,指南展示了如何將這些自訂算子無縫整合至 PyTorch 中,並透過 Profiling 工具進行效能調優,以達到生產環境的擴展需求。
Hugging Face 發布技術指南,介紹如何為 AMD Instinct MI300 系列 GPU 撰寫自訂 Kernel。文章重點介紹利用 OpenAI Triton 框架在 ROCm 生態系中進行開發,讓開發者能用 Python 撰寫高效的 GPU 算子,繞過複雜的 HIP C++。這項技術能顯著提升 LLM 在 AMD 硬體上的推理與訓練效率。
Hugging Face 全新推出 Kernel Hub(hf-kernels),旨在解決深度學習自訂算子碎片化的問題。開發者現在可以像分享模型一樣,在平台上發布、版本控制與下載優化過的 CUDA 或 Triton 算子。這項工具能透過簡單的 API 實現動態編譯與載入,大幅簡化模型推理與訓練的硬體加速流程,是 AI 系統優化工程師的全新利器。