Hugging Face 發表與 AMD 合作的最新進展,介紹代號「Turin」的第 5 代 AMD EPYC 處理器。憑藉 Zen 5 架構與對 FP16/BF16 的硬體優化,新一代處理器在 LLM 推論與微調上展現極佳效能。開發者可透過 Hugging Face 的 Optimum 庫與 TGI 輕鬆部署,為非 GPU 環境提供強大的 AI 算力選擇。
本文介紹 Hugging Face 與 Intel 合作的最新部署方案。透過 optimum-intel 工具,開發者可以輕鬆將 Transformers 模型轉換並量化(如 INT4)為 OpenVINO 格式。接著,利用全新且輕量化的 openvino-genai API,即可在 Intel CPU、GPU 及 NPU 上實現極速的生成式 AI 推理,大幅簡化了從模型訓練到邊緣端部署的流程。
Hugging Face 宣布其託管服務 Inference Endpoints 正式支援 AWS Inferentia2 (Inf2) 執行個體。這項整合讓開發者無需繁瑣的編譯設定,即可將 Llama、Mistral 等大型語言模型部署至 AWS 的專屬推論晶片上。相較於傳統 GPU,Inferentia2 能大幅降低推論成本並提升吞吐量,為企業提供更具成本效益的生產環境部署選擇。
在開發 LLM 對話應用時,不同模型(如 LLaMA、Vicuna)要求不同的特殊標記與格式。過去手動拼接字串極易出錯,微小的空格或換行差異都會嚴重影響模型輸出品質。Hugging Face 推出「Chat Templates」功能,將格式化邏輯以 Jinja 模板儲存於 tokenizer 設定中,開發者只需調用 `apply_chat_template()` 即可自動套用正確格式,徹底解決此痛點。
Hugging Face 針對 Llama 2 (7B、13B、70B) 在 Amazon SageMaker 上的部署進行了全面的效能基準測試。測試涵蓋了多種 AWS g5 與 p4 實例,評估指標包括首字延遲 (TTFT)、吞吐量 (tokens/sec) 與成本。這份指南能幫助開發者在部署開源大模型時,在效能與雲端預算之間取得最佳平衡。
本文介紹如何將 EleutherAI 的 GPT-J 6B 模型部署至 Amazon SageMaker。透過 Hugging Face 專為 SageMaker 設計的深度學習容器(DLC),開發者無需繁瑣設定即可完成託管。內容涵蓋環境準備、模型載入、端點建立及推論測試,適合需要在 AWS 雲端部署開源大模型的開發者。