Google 正式推出全新開源模型家族 Gemma,包含 2B 與 7B 兩種參數大小,並提供預訓練與指令微調版本。 Gemma 採用與 Gemini 相同的技術與架構,在多項基準測試中表現優於同尺寸的 Llama 2 與 Mistral。 Hugging Face 已同步支援 Gemma,開發者可直接透過 Transformers、TGI、PEFT 等工具進行部署與微調。
Hugging Face 發布技術指南,詳細說明如何利用 W2V2-BERT 進行低資源語言的自動語音辨識(ASR)微調。W2V2-BERT 結合了 Wav2Vec 2.0 與 BERT 的優勢,特別適合訓練樣本稀缺的語言。本教學涵蓋了從數據準備、特徵提取、CTC 模型配置到使用 Trainer API 進行訓練與評估的完整實作流程。
本指南介紹了如何利用 Hugging Face 的 TRL 函式庫進行 LLM 的偏好微調。傳統的 RLHF 需要訓練獎勵模型並使用複雜的 PPO 演算法,而 DPO(直接偏好最佳化)及其變體(IPO、KTO)能直接在偏好數據上進行訓練,大幅簡化了對齊流程。文章詳細說明了這些方法的原理、數據格式要求以及實際程式碼實作。
Hugging Face 宣布旗下 TRL(Transformer Reinforcement Learning)微調工具包正式整合 Unsloth。開發者現在只需修改幾行程式碼,即可在進行監督式微調(SFT)時獲得 2 倍以上的訓練速度提升,並減少高達 60% 的 VRAM 記憶體消耗。此整合支援 Llama-2、Mistral 等主流開源模型,且完全不損害模型精度。
Hugging Face 釋出技術指南,比較 RoBERTa、Llama 2 與 Mistral 7B 在「災難推特分類」任務上的表現。 透過 LoRA(低秩適應)技術,詳細分析了傳統編碼器模型與現代生成式大模型在分類精準度、訓練時間與硬體資源(VRAM)上的折衷。 結果顯示,雖然 7B 模型具備強大理解力,但較小的 RoBERTa 在特定分類任務上依然展現出極高的成本效益與競爭力。
本文源自 Hugging Face 團隊對 RLHF(基於人類反饋的強化學習)中 PPO 演算法的深入研究。文章指出,PPO 在大語言模型對齊上的成功,高度依賴於許多「隱藏的實作細節」,如 KL 懲罰、優勢歸一化、價值函數裁剪等。透過系統性地剖析這些細節,Hugging Face 旨在幫助開發者克服 RLHF 訓練極度不穩定的痛點,並將這些優化完全整合至其開源庫 TRL 中,為開源社群提供可重現的對齊指南。
AI 雲端運行平台 Replicate 宣布支援 Meta MusicGen 音樂生成模型的微調(Fine-tuning)功能。使用者現在可以使用自己的音訊檔案,在 Replicate 上訓練 MusicGen 的 small、medium 和 melody 版本,藉此生成特定風格或旋律的音樂,為音樂創作者與開發者提供高度客製化的音訊生成方案。
Hugging Face 宣布在其 TRL(Transformer Reinforcement Learning)庫中支援 DDPO(去噪擴散策略優化)演算法。這項更新允許開發者與研究人員使用強化學習(RL)來微調 Stable Diffusion 等擴散模型。透過自訂的獎勵函數(如美學評分或提示詞對齊度),DDPO 能有效引導模型生成更符合特定目標的圖像,解決了傳統監督式微調難以優化複雜指標的痛點。
微調 Llama 2 70B 等超大型模型時,開發者常因多進程重複載入模型而面臨 CPU 記憶體崩潰(OOM)的困境。本文介紹如何結合 PyTorch FSDP(完全分片數據並行)與 Hugging Face Accelerate 的延遲初始化與分片載入技術,在有限的硬體資源下實現記憶體高效的微調流程,大幅降低大模型訓練的門檻。
Hugging Face 推出針對企業設計的 SafeCoder 程式碼助手,旨在解決使用 GitHub Copilot 等閉源工具時的隱私與智慧財產權疑慮。SafeCoder 基於開源的 StarCoder 模型,支援在企業內部的 VPC 或地端環境部署,並允許企業使用私有程式碼進行微調。這項方案不僅確保程式碼不外流,還能提供高度客製化的開發輔助體驗。
Replicate 宣布對微調模型的「冷啟動(Cold Boot)」進行重大改進。過去部署微調模型需要數分鐘來啟動新容器,現在透過共享基礎模型並動態載入輕量化的 LoRA 權重,冷啟動時間已縮短至一秒以內。這大幅降低了開發者在使用客製化模型時的延遲與成本。
Hugging Face 宣布推出 SafeCoder,這是一套專為企業打造的程式碼寫作助手解決方案。SafeCoder 主打高度隱私與合規性,允許企業在自有的 VPC 或本地環境中部署,並能使用私有程式碼庫進行微調。該方案基於開源的 StarCoder 模型,旨在為企業提供一個可完全掌控、安全且不洩漏敏感資料的 GitHub Copilot 替代方案。
Hugging Face 釋出實用教學,介紹如何利用 TRL(Transformer Reinforcement Learning)庫中的 DPOTrainer,以「直接偏好優化(DPO)」技術微調 Llama 2。DPO 是一種替代傳統 RLHF 的新穎方法,它不需要訓練獨立的獎勵模型,也不需要複雜的 PPO 強化學習階段,僅需透過人類偏好數據(滿意與不滿意的回答對)即可直接優化模型,大幅降低了對齊(Alignment)的門檻與運算資源。
Replicate 宣布支援 Llama 2(包含 7B、13B 與 70B)的微調服務。開發者只需準備 JSONL 格式的訓練資料,即可透過 Replicate API 在 A100 GPU 上進行高效訓練。微調完成後,模型會自動部署為私有的 API 端點,方便直接整合至應用程式中,大幅降低了開源大模型微調與部署的門檻。
Meta 正式發布開源大型語言模型 Llama 2,包含 7B、13B 和 70B 三種參數規模,並允許商用。Hugging Face 與 Meta 深度合作,第一時間在 Hub 上架所有 Llama 2 模型,並全面支援 Transformers、TGI、PEFT 等工具。開發者可以直接在 Hugging Face 平台上進行 Llama 2 的推論、微調(Fine-tuning)與部署,並透過 Spaces 體驗 Chat 版本。
本文系統性介紹 Hugging Face 的開源 LLM 生態系。核心組件包括用於模型載入與推理的 Transformers、實現高效微調的 PEFT、專為高並發部署設計的 Text Generation Inference (TGI),以及支援對齊演算法(如 SFT、DPO)的 TRL。透過這些工具的協同效應,開發者可以低成本、高效地完成從模型選型、微調到生產線部署的全流程。
Hugging Face 介紹了如何在 Intel CPU 上微調 Stable Diffusion。透過 Intel Extension for PyTorch (IPEX) 與 Optimum Intel 庫,開發者可利用第四代 Xeon 處理器的 AMX 技術進行 BF16 混合精度訓練。這為缺乏 GPU 資源或想利用現有 CPU 伺服器的團隊,提供了一個高性價比的微調方案。
本技術文章介紹如何將視覺語言模型 BridgeTower 部署於 Intel 的 Habana Gaudi2 晶片上。透過 Hugging Face 的 optimum-habana 整合套件,開發者只需修改極少代碼,即可在 Gaudi2 上實現高效能的跨模態模型訓練與推理。相較於傳統 GPU,Gaudi2 在處理此類複雜的多模態任務時展現出極佳的性價比與加速表現。
Meta 的 MMS(大規模多語言語音)模型支援超千種語言。Hugging Face 官方部落格詳細教學如何透過「轉接器(Adapter)」技術,在凍結基礎模型的前提下僅微調極少參數。這項技術非常適合預算有限、缺乏運算資源或資料量極少的「低資源語言」語音辨識(ASR)任務,能大幅降低訓練成本並避免過擬合。
阿布達比技術創新研究所(TII)推出的 Falcon-40B 與 Falcon-7B 模型正式整合至 Hugging Face 生態系統。這款模型在 Open LLM 排行榜上名列前茅,並採用了優化推理效率的 Multi-Query Attention 架構。本篇部落格介紹了如何使用 Transformers 庫進行推理、量化以及微調 Falcon 模型。
Hugging Face 宣布與 bitsandbytes 合作,將 4-bit 量化技術直接整合至 Transformers 庫中,並支援全新的 QLoRA 微調方法。這項技術透過 NF4 格式、雙重量化與分頁優化器,大幅降低顯存需求,使 65B 參數模型能在單張 48GB GPU 上進行微調,且幾乎不損失精度。這為資源有限的開發者與研究人員開啟了本地部署與客製化大模型的大門。
Hugging Face 介紹了如何利用 InstructPix2Pix 對 Stable Diffusion 進行指令微調(Instruction-tuning)。該方法結合了 GPT-3 生成的編輯指令與 Stable Diffusion 生成的成對圖像,訓練出能理解「將蘋果換成橘子」等指令的圖像編輯模型。文章提供了完整的訓練流程、Diffusers 程式碼範例以及優化技巧,幫助開發者輕鬆上手圖像編輯任務。
Hugging Face 發表 StarChat Alpha,這是一個基於 15B 參數 StarCoder 基礎模型進行指令微調的對話式程式助手。透過特定的對話模板與微調資料集,StarCoder 從單純的程式碼補全工具升級為能進行多輪對話的 AI 助手。本篇介紹了其訓練細節、對話格式以及如何在 Hugging Face Spaces 上進行體驗。
本指南詳細說明如何利用 TensorFlow 和 Google TPU 來加速 Hugging Face Transformers 模型的訓練。內容涵蓋 TPU 的初始化設定、使用 tf.distribute.TPUStrategy 配置分散式訓練環境、利用 tf.data 建立高效的數據輸入管道,並在 TPU 範疇內載入與訓練模型,非常適合需要處理大規模 NLP 任務的開發者。
Databricks 與 Hugging Face 宣布深度合作,針對大型語言模型(LLM)的訓練與微調進行優化。透過將 Hugging Face Transformers 與 Databricks 平台(如 MLflow、TorchDistributor)整合,企業能在安全的湖倉一體架構中更高效地訓練開源模型。測試顯示,此優化方案可將訓練速度提升高達 40%,大幅降低運算成本。
Snorkel AI 與 Hugging Face 宣布合作,旨在解決企業應用基礎模型(Foundation Models)時面臨的領域數據不足挑戰。透過將 Snorkel Flow 的程式化標註技術與 Hugging Face 的開源模型庫結合,企業能快速標註私有數據並進行模型微調。此方案不僅能加速企業級 AI 應用的開發,還能透過模型蒸餾技術降低推理成本,實現高效且安全的落地部署。
本指南是 Hugging Face 介紹如何使用 TRL(Transformer Reinforcement Learning)與 PEFT(LoRA)技術,對 LLaMA 模型進行人類回饋強化學習(RLHF)的經典實戰教學。文章以 Stack Exchange 數據集為例,詳細拆解了監督式微調(SFT)、獎勵模型(RM)訓練,以及近端策略最佳化(PPO)三大核心步驟,展示了如何在有限的硬體資源下完成大語言模型的對齊(Alignment)訓練。
Hugging Face 釋出官方指南,詳細介紹如何利用 diffusers 庫訓練 ControlNet 模型。ControlNet 能在不破壞原始 Stable Diffusion 模型的前提下,加入額外的控制條件(如邊緣、姿勢或深度)。本教學涵蓋了數據集準備、使用官方訓練腳本進行微調,以及如何將訓練好的模型部署與推論。
本文介紹了 2023 年開源 AI 圈的重要里程碑技術——Alpaca-LoRA。透過低秩適應(LoRA)技術,開發者可以在消費級硬體或 Replicate 雲端平台上,以極低的算力與時間成本微調 LLaMA-7B 模型。藉由 Stanford Alpaca 的 52,000 筆指令數據,即可讓開源模型獲得類似 ChatGPT 的對話與指令遵循能力,大幅降低了客製化大語言模型的門檻。
Stanford Alpaca 是基於 Meta LLaMA-7B 微調而成的指令遵循模型,具備類似 ChatGPT 的對話能力。 Replicate 發表指南,詳細說明如何使用開源工具 Cog 將 Alpaca 打包,並在本地機器或 Replicate 雲端平台上運行。 此教學還涵蓋了如何利用自訂資料集對 LLaMA 進行微調,大幅降低了開發者構建專屬開源 LLM 的門檻。