Hugging Face 針對美國國家電信和資訊管理局(NTIA)的 AI 問責制徵求意見書提交了官方回應。HF 主張,開放科學與開源生態系對於 AI 的安全與問責至關重要,能促進外部審計與研究。他們建議推廣 Model Cards 等標準化文件,並呼籲建立因地制宜、分擔責任的監管框架,避免對開源創新造成過度限制。
本文介紹如何利用 Core ML 技術在 Apple Silicon 晶片上加速 Stable Diffusion。透過模型量化(如 6-bit/8-bit)與 Apple 神經網路引擎(ANE)的優化,開發者能顯著降低記憶體佔用,在 iPhone、iPad 和 Mac 上實現本地端超快速的圖像生成,有效解決行動裝置記憶體不足(OOM)的痛點。
Hugging Face 宣佈與 AMD 展開深度合作,旨在為 AMD 的 CPU 和 GPU 平台(包括 Ryzen、EPYC、Radeon 及 Instinct 系列)提供頂級的 AI 模型加速。雙方將共同優化 Hugging Face 的 Optimum 庫,讓開發者能無縫地在 AMD 硬體上部署與訓練 Transformer 模型。此舉為 AI 社群提供了 NVIDIA 之外的高性價比硬體選擇,促進開源 AI 生態的多樣性。
隨著 RLHF 成為微調大模型的關鍵,高昂的人工標記成本成為瓶頸。研究顯示,基座模型(如 GPT-4)在許多文本分類與偏好標記任務上,已能達到甚至超越普通群眾外包人員的準確度,且成本僅為百分之一。然而,AI 標記仍存在自我偏好、字數偏見等系統性誤差,未來將走向 AI 輔助與人類協同的混合模式。
Hugging Face 發布針對 GLAM(美術館、圖書館、檔案館與博物館)領域的應用指南,介紹如何利用 Hugging Face Hub 託管、分享並協作開發文化遺產相關的數據集、機器學習模型與互動式 Spaces 應用。此指南旨在推動文化機構的數位轉型,促進開放科學與文化遺產的 AI 研究。
阿布達比技術創新研究所(TII)推出的 Falcon-40B 與 Falcon-7B 模型正式整合至 Hugging Face 生態系統。這款模型在 Open LLM 排行榜上名列前茅,並採用了優化推理效率的 Multi-Query Attention 架構。本篇部落格介紹了如何使用 Transformers 庫進行推理、量化以及微調 Falcon 模型。
熱門主題模型工具 BERTopic 宣布與 Hugging Face Hub 達成深度整合。開發者現在可以使用簡單的 API,將訓練好的 BERTopic 模型直接推送到 Hub 上,並能隨時在其他環境中輕鬆載入。此整合不僅簡化了主題模型的分享、部署與版本控制,還會自動生成包含主題資訊的模型卡片(Model Cards),讓 NLP 社群能更方便地進行協作與模型重用。
Hugging Face 宣布推出專為 Amazon SageMaker 設計的全新深度學習容器(DLC),用於部署大型語言模型(LLM)。該容器整合了 Text Generation Inference (TGI) 技術,支援張量並行、動態批處理與 Token 串流。開發者現在能以極低延遲與高吞吐量,在 AWS 託管環境中輕鬆部署 Falcon、Llama 等開源大模型。
Replicate 釋出技術教學,指出除了 Prompt 工程和微調之外,控制 LLM 輸出的另一種強大方法是「約束解碼(Constrained Decoding)」。透過在模型預測下一個 Token 時,利用自定義的 Logits Processor 修改機率分佈(Logits),可以強制模型 100% 遵守特定的押韻格式與音節限制。這種方法能讓任何開源 LLM 寫出結構完美的詩歌,且完全不需要重新訓練。
Hugging Face 宣布與 bitsandbytes 合作,將 4-bit 量化技術直接整合至 Transformers 庫中,並支援全新的 QLoRA 微調方法。這項技術透過 NF4 格式、雙重量化與分頁優化器,大幅降低顯存需求,使 65B 參數模型能在單張 48GB GPU 上進行微調,且幾乎不損失精度。這為資源有限的開發者與研究人員開啟了本地部署與客製化大模型的大門。
Hugging Face 宣布與微軟 Azure 展開深度合作,於 Azure 機器學習平台推出 Hugging Face Model Catalog。這項整合讓開發者能直接在 Azure 安全且合規的基礎設施中,一鍵部署與微調數萬個 Hugging Face 的開源模型。此舉大幅降低了企業採用開源 AI 技術的門檻,並強化了 Azure 的開源生態系。
Hugging Face 宣布其開發的 Safetensors 格式已成功通過專業安全公司 Trail of Bits 的審計,確認其安全性。相較於傳統具有任意程式碼執行風險的 Pickle 格式,Safetensors 不僅安全,還具備極速載入(Zero-copy)的優勢。Hugging Face 已正式將其設為平台上的預設模型儲存格式,推動開源 AI 社群邁向更安全的生態。
Hugging Face 與 IBM 宣布建立合作夥伴關係,將 Hugging Face 的開源 AI 模型與工具整合至 IBM 全新的 watsonx.ai 平台。此合作旨在為企業提供安全、合規且靈活的 AI 開發環境,讓企業開發者能輕鬆運用開源社群的數千個模型,並結合 IBM 的企業級技術進行微調與部署。
Hugging Face 介紹了如何利用 InstructPix2Pix 對 Stable Diffusion 進行指令微調(Instruction-tuning)。該方法結合了 GPT-3 生成的編輯指令與 Stable Diffusion 生成的成對圖像,訓練出能理解「將蘋果換成橘子」等指令的圖像編輯模型。文章提供了完整的訓練流程、Diffusers 程式碼範例以及優化技巧,幫助開發者輕鬆上手圖像編輯任務。
Hugging Face 介紹了與 Intel 合作的 Q8-Chat 專案,展示在 Intel Xeon 處理器上高效運行生成式 AI 的可行性。透過 optimum-intel 庫與 SmoothQuant 技術,將模型進行 8-bit (INT8) 量化,大幅降低記憶體佔用並提升推理速度。此方案結合第四代 Intel Xeon 的 AMX 加速技術,證明無需昂貴的 GPU,利用現有 CPU 架構也能部署低延遲的聊天機器人。
在訓練程式碼大語言模型(如 StarCoder)時,重複資料會嚴重影響模型效能。本文詳細介紹了 BigCode 專案如何利用 MinHash 和局部敏感雜湊(LSH)進行大規模的「近乎重複資料刪除(Near-deduplication)」。透過開源工具 `text-dedup`,BigCode 團隊成功處理了數 TB 的程式碼數據,不僅大幅減少了訓練資料量,還顯著降低了模型對特定程式碼的記憶效應,提升了泛化能力。
Hugging Face 釋出指南,介紹如何使用 AMD ROCm 軟體棧在單一 AMD GPU 上運行開源大型語言模型。透過 PyTorch 與 Hugging Face 函式庫的整合,開發者與研究人員可以擺脫對 NVIDIA CUDA 的單一依賴,在 AMD 硬體上實現高效能的 AI 聊天機器人部署,並搭配 Gradio 建立互動介面。
Hugging Face 官方部落格介紹了 RWKV 架構並宣布將其整合至 transformers 函式庫。RWKV 是一種新型態的深度學習架構,它在訓練時能像 Transformer 一樣進行並行化計算,但在推論時則展現出 RNN 的特性,具備恆定的記憶體與時間複雜度。這項整合讓開發者能以極低的硬體資源部署與運行大規模語言模型。
法國資料保護監管機構 CNIL 宣布將 Hugging Face 納入其「加強支援計劃」。該計劃旨在協助具備系統重要性的數位創新企業符合 GDPR 規範。雙方將密切合作,針對開源 AI 模型訓練、數據集隱私及開源社群的合規性,共同探索並建立具體的最佳實踐指南。
Hugging Face 發表「輔助生成(Assisted Generation)」技術(即投機解碼),旨在解決 LLM 自迴歸生成速度慢的痛點。該技術透過一個體積小、速度快的「輔助模型」預先生成候選 Token,再由「目標大模型」進行單次並行驗證。此方法在不降低輸出品質的前提下,能將生成速度提升高達 2 至 3 倍,為低延遲文本生成開闢了新路徑。
Hugging Face 發表 StarChat Alpha,這是一個基於 15B 參數 StarCoder 基礎模型進行指令微調的對話式程式助手。透過特定的對話模板與微調資料集,StarCoder 從單純的程式碼補全工具升級為能進行多輪對話的 AI 助手。本篇介紹了其訓練細節、對話格式以及如何在 Hugging Face Spaces 上進行體驗。
Hugging Face 與 ServiceNow 發起的 BigCode 專案正式推出 StarCoder,這是一款擁有 155 億參數的開源程式碼大語言模型。該模型在 The Stack 數據集上訓練,支援 80 多種程式語言,並具備 8K 上下文視窗與 Multi-Query Attention 技術。StarCoder 在多項程式碼基準測試中超越了當時的其他開源模型,並採用 OpenRAIL-M 授權,允許商業化使用。
本指南詳細說明如何利用 TensorFlow 和 Google TPU 來加速 Hugging Face Transformers 模型的訓練。內容涵蓋 TPU 的初始化設定、使用 tf.distribute.TPUStrategy 配置分散式訓練環境、利用 tf.data 建立高效的數據輸入管道,並在 TPU 範疇內載入與訓練模型,非常適合需要處理大規模 NLP 任務的開發者。
Databricks 與 Hugging Face 宣布深度合作,針對大型語言模型(LLM)的訓練與微調進行優化。透過將 Hugging Face Transformers 與 Databricks 平台(如 MLflow、TorchDistributor)整合,企業能在安全的湖倉一體架構中更高效地訓練開源模型。測試顯示,此優化方案可將訓練速度提升高達 40%,大幅降低運算成本。
DeepFloyd IF 是一款強大的像素級文字生成圖像模型,因包含龐大的 T5-XXL 文字編碼器,通常需要極高 VRAM 才能運行。Hugging Face 官方發布教學,展示如何透過 `diffusers` 庫的優化技術——包括 8-bit 量化、CPU 卸載(CPU Offloading)以及分階段釋放記憶體,讓開發者能在僅有 15GB VRAM 的免費版 Google Colab(T4 GPU)上,順利跑完該模型的三個級聯階段,生成 1024x1024 的高解析度影像。
Replicate 發布了 2023 年 4 月的開源語言模型(LLM)彙整報告。文章介紹了當時快速崛起的開源模型,包括基於 LLaMA 微調的 Vicuna、首款可商用的 Dolly v2,以及 Stability AI 推出的 StableLM。讀者可以透過 Replicate 的雲端 API 輕鬆部署與測試這些模型,大幅降低了開發者使用開源大模型的門檻與硬體成本。
Hugging Face 介紹了如何利用 Transformer 架構進行圖形分類(Graph Classification)。文章以微軟開發的 Graphormer 模型為例,展示如何處理非歐幾里得空間的圖形數據,並將其應用於預測分子特性等實際場景。讀者將學習如何利用 Hugging Face transformers 庫載入圖形數據集、進行特徵編碼並訓練圖形 Transformer 模型。
Snorkel AI 與 Hugging Face 宣布合作,旨在解決企業應用基礎模型(Foundation Models)時面臨的領域數據不足挑戰。透過將 Snorkel Flow 的程式化標註技術與 Hugging Face 的開源模型庫結合,企業能快速標註私有數據並進行模型微調。此方案不僅能加速企業級 AI 應用的開發,還能透過模型蒸餾技術降低推理成本,實現高效且安全的落地部署。
Hugging Face 在第三期《倫理與社會簡報》中深入探討了「倫理開放性(Ethical Openness)」的概念。他們強調開源 AI 不應是毫無限制的釋出,而需在促進科學協作與防範技術濫用之間取得平衡。文章介紹了 Hugging Face 如何透過「閘門式模型(Gated Models)」、負責任 AI 授權條款(RAIL)以及社群檢舉機制,在實踐開放科學的同時降低潛在風險。
本文介紹在 Intel CPU 上加速 Stable Diffusion 推論的實用方法。透過 Hugging Face 的 Optimum Intel 整合套件,開發者可輕鬆利用 OpenVINO 和 Intel Extension for PyTorch (IPEX) 進行優化。在第四代 Intel Xeon 處理器上,結合 AMX 技術與 BF16/INT8 量化,能實現數倍的推論速度提升,為無 GPU 環境提供高效的替代方案。