本案例研究探討了企業級生成式 AI 平台 Writer 如何與 Hugging Face 深度合作。Writer 透過 Hugging Face 的 Transformers、Accelerate 以及 Text Generation Inference (TGI) 等技術,成功開發並部署了專為企業設計的 Palmyra 系列模型。這不僅大幅降低了模型訓練與推論的成本,更在確保數據隱私與合規性的前提下,為企業客戶提供了高度客製化的 AI 解決方案。
本技術文章介紹如何將視覺語言模型 BridgeTower 部署於 Intel 的 Habana Gaudi2 晶片上。透過 Hugging Face 的 optimum-habana 整合套件,開發者只需修改極少代碼,即可在 Gaudi2 上實現高效能的跨模態模型訓練與推理。相較於傳統 GPU,Gaudi2 在處理此類複雜的多模態任務時展現出極佳的性價比與加速表現。
本期 Hugging Face 倫理與社會電子報聚焦於文字生成圖像(Text-to-Image)模型的偏見。文章指出,這些模型在生成職業、社會角色等圖像時,常顯露出嚴重的性別與種族刻板印象。這源於訓練數據中不均衡的代表性,Hugging Face 呼籲社群透過開發評估工具與推動數據透明化來共同應對此挑戰。
Meta 的 MMS(大規模多語言語音)模型支援超千種語言。Hugging Face 官方部落格詳細教學如何透過「轉接器(Adapter)」技術,在凍結基礎模型的前提下僅微調極少參數。這項技術非常適合預算有限、缺乏運算資源或資料量極少的「低資源語言」語音辨識(ASR)任務,能大幅降低訓練成本並避免過擬合。
針對學術界對 Transformer 是否適用於時間序列預測的質疑,Hugging Face 撰文平反。文章重點介紹已整合至其函式庫的 Autoformer 模型,該模型透過「序列分解」與「自相關機制」克服傳統 Transformer 的效能瓶頸。這證明了只要設計得當,Transformer 在長期時間序列預測(LSTF)上依然能展現卓越的準確度。
Hugging Face Hub 正式整合 Meta 開源的經典 NLP 工具 fastText。現在開發者可以直接在 Hub 上託管、版本控制並分享 fastText 模型(.bin 格式)。此外,官方也上架了支援 157 種語言的預訓練詞向量與語言識別模型,並支援線上推理 API,大幅降低了輕量級 NLP 應用的部署與使用門檻。
本文介紹 Hugging Face 與 Intel 合作的優化方案。透過 Optimum Intel 與神經網路壓縮框架(NNCF),開發者可以輕鬆對 Stable Diffusion 進行訓練後量化(PTQ)。這項技術能將模型壓縮至 INT8 精度,在顯著降低記憶體佔用的同時,大幅加速 Intel CPU 上的圖像生成速度,且幾乎不損失圖像品質。
Hugging Face 官方部落格介紹了 RWKV 架構並宣布將其整合至 transformers 函式庫。RWKV 是一種新型態的深度學習架構,它在訓練時能像 Transformer 一樣進行並行化計算,但在推論時則展現出 RNN 的特性,具備恆定的記憶體與時間複雜度。這項整合讓開發者能以極低的硬體資源部署與運行大規模語言模型。
本文由 Hugging Face 撰寫,深入剖析文字生成影片(Text-to-Video)模型的底層原理,包含如何將 2D 擴散模型擴展至 3D 時間維度。文章介紹了當時主流的開源模型(如 ModelScope),並提供使用 diffusers 函式庫進行實作的程式碼範例,是理解早期開源 AI 影片生成技術的經典指南。
DeepFloyd IF 是一款強大的像素級文字生成圖像模型,因包含龐大的 T5-XXL 文字編碼器,通常需要極高 VRAM 才能運行。Hugging Face 官方發布教學,展示如何透過 `diffusers` 庫的優化技術——包括 8-bit 量化、CPU 卸載(CPU Offloading)以及分階段釋放記憶體,讓開發者能在僅有 15GB VRAM 的免費版 Google Colab(T4 GPU)上,順利跑完該模型的三個級聯階段,生成 1024x1024 的高解析度影像。
Replicate 發布了 2023 年 4 月的開源語言模型(LLM)彙整報告。文章介紹了當時快速崛起的開源模型,包括基於 LLaMA 微調的 Vicuna、首款可商用的 Dolly v2,以及 Stability AI 推出的 StableLM。讀者可以透過 Replicate 的雲端 API 輕鬆部署與測試這些模型,大幅降低了開發者使用開源大模型的門檻與硬體成本。
Hugging Face 與 AWS 合作,透過 optimum-neuron 工具套件,簡化了在 AWS Inferentia2 (Inf2) 實例上部署 Transformers 模型的流程。開發者現在可以輕鬆將 PyTorch 模型編譯並運行於專為深度學習推理設計的 Inf2 晶片上。這項整合不僅大幅降低了雲端推理成本,還顯著提升了模型吞吐量並降低延遲。
Hugging Face 介紹了如何利用 Transformer 架構進行圖形分類(Graph Classification)。文章以微軟開發的 Graphormer 模型為例,展示如何處理非歐幾里得空間的圖形數據,並將其應用於預測分子特性等實際場景。讀者將學習如何利用 Hugging Face transformers 庫載入圖形數據集、進行特徵編碼並訓練圖形 Transformer 模型。
Owkin 開源的聯邦學習框架 Substra 已託管於 LF AI & Data 基金會。該框架允許開發者在分散且不公開的數據集上協同訓練 AI 模型,特別適合醫療等高隱私需求領域。本文介紹如何結合 Substra 與 Hugging Face 生態系,實現可追溯、安全且合規的隱私保護機器學習。
Hugging Face 與 Intel 合作,展示在 Habana Gaudi2 晶片上運行 1760 億參數的大型語言模型 BLOOMZ 的推理表現。 透過 optimum-habana 整合,開發者只需修改幾行程式碼,即可在 Gaudi2 上輕鬆部署並加速 LLM。 基準測試顯示 Gaudi2 在處理超大型模型時,展現出超越 NVIDIA A100 的優異吞吐量與低延遲,為企業提供極具性價比的替代方案。
Stanford Alpaca 是基於 Meta LLaMA-7B 微調而成的指令遵循模型,具備類似 ChatGPT 的對話能力。 Replicate 發表指南,詳細說明如何使用開源工具 Cog 將 Alpaca 打包,並在本地機器或 Replicate 雲端平台上運行。 此教學還涵蓋了如何利用自訂資料集對 LLaMA 進行微調,大幅降低了開發者構建專屬開源 LLM 的門檻。
Hugging Face 宣布將 AAAI 2021 最佳論文 Informer 模型整合至其 Transformers 庫中。本篇介紹如何利用 Informer 進行多變量機率時間序列預測,解決傳統 Transformer 在長序列預測上的高運算複雜度問題。透過 ProbSparse 自注意力機制與生成式解碼器,Informer 能在保持高準確度的同時,顯著降低記憶體與計算開銷。
韓國科技巨頭 Kakao 旗下的 AI 研究部門 Kakao Brain,在 Hugging Face 上釋出了全新的 ViT 與 ALIGN 模型。這些模型基於其先前開源的 COYO-700M 超大規模圖文對數據集進行訓練。本次開源不僅補足了 ALIGN 模型缺乏開源權重的遺憾,也為多模態表徵、圖像檢索與零樣本分類等任務提供了強大的新選擇。
本文探討機器學習在災難救援中的關鍵應用。在土耳其與敘利亞大地震等災害發生後,AI 社群迅速動員,利用計算機視覺分析衛星影像以評估建築損毀,並透過自然語言處理(NLP)篩選社群媒體上的求救訊號。Hugging Face 強調開源協作與模型共享在爭分奪秒的救援任務中扮演的重要角色。
Hugging Face 針對旗下熱門的 Diffusers 函式庫發布倫理指南,探討開源生成式圖像模型帶來的社會影響。指南重點涵蓋偏見緩解、安全過濾器(如 NSFW 偵測)、隱形浮水印技術,以及推動負責任的授權條款(如 OpenRAIL)。此舉旨在為開源社群提供一個在促進技術創新與防範惡意濫用之間取得平衡的實踐框架。
本文介紹了大型語言模型(LLM)的「紅隊演練」概念,這是一種源自網路安全、旨在透過模擬對抗性攻擊來找出模型漏洞的方法。文章探討了紅隊演練在防範越獄(jailbreak)、有害輸出及隱私洩漏上的重要性,並分析了手動與自動化紅隊測試的實踐方式與挑戰。這對於開發安全、可靠的 AI 系統至關重要。
儘管機器學習(ML)的需求爆發,但對於多數軟體工程師而言,部署與運行模型仍面臨極高的技術門檻。現有的 ML 工具鏈過於複雜,開發者常需處理 GPU 設定、CUDA 版本及依賴衝突。Replicate 指出,ML 領域急需如同傳統軟體開發般成熟、易用的基礎設施與工具,才能釋放其真正的應用潛力。
Hugging Face 宣布正式支援 Salesforce 開源的 BLIP-2 視覺語言模型。BLIP-2 透過輕量化的 Q-Former 橋接現成且凍結的圖像編碼器與大型語言模型(LLM),大幅降低訓練成本。此模型在零樣本圖像描述、視覺問答(VQA)等任務上表現優異,開發者現在可直接透過 Transformers 庫輕鬆調用。
Microsoft 開源的 SpeechT5 模型正式整合至 Hugging Face Transformers。該模型採用統一的編碼器-解碼器架構,能同時處理語音轉文字(ASR)、文字轉語音(TTS)和語音對語音(如聲音轉換)等多種任務。開發者現在可以透過簡單的 Transformers API,輕鬆實現高質量的多模態語音應用。
本文為 Hugging Face 與 Intel 合作系列文章的第二部分,聚焦於推論加速。介紹如何透過 Intel 第四代 Xeon 可擴充處理器(Sapphire Rapids)內建的 Intel AMX 技術,並結合 Hugging Face Optimum Intel 與 IPEX 工具,實現 BF16 與 INT8 的混合精度推論。測試顯示,這能為 Transformer 模型帶來數倍的效能提升,且只需修改極少量的代碼。
本文探討將基礎語言模型轉化為實用對話代理(如 ChatGPT)的核心要素。Hugging Face 指出,除了預訓練外,透過指令微調(SFT)與人類回饋強化學習(RLHF)來對齊「實用、誠實、無害」三大原則至關重要。此外,賦予代理使用外部工具(如搜尋、計算機)的能力,能大幅提升其回答的準確性與實用性。
本文為 Hugging Face 遊戲開發 AI 系列的第三篇,專注於「3D 資產生成」。文章探討了從傳統 3D 建模的痛點出發,介紹如何利用神經輻射場(NeRF)進行 3D 重建,以及使用 OpenAI Point-E、DreamFusion 等最新 AI 模型進行文字/圖像轉 3D。最後說明如何將這些 AI 生成的 3D 模型導入 Blender、Unity 或 Unreal Engine 等主流遊戲引擎,為獨立開發者與美術設計師提供全新的工作流。
Hugging Face 宣布在 transformers 庫中支援 Mask2Former 與 OneFormer 兩大通用影像分割模型。這兩款模型打破了以往語意、實例和全景分割需要不同架構的限制,實現「單一架構通吃所有分割任務」。開發者現在可以透過簡單的 API 輕鬆載入預訓練模型,並應用於各類電腦視覺場景。
這是一篇 Hugging Face 官方教學,指導開發者如何建立圖像相似度搜尋引擎。文章詳細說明了如何使用 Vision Transformer (ViT) 提取圖像特徵向量,並利用 Hugging Face Datasets 內建的 FAISS 整合功能進行高效的向量索引與檢索。此方法適用於以圖搜圖、推薦系統及重複圖片偵測等應用場景。
Hugging Face 發布圖形機器學習(Graph ML)入門教學,介紹如何處理非歐幾里得空間的圖形數據。文章涵蓋節點分類、邊界預測與整圖分類三大核心任務,並解釋圖神經網路(GNN)如何透過「訊息傳遞」機制聚合鄰近節點資訊。這項技術在社群網路分析、藥物研發與推薦系統中扮演關鍵角色。