本文探討將基礎語言模型轉化為實用對話代理(如 ChatGPT)的核心要素。Hugging Face 指出,除了預訓練外,透過指令微調(SFT)與人類回饋強化學習(RLHF)來對齊「實用、誠實、無害」三大原則至關重要。此外,賦予代理使用外部工具(如搜尋、計算機)的能力,能大幅提升其回答的準確性與實用性。
本文為 Hugging Face 遊戲開發 AI 系列的第三篇,專注於「3D 資產生成」。文章探討了從傳統 3D 建模的痛點出發,介紹如何利用神經輻射場(NeRF)進行 3D 重建,以及使用 OpenAI Point-E、DreamFusion 等最新 AI 模型進行文字/圖像轉 3D。最後說明如何將這些 AI 生成的 3D 模型導入 Blender、Unity 或 Unreal Engine 等主流遊戲引擎,為獨立開發者與美術設計師提供全新的工作流。
Hugging Face 宣布在 transformers 庫中支援 Mask2Former 與 OneFormer 兩大通用影像分割模型。這兩款模型打破了以往語意、實例和全景分割需要不同架構的限制,實現「單一架構通吃所有分割任務」。開發者現在可以透過簡單的 API 輕鬆載入預訓練模型,並應用於各類電腦視覺場景。
本文探討如何透過 Vercel Workflow 優化 AI 分析應用的開發與交付。AI 任務通常耗時且步驟複雜,傳統 Serverless 容易遇到超時問題。Vercel Workflow 提供多步驟、具狀態且支援自動重試的架構,讓開發者能輕鬆串接 LLM API 與資料處理流程,大幅提升 AI 分析的執行效率與系統穩定性。
這是一篇 Hugging Face 官方教學,指導開發者如何建立圖像相似度搜尋引擎。文章詳細說明了如何使用 Vision Transformer (ViT) 提取圖像特徵向量,並利用 Hugging Face Datasets 內建的 FAISS 整合功能進行高效的向量索引與檢索。此方法適用於以圖搜圖、推薦系統及重複圖片偵測等應用場景。
本文是 Hugging Face 挑戰「5 天內用 AI 製作農場遊戲」的第二部分,重點在於 3D 資產的生成。作者探討了 2023 年初 3D AI 技術的現狀,實測利用 OpenAI 的 Point-E 進行文字生成 3D 點雲與網格,並嘗試用 Stable Diffusion 進行 3D 貼圖。雖然當時技術仍有網格混亂、缺乏 UV 貼圖等限制,但為獨立遊戲開發者展示了 AI 輔助 3D 工作流的雛形。
Hugging Face 發布圖形機器學習(Graph ML)入門教學,介紹如何處理非歐幾里得空間的圖形數據。文章涵蓋節點分類、邊界預測與整圖分類三大核心任務,並解釋圖神經網路(GNN)如何透過「訊息傳遞」機制聚合鄰近節點資訊。這項技術在社群網路分析、藥物研發與推薦系統中扮演關鍵角色。
Hugging Face 與 Intel 合作,展示如何在新一代 Intel Sapphire Rapids 處理器上加速 Transformer 模型。 透過內建的 Intel AMX(進階矩陣擴充)指令集,能顯著提升 BF16 與 INT8 的運算效率。 開發者只需搭配 optimum-intel 庫,即可輕鬆在 CPU 上實現高達數倍的推理與訓練加速,無需繁瑣的底層代碼修改。
本教學為 Hugging Face 遊戲開發系列的第一部分,記錄了如何利用 AI 技術在 5 天內開發出一款農場模擬遊戲。文章重點介紹了開發初期的規劃、如何利用 Stable Diffusion 生成像素風(Pixel Art)美術資產,以及如何藉由 AI 輔助編寫 Unity 遊戲腳本,展示了 AI 如何大幅降低獨立遊戲開發的門檻。
Hugging Face 介紹了 CLIPSeg 模型,這是一個基於 CLIP 的零樣本圖像分割工具。使用者只需輸入簡單的文字提示(如「貓」或「杯子」)或參考影像,模型就能精確分割出目標物體。此技術免去了傳統分割模型需要大量標記資料與重新訓練的痛點,並已整合至 Hugging Face transformers 庫中,開發者只需幾行程式碼即可輕鬆上手。
Vercel 宣布推出「增強版預覽體驗」,將預覽部署轉化為即時協作空間。團隊成員可以直接在預覽網頁上進行標註、留下評論、擷取螢幕畫面,並自動同步至 GitHub、Jira 或 Slack 等工具,免去繁瑣的截圖與跨平台溝通流程,大幅縮短開發回饋循環。
Elixir 官方與 Hugging Face 合作推出 Bumblebee 專案,將主流的深度學習模型引入 Elixir 生態系。 基於 Nx 與 Axon 框架,開發者無需依賴 Python,即可在 Elixir 中直接載入並運行 GPT-2、Stable Diffusion 等模型。 搭配 Livebook 的智慧儲存格(Smart Cells),開發者只需點擊幾下,就能在數秒內部署並測試各種 AI 應用。
本文為 Hugging Face 針對生物資訊與深度學習結合的入門指南。文章介紹了蛋白質語言模型(pLM)的基本概念,將氨基酸序列視為文本,並展示如何利用 Meta 的 ESM-2 模型進行微調。讀者可以學習如何使用 Hugging Face transformers 庫來預測蛋白質的定位與功能,為 AI 驅動的藥物研發與生物科技奠定基礎。
Hugging Face 介紹了其首個專用於時間序列預測的 Transformer 模型。此模型採用 Encoder-Decoder 架構,並與熱門的時間序列庫 GluonTS 整合,能預測未來的機率分佈(而非單一數值),從而提供不確定性估計。文章詳細說明了如何利用時間特徵、滯後特徵(Lags)進行資料預處理,並透過實際程式碼展示了從資料準備、模型訓練到預測視覺化的完整流程。
Hugging Face 介紹了微軟開發的 VQ-Diffusion 模型,這是一種基於離散空間的文本到圖像生成技術。與傳統在連續空間運作的擴散模型不同,它結合了 VQ-VAE 的離散 Token 表示法與擴散模型,有效解決了自迴歸模型的誤差累積問題。開發者與研究人員可以透過 Hugging Face 的 `diffusers` 套件輕鬆調用此模型進行高效的影像生成。
本文介紹 Hugging Face 於 2022 年 11 月舉辦的「Diffusion Models Live Event」直播活動。該活動旨在向開發者與研究人員推廣擴散模型技術,並介紹當時新推出的 diffusers 函式庫。活動內容涵蓋從零開始訓練擴散模型、圖像生成原理及社群實作分享,是開源 AI 圖像生成發展史上的重要里程碑。
Replicate 宣布推出 DreamBooth API,大幅簡化了個人化圖像生成模型的訓練流程。開發者只需提供少數幾張特定主體的照片,並透過單次 API 呼叫,就能在雲端自動完成微調。訓練完成的模型會直接託管於 Replicate,並立即提供 API 端點供後續的圖像生成預測使用。
本文探討 Hugging Face 在文件 AI(Document AI)領域的加速方案。針對 LayoutLMv3 與免 OCR 的 Donut 等多模態模型,Hugging Face 介紹了如何利用 Optimum 庫、ONNX Runtime 及量化技術,克服多模態模型在生產環境中的高延遲與高成本挑戰,實現高效能的文件自動化處理。
本教學詳細介紹如何使用 Hugging Face 的 `transformers` 庫微調 OpenAI 的 Whisper 語音辨識模型。內容涵蓋從載入 Common Voice 資料集、音訊預處理(重採樣至 16kHz 並轉換為 Log-Mel 聲譜圖)、設定 Tokenizer,到使用 `Seq2SeqTrainer` 進行訓練與評估(以 WER 為指標)的完整流程。這對於想在特定低資源語言或專業領域提升語音轉文字精準度的開發者與研究人員來說,是極具價值的實戰指南。
本指南深入探討了在 PyTorch 中進行分散式訓練的三種層次。首先介紹底層的 PyTorch DDP(Distributed Data Parallel),展示其強大但繁瑣的設定;接著引入 Hugging Face Accelerate,它保留了 PyTorch 的靈活性,同時簡化了多 GPU、TPU 與混合精度的設定;最後介紹高階的 Trainer API,讓開發者只需幾行程式碼就能自動處理完整的分散式訓練流程。這篇文章非常適合想優化模型訓練效率的機器學習工程師。
本教學為 Hugging Face 官方指南,介紹如何訓練第一個 Decision Transformer (DT)。DT 將強化學習(RL)重新框架為序列建模問題,利用 Transformer 架構預測動作。教學涵蓋離線強化學習(Offline RL)的概念、如何使用 Hugging Face 的 `transformers` 庫與 `DecisionTransformerModel`,並在 Gym 環境中進行實作與評估,是結合 NLP 技術與控制任務的經典入門。
Replicate 平台讓開發者能夠透過簡單的 API 呼叫來運行 Stable Diffusion 等開源 AI 模型。 開發者無需自行架設昂貴且複雜的 GPU 基礎設施,只需使用 Python、JavaScript 等 SDK 即可快速整合。 此服務採用按秒計費制,非常適合用於黑客松、獨立開發專案或快速驗證產品原型。
Hugging Face 宣布支援在 Spaces 中整合 3Dmol.js 視覺化工具。這項功能讓生物資訊與 AI 領域的研究人員,能直接在 Gradio 或 Streamlit 應用中呈現 3D 分子模型。對於展示如 AlphaFold 或 ESMFold 等蛋白質預測模型結果非常實用,大幅降低了生醫 AI 展示工具的開發門檻。
本指南介紹如何結合 Hugging Face Transformers 與 Intel Habana Gaudi (HPU) 進行 BERT 模型的預訓練。透過 optimum-habana 整合,開發者只需修改幾行程式碼,即可將訓練任務轉移至 Gaudi 晶片,大幅提升訓練效率並降低成本。文章提供完整的程式碼範例與配置步驟,適合需要大規模預訓練自訂模型的工程師。
本文詳細說明如何將 Hugging Face 的 ViT (Vision Transformer) 模型部署至 Google Cloud Vertex AI。步驟包含編寫自定義預測腳本、打包 Docker 容器、將模型註冊至 Model Registry,並最終部署到端點進行即時線上推論,是電腦視覺模型落地的實用指南。
本文詳細說明了將 Hugging Face 的 Vision Transformer (ViT) 模型部署到生產環境的完整流程。內容涵蓋將模型轉換為 TensorFlow SavedModel 格式、配置 TF Serving 服務,以及撰寫 Kubernetes 部署與服務 YAML 檔。最後展示了如何透過 API 進行高效能的圖像分類推理,是 MLOps 工程師將視覺模型落地生產環境的實用指南。
本文探討如何利用 CLIP 的語意搜尋能力與龐大的 LAION-5B 開源影像數據集,自動化建立自定義圖像數據集。讀者可以透過輸入文字描述,精準篩選並批次下載成千上萬張相關圖片與其標籤。這對於需要訓練專屬 AI 模型(如 Stable Diffusion 微調)的開發者與研究人員來說,是一個極具實用價值的工具與工作流。
Hugging Face 官方部落格介紹了 Nyströmformer 模型。該模型旨在解決傳統 Transformer 在處理長序列時面臨的平方級(O(n²))時間與記憶體複雜度限制。透過引入數學上的 Nyström 方法,Nyströmformer 能夠以線性(O(n))的複雜度高效逼近標準的 Self-Attention 機制,並已整合至 Hugging Face transformers 庫中,方便開發者直接調用。
Hugging Face 官方部落格介紹了結合 TensorFlow 與 XLA(加速線性代數)編譯器來優化文本生成的方法。透過在 generate() 函數中啟用 jit_compile=True,開發者可以顯著減少推論延遲。然而,由於 XLA 需要靜態形狀(static shapes),使用時必須對輸入進行固定長度的填充與截斷。
本教學詳細說明如何將 Hugging Face 平台上的 TensorFlow 電腦視覺模型(如 ViT)導出為 SavedModel 格式。接著,展示如何利用 TensorFlow Serving (TF Serving) 搭配 Docker 進行模型部署,並透過 REST API 進行高效能的影像分類推論,為開發者提供一套將研發成果轉化為生產線服務的標準流程。