韓國科技巨頭 Kakao 旗下的 AI 研究部門 Kakao Brain,在 Hugging Face 上釋出了全新的 ViT 與 ALIGN 模型。這些模型基於其先前開源的 COYO-700M 超大規模圖文對數據集進行訓練。本次開源不僅補足了 ALIGN 模型缺乏開源權重的遺憾,也為多模態表徵、圖像檢索與零樣本分類等任務提供了強大的新選擇。
Hugging Face 宣布將 ControlNet 整合至 🧨 diffusers 庫中。ControlNet 是一種能為 Stable Diffusion 等擴散模型加入額外控制條件(如 Canny 邊緣、OpenPose 姿勢、Depth 深度圖等)的架構。透過全新的 StableDiffusionControlNetPipeline,開發者只需幾行程式碼即可實現高精度的圖像生成與編輯,大幅提升了 AI 繪圖的可控性。
本文探討機器學習在災難救援中的關鍵應用。在土耳其與敘利亞大地震等災害發生後,AI 社群迅速動員,利用計算機視覺分析衛星影像以評估建築損毀,並透過自然語言處理(NLP)篩選社群媒體上的求救訊號。Hugging Face 強調開源協作與模型共享在爭分奪秒的救援任務中扮演的重要角色。
Hugging Face 針對旗下熱門的 Diffusers 函式庫發布倫理指南,探討開源生成式圖像模型帶來的社會影響。指南重點涵蓋偏見緩解、安全過濾器(如 NSFW 偵測)、隱形浮水印技術,以及推動負責任的授權條款(如 OpenRAIL)。此舉旨在為開源社群提供一個在促進技術創新與防範惡意濫用之間取得平衡的實踐框架。
本文介紹了大型語言模型(LLM)的「紅隊演練」概念,這是一種源自網路安全、旨在透過模擬對抗性攻擊來找出模型漏洞的方法。文章探討了紅隊演練在防範越獄(jailbreak)、有害輸出及隱私洩漏上的重要性,並分析了手動與自動化紅隊測試的實踐方式與挑戰。這對於開發安全、可靠的 AI 系統至關重要。
Hugging Face 與 AWS 宣布建立戰略合作夥伴關係,AWS 成為其首選雲端供應商。雙方將深度整合,讓開發者能透過 Amazon SageMaker 輕鬆訓練與部署 Hugging Face 上的超大型 AI 模型。此外,合作也將優化 AWS 自研晶片(Trainium 與 Inferentia)對開源模型的支援,大幅降低企業導入生成式 AI 的成本與門檻。
儘管機器學習(ML)的需求爆發,但對於多數軟體工程師而言,部署與運行模型仍面臨極高的技術門檻。現有的 ML 工具鏈過於複雜,開發者常需處理 GPU 設定、CUDA 版本及依賴衝突。Replicate 指出,ML 領域急需如同傳統軟體開發般成熟、易用的基礎設施與工具,才能釋放其真正的應用潛力。
Mantis NLP 團隊分享了他們將 NLP 模型部署全面轉向 Hugging Face Inference Endpoints 的實戰經驗。相較於傳統自建 AWS SageMaker 或 EC2 基礎設施,Hugging Face 提供極低的維護門檻、靈活的自動縮放(包括縮減至零)以及極具競爭力的價格。這項轉變不僅大幅縮短了產品上線時間,也讓團隊能更專注於模型本身的研發而非繁雜的運維工作。
Hugging Face 宣布正式支援 Salesforce 開源的 BLIP-2 視覺語言模型。BLIP-2 透過輕量化的 Q-Former 橋接現成且凍結的圖像編碼器與大型語言模型(LLM),大幅降低訓練成本。此模型在零樣本圖像描述、視覺問答(VQA)等任務上表現優異,開發者現在可直接透過 Transformers 庫輕鬆調用。
Hugging Face 宣布推出 PEFT(Parameter-Efficient Fine-Tuning)開源庫,旨在解決微調大模型時高昂的算力與儲存成本。PEFT 整合了 LoRA、Prefix Tuning、P-Tuning 等主流技術,僅需微調極少量的額外參數即可達到與全量微調相當的效果。這使得開發者能在消費級硬體(如單張 24GB 顯示卡)上微調數十億甚至百億參數的模型,並大幅縮小模型權重檔案體積。
Microsoft 開源的 SpeechT5 模型正式整合至 Hugging Face Transformers。該模型採用統一的編碼器-解碼器架構,能同時處理語音轉文字(ASR)、文字轉語音(TTS)和語音對語音(如聲音轉換)等多種任務。開發者現在可以透過簡單的 Transformers API,輕鬆實現高質量的多模態語音應用。
本教學為 Hugging Face 遊戲開發系列的第五部分,專注於「故事生成」。文章探討如何利用大型語言模型(LLM)來突破傳統遊戲線性敘事的限制,創造出動態、互動性強的遊戲劇情與 NPC 對話。讀者將學習如何透過 Prompt 工程引導模型,並將其整合至 Unity 等遊戲引擎中,實現自動化且具備上下文連貫性的遊戲敘事。
Hugging Face 發表全新的「AI vs. AI」多智能體競賽系統,結合深度強化學習(DRL)與遊戲環境。開發者可將訓練好的智能體上傳至 Hugging Face Hub,系統會自動安排對戰並以 Elo 評分系統進行即時排名。首波活動以 Unity ML-Agents 的足球遊戲展開,旨在推動多智能體強化學習的社群發展。
本文為 Hugging Face 與 Intel 合作系列文章的第二部分,聚焦於推論加速。介紹如何透過 Intel 第四代 Xeon 可擴充處理器(Sapphire Rapids)內建的 Intel AMX 技術,並結合 Hugging Face Optimum Intel 與 IPEX 工具,實現 BF16 與 INT8 的混合精度推論。測試顯示,這能為 Transformer 模型帶來數倍的效能提升,且只需修改極少量的代碼。
Hugging Face 釋出的這篇技術指南,深入探討了視覺語言模型 (VLM) 的核心架構。文章詳細介紹了 VLM 如何結合圖像與文字編碼器,並剖析了對比學習(如 CLIP)、生成式(如 BLIP、GIT)及多模態融合等三大主流預訓練策略。最後,展示了如何利用 Hugging Face Transformers 庫輕鬆調用這些模型,是理解多模態 AI 的必讀經典。
本文為 Hugging Face 官方發布的電腦視覺(CV)生態總覽。隨著 Transformers 庫對視覺模型的支援、與 Timm 庫的深度整合,以及 Diffusers 在生成式 AI 的爆發,Hugging Face 已從 NLP 平台轉型為全方位的 AI 社群。文章詳細介紹了影像分類、目標檢測、語義分割等任務的支援現狀,並展示了如何利用其工具鏈進行高效開發。
本文為 Hugging Face 官方介紹 LoRA(低秩適應)技術在 Stable Diffusion 微調上的應用。LoRA 透過凍結原模型並僅訓練新增的低秩矩陣,將顯存需求降至消費級顯卡即可運行的水平,且產出的權重檔案僅有數 MB(相較於完整微調的數 GB),極大地降低了個性化圖像生成模型的訓練門檻與分享成本。
本文探討將基礎語言模型轉化為實用對話代理(如 ChatGPT)的核心要素。Hugging Face 指出,除了預訓練外,透過指令微調(SFT)與人類回饋強化學習(RLHF)來對齊「實用、誠實、無害」三大原則至關重要。此外,賦予代理使用外部工具(如搜尋、計算機)的能力,能大幅提升其回答的準確性與實用性。
Hugging Face 介紹了 Optimum 庫與 ONNX Runtime (ORT) 的整合,為開發者提供更高效的訓練解決方案。透過將標準的 Trainer 替換為 ORTTrainer,開發者可以輕鬆啟用 ORT 的圖優化與記憶體管理技術。此方案在不犧牲模型精度的前提下,能顯著提升訓練吞吐量(通常可達 20%-40%)並降低 GPU 顯存佔用。
本文為 Hugging Face 遊戲開發 AI 系列的第三篇,專注於「3D 資產生成」。文章探討了從傳統 3D 建模的痛點出發,介紹如何利用神經輻射場(NeRF)進行 3D 重建,以及使用 OpenAI Point-E、DreamFusion 等最新 AI 模型進行文字/圖像轉 3D。最後說明如何將這些 AI 生成的 3D 模型導入 Blender、Unity 或 Unreal Engine 等主流遊戲引擎,為獨立開發者與美術設計師提供全新的工作流。
Hugging Face 宣布在 transformers 庫中支援 Mask2Former 與 OneFormer 兩大通用影像分割模型。這兩款模型打破了以往語意、實例和全景分割需要不同架構的限制,實現「單一架構通吃所有分割任務」。開發者現在可以透過簡單的 API 輕鬆載入預訓練模型,並應用於各類電腦視覺場景。
Hugging Face 官方宣佈與百度的開源深度學習平台 PaddlePaddle(飛槳)達成合作,正式將其引入 Hugging Face Hub 生態系。開發者現在可以直接在 Hub 上分享、探索和下載 PaddlePaddle 的模型。這項整合進一步擴大了 Hugging Face 的多框架支援版圖,為全球開發者提供更豐富的開源模型選擇,特別是在中文 NLP 和 OCR 等 PaddlePaddle 強勢的領域。
這是一篇 Hugging Face 官方教學,指導開發者如何建立圖像相似度搜尋引擎。文章詳細說明了如何使用 Vision Transformer (ViT) 提取圖像特徵向量,並利用 Hugging Face Datasets 內建的 FAISS 整合功能進行高效的向量索引與檢索。此方法適用於以圖搜圖、推薦系統及重複圖片偵測等應用場景。
Hugging Face 發布圖形機器學習(Graph ML)入門教學,介紹如何處理非歐幾里得空間的圖形數據。文章涵蓋節點分類、邊界預測與整圖分類三大核心任務,並解釋圖神經網路(GNN)如何透過「訊息傳遞」機制聚合鄰近節點資訊。這項技術在社群網路分析、藥物研發與推薦系統中扮演關鍵角色。
Hugging Face 與 Intel 合作,展示如何在新一代 Intel Sapphire Rapids 處理器上加速 Transformer 模型。 透過內建的 Intel AMX(進階矩陣擴充)指令集,能顯著提升 BF16 與 INT8 的運算效率。 開發者只需搭配 optimum-intel 庫,即可輕鬆在 CPU 上實現高達數倍的推理與訓練加速,無需繁瑣的底層代碼修改。
Hugging Face 介紹了 CLIPSeg 模型,這是一個基於 CLIP 的零樣本圖像分割工具。使用者只需輸入簡單的文字提示(如「貓」或「杯子」)或參考影像,模型就能精確分割出目標物體。此技術免去了傳統分割模型需要大量標記資料與重新訓練的痛點,並已整合至 Hugging Face transformers 庫中,開發者只需幾行程式碼即可輕鬆上手。
Hugging Face 詳細介紹了「Model Cards(模型卡)」的概念與實作方法。作為模型倉庫的 README.md,Model Cards 不僅記錄了模型的預期用途、限制、訓練數據與評估結果,還透過 YAML 元數據實現結構化搜尋。這項工具旨在推動開源 AI 社群的透明度與可解釋性,是實踐負責任 AI(Responsible AI)不可或缺的基礎文檔。
Hugging Face 發表第二期倫理與社會電子報,聚焦於機器學習(ML)中的偏見問題。文章探討了偏見如何從數據收集、模型訓練到部署階段滲入 AI 系統,並強調了多樣性數據與透明評估的重要性。HF 呼籲社群共同參與,利用其平台工具來識別並減輕模型偏見,推動更公平、更具包容性的 AI 技術發展。
Hugging Face 發布音訊資料集處理指南,詳細解析如何利用 datasets 庫管理語音與音訊資料。內容涵蓋 Audio 特徵類型的自動解碼與重採樣、使用 Streaming 模式免下載即時處理超大型資料集,以及搭配 AutoFeatureExtractor 進行模型訓練前的預處理。這為語音識別(ASR)與音訊分類任務提供了標準化且高效的工作流。
Hugging Face 發布 Habana Gaudi2 與 Nvidia A100 80GB 的基準測試對比。結果顯示,Gaudi2 在 BERT 和 T5 等主流模型的訓練速度上比 A100 快上近兩倍。透過 optimum-habana 庫,開發者只需修改極少程式碼即可無縫轉移,為 Nvidia 晶片短缺與高成本提供了強力的替代方案。