本技術文章介紹如何將視覺語言模型 BridgeTower 部署於 Intel 的 Habana Gaudi2 晶片上。透過 Hugging Face 的 optimum-habana 整合套件,開發者只需修改極少代碼,即可在 Gaudi2 上實現高效能的跨模態模型訓練與推理。相較於傳統 GPU,Gaudi2 在處理此類複雜的多模態任務時展現出極佳的性價比與加速表現。
本期 Hugging Face 倫理與社會電子報聚焦於文字生成圖像(Text-to-Image)模型的偏見。文章指出,這些模型在生成職業、社會角色等圖像時,常顯露出嚴重的性別與種族刻板印象。這源於訓練數據中不均衡的代表性,Hugging Face 呼籲社群透過開發評估工具與推動數據透明化來共同應對此挑戰。
Meta 的 MMS(大規模多語言語音)模型支援超千種語言。Hugging Face 官方部落格詳細教學如何透過「轉接器(Adapter)」技術,在凍結基礎模型的前提下僅微調極少參數。這項技術非常適合預算有限、缺乏運算資源或資料量極少的「低資源語言」語音辨識(ASR)任務,能大幅降低訓練成本並避免過擬合。
針對學術界對 Transformer 是否適用於時間序列預測的質疑,Hugging Face 撰文平反。文章重點介紹已整合至其函式庫的 Autoformer 模型,該模型透過「序列分解」與「自相關機制」克服傳統 Transformer 的效能瓶頸。這證明了只要設計得當,Transformer 在長期時間序列預測(LSTF)上依然能展現卓越的準確度。
Vercel 正式推出 Vercel AI SDK,這是一款專為 JavaScript 和 TypeScript 開發者設計的開源庫。它能幫助開發者輕鬆在 Next.js、React、Svelte 等前端框架中構建 AI 聊天與生成界面。SDK 核心亮點在於內建強大的串流(Streaming)支援、提供 useChat 等便捷的 React Hooks,並無縫相容 OpenAI、Anthropic 等主流 LLM 提供商。
Vercel 推出為期 6 週的「Vercel AI Accelerator」計劃,旨在協助早期 AI 新創團隊。入選團隊將獲得總價值達 25 萬美元的 API 額度與雲端資源,並能獲得來自 OpenAI、Pinecone、Hugging Face 等合作夥伴的技術支持與業界頂尖導師的親自指導,加速 AI 應用的開發與部署。
Hugging Face Hub 正式整合 Meta 開源的經典 NLP 工具 fastText。現在開發者可以直接在 Hub 上託管、版本控制並分享 fastText 模型(.bin 格式)。此外,官方也上架了支援 157 種語言的預訓練詞向量與語言識別模型,並支援線上推理 API,大幅降低了輕量級 NLP 應用的部署與使用門檻。
本文介紹如何使用 Hugging Face 專為 Unity 開發者設計的開源 API 套件,在遊戲中輕鬆整合 AI 語音辨識(ASR)功能。透過該套件,開發者可以直接調用 Hugging Face Inference API(如 OpenAI 的 Whisper 模型),將玩家的麥克風錄音即時轉換為文字。這為遊戲內語音指令、與 NPC 的語音對話等互動機制提供了極低門檻的實現路徑,且無需在本地運行龐大的深度學習模型。
本文介紹 Hugging Face 與 Intel 合作的優化方案。透過 Optimum Intel 與神經網路壓縮框架(NNCF),開發者可以輕鬆對 Stable Diffusion 進行訓練後量化(PTQ)。這項技術能將模型壓縮至 INT8 精度,在顯著降低記憶體佔用的同時,大幅加速 Intel CPU 上的圖像生成速度,且幾乎不損失圖像品質。
Hugging Face 官方部落格介紹了 RWKV 架構並宣布將其整合至 transformers 函式庫。RWKV 是一種新型態的深度學習架構,它在訓練時能像 Transformer 一樣進行並行化計算,但在推論時則展現出 RNN 的特性,具備恆定的記憶體與時間複雜度。這項整合讓開發者能以極低的硬體資源部署與運行大規模語言模型。
本文由 Hugging Face 撰寫,深入剖析文字生成影片(Text-to-Video)模型的底層原理,包含如何將 2D 擴散模型擴展至 3D 時間維度。文章介紹了當時主流的開源模型(如 ModelScope),並提供使用 diffusers 函式庫進行實作的程式碼範例,是理解早期開源 AI 影片生成技術的經典指南。
DeepFloyd IF 是一款強大的像素級文字生成圖像模型,因包含龐大的 T5-XXL 文字編碼器,通常需要極高 VRAM 才能運行。Hugging Face 官方發布教學,展示如何透過 `diffusers` 庫的優化技術——包括 8-bit 量化、CPU 卸載(CPU Offloading)以及分階段釋放記憶體,讓開發者能在僅有 15GB VRAM 的免費版 Google Colab(T4 GPU)上,順利跑完該模型的三個級聯階段,生成 1024x1024 的高解析度影像。
Replicate 發布了 2023 年 4 月的開源語言模型(LLM)彙整報告。文章介紹了當時快速崛起的開源模型,包括基於 LLaMA 微調的 Vicuna、首款可商用的 Dolly v2,以及 Stability AI 推出的 StableLM。讀者可以透過 Replicate 的雲端 API 輕鬆部署與測試這些模型,大幅降低了開發者使用開源大模型的門檻與硬體成本。
Hugging Face 與 AWS 合作,透過 optimum-neuron 工具套件,簡化了在 AWS Inferentia2 (Inf2) 實例上部署 Transformers 模型的流程。開發者現在可以輕鬆將 PyTorch 模型編譯並運行於專為深度學習推理設計的 Inf2 晶片上。這項整合不僅大幅降低了雲端推理成本,還顯著提升了模型吞吐量並降低延遲。
Hugging Face 介紹了如何利用 Transformer 架構進行圖形分類(Graph Classification)。文章以微軟開發的 Graphormer 模型為例,展示如何處理非歐幾里得空間的圖形數據,並將其應用於預測分子特性等實際場景。讀者將學習如何利用 Hugging Face transformers 庫載入圖形數據集、進行特徵編碼並訓練圖形 Transformer 模型。
Owkin 開源的聯邦學習框架 Substra 已託管於 LF AI & Data 基金會。該框架允許開發者在分散且不公開的數據集上協同訓練 AI 模型,特別適合醫療等高隱私需求領域。本文介紹如何結合 Substra 與 Hugging Face 生態系,實現可追溯、安全且合規的隱私保護機器學習。
Hugging Face 與 Intel 合作,展示在 Habana Gaudi2 晶片上運行 1760 億參數的大型語言模型 BLOOMZ 的推理表現。 透過 optimum-habana 整合,開發者只需修改幾行程式碼,即可在 Gaudi2 上輕鬆部署並加速 LLM。 基準測試顯示 Gaudi2 在處理超大型模型時,展現出超越 NVIDIA A100 的優異吞吐量與低延遲,為企業提供極具性價比的替代方案。
Stanford Alpaca 是基於 Meta LLaMA-7B 微調而成的指令遵循模型,具備類似 ChatGPT 的對話能力。 Replicate 發表指南,詳細說明如何使用開源工具 Cog 將 Alpaca 打包,並在本地機器或 Replicate 雲端平台上運行。 此教學還涵蓋了如何利用自訂資料集對 LLaMA 進行微調,大幅降低了開發者構建專屬開源 LLM 的門檻。
Hugging Face 宣布將 AAAI 2021 最佳論文 Informer 模型整合至其 Transformers 庫中。本篇介紹如何利用 Informer 進行多變量機率時間序列預測,解決傳統 Transformer 在長序列預測上的高運算複雜度問題。透過 ProbSparse 自注意力機制與生成式解碼器,Informer 能在保持高準確度的同時,顯著降低記憶體與計算開銷。
韓國科技巨頭 Kakao 旗下的 AI 研究部門 Kakao Brain,在 Hugging Face 上釋出了全新的 ViT 與 ALIGN 模型。這些模型基於其先前開源的 COYO-700M 超大規模圖文對數據集進行訓練。本次開源不僅補足了 ALIGN 模型缺乏開源權重的遺憾,也為多模態表徵、圖像檢索與零樣本分類等任務提供了強大的新選擇。
本文探討機器學習在災難救援中的關鍵應用。在土耳其與敘利亞大地震等災害發生後,AI 社群迅速動員,利用計算機視覺分析衛星影像以評估建築損毀,並透過自然語言處理(NLP)篩選社群媒體上的求救訊號。Hugging Face 強調開源協作與模型共享在爭分奪秒的救援任務中扮演的重要角色。
Hugging Face 針對旗下熱門的 Diffusers 函式庫發布倫理指南,探討開源生成式圖像模型帶來的社會影響。指南重點涵蓋偏見緩解、安全過濾器(如 NSFW 偵測)、隱形浮水印技術,以及推動負責任的授權條款(如 OpenRAIL)。此舉旨在為開源社群提供一個在促進技術創新與防範惡意濫用之間取得平衡的實踐框架。
本文介紹了大型語言模型(LLM)的「紅隊演練」概念,這是一種源自網路安全、旨在透過模擬對抗性攻擊來找出模型漏洞的方法。文章探討了紅隊演練在防範越獄(jailbreak)、有害輸出及隱私洩漏上的重要性,並分析了手動與自動化紅隊測試的實踐方式與挑戰。這對於開發安全、可靠的 AI 系統至關重要。
儘管機器學習(ML)的需求爆發,但對於多數軟體工程師而言,部署與運行模型仍面臨極高的技術門檻。現有的 ML 工具鏈過於複雜,開發者常需處理 GPU 設定、CUDA 版本及依賴衝突。Replicate 指出,ML 領域急需如同傳統軟體開發般成熟、易用的基礎設施與工具,才能釋放其真正的應用潛力。
Hugging Face 宣布正式支援 Salesforce 開源的 BLIP-2 視覺語言模型。BLIP-2 透過輕量化的 Q-Former 橋接現成且凍結的圖像編碼器與大型語言模型(LLM),大幅降低訓練成本。此模型在零樣本圖像描述、視覺問答(VQA)等任務上表現優異,開發者現在可直接透過 Transformers 庫輕鬆調用。
知名 AI 創意工具公司 Runway 宣布採用 Vercel 作為其前端託管與開發平台。透過 Next.js 與 Vercel 的邊緣網路,Runway 成功克服了 AI 應用高負載與即時互動的挑戰。這項合作讓 Runway 團隊能專注於 AI 模型研發,同時為全球創作者提供流暢的影片生成體驗。
Microsoft 開源的 SpeechT5 模型正式整合至 Hugging Face Transformers。該模型採用統一的編碼器-解碼器架構,能同時處理語音轉文字(ASR)、文字轉語音(TTS)和語音對語音(如聲音轉換)等多種任務。開發者現在可以透過簡單的 Transformers API,輕鬆實現高質量的多模態語音應用。
本文為 Hugging Face 與 Intel 合作系列文章的第二部分,聚焦於推論加速。介紹如何透過 Intel 第四代 Xeon 可擴充處理器(Sapphire Rapids)內建的 Intel AMX 技術,並結合 Hugging Face Optimum Intel 與 IPEX 工具,實現 BF16 與 INT8 的混合精度推論。測試顯示,這能為 Transformer 模型帶來數倍的效能提升,且只需修改極少量的代碼。
本文介紹在 Vercel 部署 AI 應用的最佳實踐。透過 Vercel Edge Functions,開發者可以突破傳統 Serverless 的超時限制,並利用 Server-Sent Events (SSE) 實現 ChatGPT 式的即時文字串流響應。此外,Vercel 也提供多款一鍵部署的 AI 模板,幫助開發者快速整合 OpenAI、Replicate 等主流 AI 服務。
本文探討將基礎語言模型轉化為實用對話代理(如 ChatGPT)的核心要素。Hugging Face 指出,除了預訓練外,透過指令微調(SFT)與人類回饋強化學習(RLHF)來對齊「實用、誠實、無害」三大原則至關重要。此外,賦予代理使用外部工具(如搜尋、計算機)的能力,能大幅提升其回答的準確性與實用性。