Replicate 宣布對微調模型的「冷啟動(Cold Boot)」進行重大改進。過去部署微調模型需要數分鐘來啟動新容器,現在透過共享基礎模型並動態載入輕量化的 LoRA 權重,冷啟動時間已縮短至一秒以內。這大幅降低了開發者在使用客製化模型時的延遲與成本。
美國知名消費回饋平台 Fetch 每日需處理數百萬張發票收據。為了提升 OCR、商品匹配與商家分類等 NLP 任務的效率,Fetch 採用了 Amazon SageMaker 與 Hugging Face 的整合方案。此舉不僅讓機器學習模型的推理延遲大幅降低 50%,同時也優化了運算成本與部署流程。
Hugging Face 釋出 AudioLDM 2 的推理加速指南。透過將模型轉為 float16 半精度、將預設的 200 步調度器替換為僅需 25 步的 DPMSolverMultistepScheduler,並結合 PyTorch 2.0 的 torch.compile 技術,開發者可以將音訊生成速度提升數倍,在 GPU 上實現秒級的文字轉語音與音樂生成。
Hugging Face 官方宣布,為了提升平台安全性,將逐步棄用傳統的 Git 密碼驗證方式。未來用戶在進行 Git 操作(如 clone 或 push)時,必須改用個人存取權杖(PAT)或 SSH 金鑰。此項變更將影響所有託管在 Hugging Face 上的模型、數據集和 Space 倉庫,開發者需盡快更新自動化腳本。
Meta 正式發布專為程式碼任務設計的開源模型 Code Llama,提供 7B、13B 與 34B 三種尺寸,並包含 Python 專用版與指令微調版。該模型支援高達 100k 的上下文視窗,在多項程式碼基準測試中表現優異。Hugging Face 已同步支援該系列模型的推理、部署與微調。
Hugging Face 正式將 AutoGPTQ 整合進 transformers 生態系,支援直接載入與運行 4-bit GPTQ 量化模型。此更新大幅降低了 LLM 的 GPU 記憶體門檻(如 70B 模型可在單張消費級 GPU 運行),並提供極佳的推理加速。開發者只需簡單修改程式碼即可啟用,並能無縫使用 Hub 上數千個現成的 GPTQ 模型。
本文回顧了文字生成圖像(Text-to-Image)技術的演進歷程。從早期的 GAN 限制,到 2021 年 VQGAN+CLIP 掀起的社群藝術熱潮,再到 2022 年 DALL-E 2 與 Stable Diffusion 的爆發。隨著 Stable Diffusion 迎來一週年及 SDXL 的推出,開源社群與微調技術正以前所未有的速度重塑視覺創作。
Hugging Face 發表開源多模態視覺語言模型 IDEFICS,旨在重現 DeepMind 閉源模型 Flamingo 的強大功能。該模型基於 LLaMA 與 OpenCLIP 構建,提供 9B 與 80B 兩種參數版本,能同時處理交錯的文本與圖片輸入。IDEFICS 的開源為社群提供了強大的多模態研究基礎,並同步釋出了大規模數據集 OBELICS。
Hugging Face 宣布推出 SafeCoder,這是一套專為企業打造的程式碼寫作助手解決方案。SafeCoder 主打高度隱私與合規性,允許企業在自有的 VPC 或本地環境中部署,並能使用私有程式碼庫進行微調。該方案基於開源的 StarCoder 模型,旨在為企業提供一個可完全掌控、安全且不洩漏敏感資料的 GitHub Copilot 替代方案。
AI 託管平台 Replicate 宣布重大計費調整:所有公開模型(如 Llama、Stable Diffusion 等)的 API 呼叫價格直接減半(降價 50%)。與此同時,為了平衡伺服器資源成本,未來將開始對新用戶的私有模型(Private Models)在設定(冷啟動)與閒置(Idle)時間進行計費。這項調整旨在降低開源模型使用門檻,同時優化專屬資源的利用率。
本指南由 Replicate 團隊撰寫,深入解析 Llama 2 的官方提示詞(Prompt)格式。文章詳細說明了如何使用 `[INST]`、`<<SYS>>` 等特殊標記來結構化系統提示詞與用戶指令。遵循此標準模板能有效避免模型輸出混亂或不聽從指令的問題,是開發者部署與微調 Llama 2 的必讀基礎教學。
Hugging Face 宣布其 Hub 服務正式登陸 AWS Marketplace。企業客戶現在可以直接使用現有的 AWS 帳戶訂閱與支付 Hugging Face 的服務(如 Enterprise Hub)。這項合作簡化了企業的採購與財務審批流程,並允許企業利用現有的 AWS 承諾消費(Commitments)來抵扣 Hugging Face 的費用,加速企業級 AI 應用的落地。
Bark 是 Suno 推出基於 Transformer 的文字轉語音(TTS)與音訊生成模型。由於其包含多個子模型,推理時極耗資源。本文詳細說明如何透過 Hugging Face Transformers 整合的優化技術,包括啟用半精度(fp16)、智慧 CPU 卸載(CPU Offloading)、PyTorch 2.0 的 SDPA(縮放點積注意力)以及 `torch.compile`,在不犧牲音質的前提下,將 VRAM 佔用降低 50% 以上,並顯著提升生成速度。
Hugging Face 釋出實用教學,介紹如何利用 TRL(Transformer Reinforcement Learning)庫中的 DPOTrainer,以「直接偏好優化(DPO)」技術微調 Llama 2。DPO 是一種替代傳統 RLHF 的新穎方法,它不需要訓練獨立的獎勵模型,也不需要複雜的 PPO 強化學習階段,僅需透過人類偏好數據(滿意與不滿意的回答對)即可直接優化模型,大幅降低了對齊(Alignment)的門檻與運算資源。
本文介紹如何利用 Hugging Face Inference Endpoints 託管服務,在幾分鐘內將 Meta 的開源音樂生成模型 MusicGen 部署為生產級 API。使用者無需自行管理複雜的 GPU 基礎設施,只需選擇模型與硬體規格,即可一鍵生成專屬的 API 端點,並透過簡單的 HTTP 請求實現文字生成音樂的功能。
Hugging Face 發表「Huggy Lingo」專案,旨在解決 Hub 上許多模型和數據集缺乏或標記錯誤語言元數據(Metadata)的問題。該系統利用機器學習(如語言識別模型)分析 README 內容與數據集樣本,自動預測並補全正確的語言標籤(如 ISO 639 代碼)。這項改進將大幅提升全球開發者在 Hub 上搜尋、篩選特定語言資源的效率,特別是針對低資源語言的發掘。
Hugging Face 與密碼學安全公司 Zama 合作,發表了利用全同態加密(FHE)運行大語言模型(LLM)的技術方案。該技術允許用戶將加密的 Prompt 發送到雲端,雲端模型在完全不解密的情況下進行推論並返回加密結果,確保數據隱私。雖然目前面臨運算延遲高與需要極低位元量化等挑戰,但這為金融與醫療等高隱私需求領域開闢了全新可能。
Hugging Face 宣布開源基於 Stable Diffusion 蒸餾的輕量化模型 SD-Small(約 5.11 億參數)與 SD-Tiny(約 3.23 億參數)的權重與完整訓練程式碼。透過知識蒸餾技術減少 UNet 的層數,這些模型在保留高圖像質量的同時,實現了 1.5 到 2 倍的推理加速。此舉不僅降低了消費級顯卡與行動裝置運行 AI 繪圖的門檻,也讓開發者能自行蒸餾客製化的 SD 模型。
Hugging Face 發表了將 Stable Diffusion XL (SDXL) 部署於 Mac 的 Core ML 最佳化方案。透過先進的量化技術(如 6-bit 與 8-bit 量化),成功將龐大的 SDXL 模型體積縮減,使其能在 Apple Silicon(M1/M2 系列晶片)的 Mac 上流暢運行,顯著降低記憶體需求,並充分釋放 Apple 神經網路引擎(ANE)的硬體效能。
Replicate 宣布支援 Meta 的開源大語言模型 Llama 2。開發者現在無需自行管理繁雜的 GPU 基礎設施,只需透過 Replicate 提供的 API,用一行程式碼就能在雲端快速呼叫並運行 Llama 2。這大幅降低了開源模型的使用門檻,讓開發者能更輕鬆地將其整合至應用中。
隨著歐盟《AI 法案》進入立法關鍵期,Hugging Face 發表政策倡議,探討法案對開源機器學習(Open ML)的潛在衝擊。文章強調開源在提升 AI 安全性與透明度上的關鍵作用,呼籲立法者應區分商業部署與非商業研究,避免對開源開發者與託管平台施加不切實際的合規負擔,以維護歐洲的創新活力。
本指南為開發者與 AI 愛好者提供在各種平台上本地運行 Llama 2 的實用方法。內容涵蓋適合 Mac 用戶的 Ollama、跨平台的 llama.cpp、圖形介面的 LM Studio,以及能在手機上運行 Llama 2 的 MLC LLM。透過這些工具,使用者無需依賴雲端 API 即可保護隱私並降低成本。
Replicate 宣布支援 Llama 2(包含 7B、13B 與 70B)的微調服務。開發者只需準備 JSONL 格式的訓練資料,即可透過 Replicate API 在 A100 GPU 上進行高效訓練。微調完成後,模型會自動部署為私有的 API 端點,方便直接整合至應用程式中,大幅降低了開源大模型微調與部署的門檻。
Hugging Face 慶祝旗下核心開源庫 Diffusers 推出一週年。在過去一年中,Diffusers 憑藉直覺的 API 設計,成功降低了 Stable Diffusion 等擴散模型的技術門檻。該庫不僅支援了 ControlNet、LoRA 等多種前沿技術,還透過記憶體優化與硬體加速,讓生成式 AI 走入消費級硬體,成為開源 AI 生態系中不可或缺的基石。
Meta 推出新一代開源大語言模型 Llama 2(包含 7B、13B、70B 參數版本)後,在 AI 社群引發連鎖反應。Replicate 在第一時間託管了這些模型並提供 API 服務。本文彙整了發布後 24 小時內,包含雲端部署、API 呼叫及社群生態的最新進展,展現開源 AI 領域的驚人迭代速度。
Meta 正式發布開源大型語言模型 Llama 2,包含 7B、13B 和 70B 三種參數規模,並允許商用。Hugging Face 與 Meta 深度合作,第一時間在 Hub 上架所有 Llama 2 模型,並全面支援 Transformers、TGI、PEFT 等工具。開發者可以直接在 Hugging Face 平台上進行 Llama 2 的推論、微調(Fine-tuning)與部署,並透過 Spaces 體驗 Chat 版本。
本文系統性介紹 Hugging Face 的開源 LLM 生態系。核心組件包括用於模型載入與推理的 Transformers、實現高效微調的 PEFT、專為高並發部署設計的 Text Generation Inference (TGI),以及支援對齊演算法(如 SFT、DPO)的 TRL。透過這些工具的協同效應,開發者可以低成本、高效地完成從模型選型、微調到生產線部署的全流程。
Hugging Face 分享了建立「AI WebTV」的實戰指南。該專案整合了多種開源 AI 技術:利用 LLM 自動生成劇本、透過 Stable Diffusion 產生視覺畫面,並結合 TTS 語音合成技術。最後,利用 FFmpeg 將這些素材即時融合成影片串流,部署於 Hugging Face Spaces 並可同步直播至 Twitch 等平台,展示了多模態 AI 工作流的強大整合能力。
Hugging Face 介紹了如何在 Intel CPU 上微調 Stable Diffusion。透過 Intel Extension for PyTorch (IPEX) 與 Optimum Intel 庫,開發者可利用第四代 Xeon 處理器的 AMX 技術進行 BF16 混合精度訓練。這為缺乏 GPU 資源或想利用現有 CPU 伺服器的團隊,提供了一個高性價比的微調方案。
本文探討如何使用 Hugging Face 的 Transformers.js 庫,直接在瀏覽器中運行機器學習模型來開發網頁遊戲。透過 ONNX Runtime Web 與 WebGPU 加速,開發者能實現語音控制、智慧 NPC 對話及視覺辨識等功能。這種客戶端運算模式不僅能實現零伺服器成本,還能保障玩家隱私並降低網路延遲。