Hugging Face 宣布與騰訊 ARC 實驗室合作,將 T2I-Adapter 引入 Stable Diffusion XL (SDXL)。相較於體積龐大的 ControlNet,T2I-Adapter 僅有約 79M 參數,能在不犧牲生成品質的前提下,大幅降低顯示記憶體(VRAM)佔用並提升推理速度。目前已支援 Canny 邊緣偵測、草圖(Sketch)、深度圖(Depth)等多種控制模式,並已整合至 diffusers 函式庫中。
阿聯酋技術創新研究所(TII)推出全新開源大語言模型 Falcon 180B,擁有 1800 億參數,並在 3.5 兆 Token 的 RefinedWeb 數據集上進行訓練。該模型在 Hugging Face Open LLM 排行榜上名列前茅,性能超越 LLaMA 2 70B,直逼 Google 的 PaLM-2。然而,其龐大的體積也對硬體提出了極高要求,推論至少需要 640GB 顯存(約 8 張 A100 80GB)。
Replicate 宣布對微調模型的「冷啟動(Cold Boot)」進行重大改進。過去部署微調模型需要數分鐘來啟動新容器,現在透過共享基礎模型並動態載入輕量化的 LoRA 權重,冷啟動時間已縮短至一秒以內。這大幅降低了開發者在使用客製化模型時的延遲與成本。
美國知名消費回饋平台 Fetch 每日需處理數百萬張發票收據。為了提升 OCR、商品匹配與商家分類等 NLP 任務的效率,Fetch 採用了 Amazon SageMaker 與 Hugging Face 的整合方案。此舉不僅讓機器學習模型的推理延遲大幅降低 50%,同時也優化了運算成本與部署流程。
Vercel 指出傳統的「一次性大改版」遷移風險極高。透過「漸進式遷移」,開發團隊可以利用 Next.js Rewrites、Edge Middleware 與 Multi-zones 等工具,逐步將流量從舊系統引導至新系統。這種做法能顯著降低部署風險,並確保用戶在整個遷移過程中持續獲得價值。
Hugging Face 釋出 AudioLDM 2 的推理加速指南。透過將模型轉為 float16 半精度、將預設的 200 步調度器替換為僅需 25 步的 DPMSolverMultistepScheduler,並結合 PyTorch 2.0 的 torch.compile 技術,開發者可以將音訊生成速度提升數倍,在 GPU 上實現秒級的文字轉語音與音樂生成。
Hugging Face 官方宣布,為了提升平台安全性,將逐步棄用傳統的 Git 密碼驗證方式。未來用戶在進行 Git 操作(如 clone 或 push)時,必須改用個人存取權杖(PAT)或 SSH 金鑰。此項變更將影響所有託管在 Hugging Face 上的模型、數據集和 Space 倉庫,開發者需盡快更新自動化腳本。
Meta 正式發布專為程式碼任務設計的開源模型 Code Llama,提供 7B、13B 與 34B 三種尺寸,並包含 Python 專用版與指令微調版。該模型支援高達 100k 的上下文視窗,在多項程式碼基準測試中表現優異。Hugging Face 已同步支援該系列模型的推理、部署與微調。
Vercel 舉辦了首屆 AI Accelerator 的 Demo Day,展示了從 2000 多個申請者中脫穎而出的 40 家 AI 新創團隊。這些團隊在為期六週的計劃中,利用 Next.js、Vercel AI SDK 以及合作夥伴(如 OpenAI、Replicate)的資源,開發出涵蓋開發者工具、圖像生成、生產力等領域的創新應用,展現了 AI 應用的快速開發潛力。
Vercel 宣布對其全球邊緣網路與部署基礎設施進行重大升級。新架構採用類似影音串流的「隨選串流(On-demand Streaming)」機制,讓開發者在推送代碼後,新版本能在數秒內在全球節點生效。此更新不僅大幅縮短了部署等待時間,還優化了 Serverless Functions 的冷啟動效能,讓 Web 應用運行更流暢。
Hugging Face 正式將 AutoGPTQ 整合進 transformers 生態系,支援直接載入與運行 4-bit GPTQ 量化模型。此更新大幅降低了 LLM 的 GPU 記憶體門檻(如 70B 模型可在單張消費級 GPU 運行),並提供極佳的推理加速。開發者只需簡單修改程式碼即可啟用,並能無縫使用 Hub 上數千個現成的 GPTQ 模型。
Hugging Face 宣布推出 SafeCoder,這是一套專為企業打造的程式碼寫作助手解決方案。SafeCoder 主打高度隱私與合規性,允許企業在自有的 VPC 或本地環境中部署,並能使用私有程式碼庫進行微調。該方案基於開源的 StarCoder 模型,旨在為企業提供一個可完全掌控、安全且不洩漏敏感資料的 GitHub Copilot 替代方案。
本文回顧了文字生成圖像(Text-to-Image)技術的演進歷程。從早期的 GAN 限制,到 2021 年 VQGAN+CLIP 掀起的社群藝術熱潮,再到 2022 年 DALL-E 2 與 Stable Diffusion 的爆發。隨著 Stable Diffusion 迎來一週年及 SDXL 的推出,開源社群與微調技術正以前所未有的速度重塑視覺創作。
Hugging Face 發表開源多模態視覺語言模型 IDEFICS,旨在重現 DeepMind 閉源模型 Flamingo 的強大功能。該模型基於 LLaMA 與 OpenCLIP 構建,提供 9B 與 80B 兩種參數版本,能同時處理交錯的文本與圖片輸入。IDEFICS 的開源為社群提供了強大的多模態研究基礎,並同步釋出了大規模數據集 OBELICS。
知名音響品牌 Sonos 分享了他們如何利用 Vercel 重新定義前端開發流程。面對過去緩慢的部署與協作瓶頸,Sonos 轉向現代前端堆疊與 Vercel 平台,成功將部署時間從數小時縮短至數分鐘。透過 Vercel 的預覽功能,跨團隊協作效率大幅提升,為開發者創造了極佳的 DevEx。
AI 託管平台 Replicate 宣布重大計費調整:所有公開模型(如 Llama、Stable Diffusion 等)的 API 呼叫價格直接減半(降價 50%)。與此同時,為了平衡伺服器資源成本,未來將開始對新用戶的私有模型(Private Models)在設定(冷啟動)與閒置(Idle)時間進行計費。這項調整旨在降低開源模型使用門檻,同時優化專屬資源的利用率。
數位體驗顧問公司 Konabos 成功協助一家大型產業巨頭進行數位轉型。 透過引進基於 Vercel 的可組合式架構(Composable Stack),取代傳統的單體式系統(Monolithic)。 此舉不僅最佳化了開發流程,更讓團隊的部署速度顯著提升了 50%,展現現代網頁架構的優勢。
Vercel 宣布針對 Shopify 的無頭電商框架 Hydrogen 2(基於 Remix 構建)提供零配置(Zero Configuration)部署支援。開發者現在可以直接將 Hydrogen 2 專案導入 Vercel,系統會自動偵測並完成所有建置與路由設定。這項更新大幅簡化了結合 Shopify 電商後台與 Vercel 邊緣網路(Edge Network)的部署流程。
Replicate 宣布其 API 正式支援伺服器傳送事件(SSE)串流功能。開發者無需等待整個語言模型(LLM)生成完畢,即可即時將文字片段推送到前端。此功能可透過官方 Python 與 JavaScript SDK 輕鬆實現,能有效降低用戶感知的延遲,打造更流暢的 AI 互動體驗。
本指南由 Replicate 團隊撰寫,深入解析 Llama 2 的官方提示詞(Prompt)格式。文章詳細說明了如何使用 `[INST]`、`<<SYS>>` 等特殊標記來結構化系統提示詞與用戶指令。遵循此標準模板能有效避免模型輸出混亂或不聽從指令的問題,是開發者部署與微調 Llama 2 的必讀基礎教學。
Hugging Face 宣布其 Hub 服務正式登陸 AWS Marketplace。企業客戶現在可以直接使用現有的 AWS 帳戶訂閱與支付 Hugging Face 的服務(如 Enterprise Hub)。這項合作簡化了企業的採購與財務審批流程,並允許企業利用現有的 AWS 承諾消費(Commitments)來抵扣 Hugging Face 的費用,加速企業級 AI 應用的落地。
搜尋引擎服務商 Algolia 分享了他們在 Vercel 上的優化實踐。透過導入 Next.js 的增量靜態生成(ISR)技術,Algolia 成功解決了因頁面過多導致建置時間過長的問題。這項技術讓他們無需在每次更新時重新編譯整個網站,最終將整體建置時間縮短了 50%,大幅提升了開發與部署效率。
Bark 是 Suno 推出基於 Transformer 的文字轉語音(TTS)與音訊生成模型。由於其包含多個子模型,推理時極耗資源。本文詳細說明如何透過 Hugging Face Transformers 整合的優化技術,包括啟用半精度(fp16)、智慧 CPU 卸載(CPU Offloading)、PyTorch 2.0 的 SDPA(縮放點積注意力)以及 `torch.compile`,在不犧牲音質的前提下,將 VRAM 佔用降低 50% 以上,並顯著提升生成速度。
本教學介紹如何利用開源模型部署框架 BentoML,將 Hugging Face 上的 DeepFloyd IF 影像生成模型轉化為生產級 API。文章詳細解析了 DeepFloyd IF 的多階段(Stage I/II/III)架構,並展示如何透過 BentoML 的 Runner 機制優化 GPU 資源分配。最後提供完整的程式碼範例與部署步驟,幫助開發者快速將複雜的擴散模型推向雲端生產環境。
Hugging Face 釋出實用教學,介紹如何利用 TRL(Transformer Reinforcement Learning)庫中的 DPOTrainer,以「直接偏好優化(DPO)」技術微調 Llama 2。DPO 是一種替代傳統 RLHF 的新穎方法,它不需要訓練獨立的獎勵模型,也不需要複雜的 PPO 強化學習階段,僅需透過人類偏好數據(滿意與不滿意的回答對)即可直接優化模型,大幅降低了對齊(Alignment)的門檻與運算資源。
AI 雲端託管平台 Replicate 宣布為 SDXL 1.0 推出微調(Fine-tuning)功能,支援 Dreambooth、Textual Inversion 和 LoRA 等技術。開發者與創作者現在可以透過 Replicate API,僅需一行程式碼就能上傳自己的圖片並訓練出客製化的 SDXL 模型,大幅降低了客製化圖像生成模型的技術門檻與算力維護成本。
Hugging Face 宣布推出全新開源 Swift 套件 `swift-transformers`,旨在簡化在 Apple 裝置(iOS、macOS)上部署與運行本地端大型語言模型(LLM)的流程。該套件支援 Tokenization 與模型推理,並能與 Apple 的 Core ML 框架緊密結合,充分發揮 Apple Silicon 的硬體加速優勢,為行動端應用帶來更隱私、低延遲的 AI 體驗。
Vercel 正式發布 Next.js Commerce 2.0。此版本完全基於 Next.js 13 的 App Router 與 React Server Components (RSC) 重新設計,移除了過去複雜的多後台抽象層,轉而提供更輕量、更好維護的架構。首波深度整合 Shopify,旨在為開發者提供具備極致效能、優秀 SEO 與流暢使用者體驗的現代電商範本。
本文介紹如何利用 Hugging Face Inference Endpoints 託管服務,在幾分鐘內將 Meta 的開源音樂生成模型 MusicGen 部署為生產級 API。使用者無需自行管理複雜的 GPU 基礎設施,只需選擇模型與硬體規格,即可一鍵生成專屬的 API 端點,並透過簡單的 HTTP 請求實現文字生成音樂的功能。
Hugging Face 與密碼學安全公司 Zama 合作,發表了利用全同態加密(FHE)運行大語言模型(LLM)的技術方案。該技術允許用戶將加密的 Prompt 發送到雲端,雲端模型在完全不解密的情況下進行推論並返回加密結果,確保數據隱私。雖然目前面臨運算延遲高與需要極低位元量化等挑戰,但這為金融與醫療等高隱私需求領域開闢了全新可能。