Hugging Face 宣布與 Cohere 合作,將其納入「推論提供商(Inference Providers)」生態系。現在開發者可以直接在 Hugging Face Hub 上,透過 Cohere 的託管服務免伺服器(Serverless)調用 Command R 和 Command R+ 等熱門模型。這項整合簡化了開發流程,讓用戶無需自行部署即可在 HF 生態系中無縫測試與整合 Cohere 的強大語言模型。
知名 AI 圖像技術 Easel AI 正式將其進階換臉(Face Swap)與 AI 頭像(Avatar)生成模型上架至 Replicate 平台。開發者現在可以直接透過 Replicate 的雲端 API 調用這些高品質模型,無需自行維護 GPU 基礎設施,大幅降低了將人臉編輯技術整合至應用程式的門檻。
巴塞隆納超級電腦中心(BSC-LT)正式發布 Visual Salamandra 7B 多模態模型。該模型以其自主研發的 Salamandra 7B 語言模型為基礎,融合了先進的視覺編碼器,旨在提升圖像理解、視覺問答及 OCR 能力。特別的是,它承襲了 Salamandra 家族在西班牙語、加泰隆尼亞語等多語言環境下的優異表現,為開源多模態社群注入新選擇。
NVIDIA 在 GTC 2025 針對實體 AI(Physical AI)領域發表重大更新,與 Hugging Face 合作釋出全新開源模型與資料集。這些資源旨在降低具身智慧與機器人開發門檻,涵蓋世界模型、VLA 模型及高質量訓練資料。開發者可直接在 Hugging Face 平台獲取,加速實體世界 AI 應用的落地。
Hugging Face 發表開源推理模型專案 Open R1 的第三次技術更新。本次更新重點在於釋出基於 Qwen/Llama 的全新推理模型,並詳細公開了使用 TRL 進行 GRPO(群體相對策略優化)的訓練細節。團隊成功解決了訓練中的「獎勵黑客」問題,並開源了完整的訓練數據集與配方,顯著降低了社群重現 DeepSeek-R1 推理能力的門檻。
Hugging Face 推出全新教學,指導開發者如何利用 React Native 在 iOS 與 Android 手機上進行邊緣端(Edge)LLM 本地推理。文章介紹了如何整合輕量化模型(如 Qwen 或 Phi)與移動端推理引擎,幫助開發者打造具備高隱私、低延遲且支援離線使用的行動 App。
Replicate 團隊針對阿里巴巴最新開源的 Wan2.1 影片生成模型進行了深入的「參數掃描(Parameter Sweep)」測試。文章探討了調整各項參數(如 Guidance Scale、推理步數、Sample Shift 等)對最終影片生成品質、連貫性與風格的具體影響。這份實用指南能幫助開發者與創作者在 Replicate 平台上部署與調優 Wan2.1 時,找到最佳的效能與品質平衡點。
Cohere For AI 發表全新開源多語言多模態模型「Aya Vision」(提供 8B 與 32B 版本)。該模型旨在解決現有視覺語言模型(VLM)嚴重偏向英語的問題,大幅提升了對全球多種語言(特別是低資源語言)的圖像理解與文字生成能力。在多項多語言多模態基準測試中,Aya Vision 展現出超越同量級開源模型的優異性能,並已於 Hugging Face 平台上開源。
Hugging Face 發表專文探討大規模文本分類的實踐。在 LLM 時代,許多開發者盲目使用 GPT-4 等生成式大模型進行分類,導致成本高昂且延遲高。文章展示了如何利用 ModernBERT、DeBERTa 等開源編碼器模型,搭配 Rust 編寫的 TEI (Text Embeddings Inference) 引擎,在極低成本下於短時間內完成 10 億次分類。這種方法不僅能將延遲壓低至個位數毫秒,成本更比使用 LLM API 降低高達 90% 以上,為工業級數據處理提供高效示範。
Vercel 發表專文探討 AI 網頁生成工具 v0 如何橋接設計與開發。v0 支援將設計截圖或 Figma 概念直接轉化為基於 React、Tailwind CSS 與 shadcn/ui 的前端程式碼。這不僅加速了原型製作,更讓設計師與工程師能用同一套「程式碼即設計」的語言協作,大幅減少傳統設計交付的溝通成本。
Hugging Face 官方宣布重構其 `huggingface_hub` SDK 的傳輸架構。新架構從傳統的「分塊(Chunks)」改為「區塊(Blocks)」管理,支援並行傳輸、獨立區塊重試與更低的記憶體佔用。這項更新顯著提升了數 GB 甚至數百 GB 級模型(如 Safetensors)與數據集的上傳與下載速度,並增強了網路不穩定時的容錯能力。
Hugging Face 釋出 Open R1 專案的第二份進度報告。團隊分享了使用 TRL 庫中的 GRPO 演算法在 Llama-8B 與 Qwen-32B 上進行強化學習(RL)訓練的實戰經驗,成功重現了「頓悟時刻」與推理鏈。本次更新也詳細探討了格式控制、訓練穩定性及在 MATH、AIME 等基準測試上的最新評估數據。
機器人 AI 新創公司 Physical Intelligence 在 Hugging Face 上開源了其通用機器人基礎模型 π0 及其加速版本 π0-FAST。這款視覺-語言-動作(VLA)模型能透過文字與視覺指令控制多種不同硬體的機器人,執行摺衣服、收拾雜物等複雜任務。π0-FAST 則大幅提升了推理速度,滿足高頻率實時控制的需求,為開源實體 AI 領域帶來重大突破。
Hugging Face 發表 Open-R1 專案的第一階段更新,旨在完全開源重現 DeepSeek-R1。團隊目前專注於利用 TRL 庫中的 GRPO 演算法進行強化學習訓練,並已釋出初步的訓練配方、資料集與評估結果。報告中也探討了推理模型訓練中常見的「獎勵作弊(Reward Hacking)」與格式控制等技術挑戰。
本文為 Hugging Face 釋出的實用指南,詳細介紹如何在 AWS 環境中部署與微調熱門的 DeepSeek-R1 及其蒸餾(Distilled)模型。內容涵蓋使用 Hugging Face LLM DLC(深度學習容器)與 TGI 技術在 Amazon SageMaker 上進行低延遲推論部署,以及如何透過 SageMaker 訓練作業與 Hugging Face TRL 庫進行高效微調(如 LoRA),並提供針對不同模型大小的 AWS 硬體配置建議。
Vercel 發表了如何在 AI 網頁生成工具 v0 中使用 Figma 與自訂設計系統(Design Systems)的指南。開發者與設計師現在可以將自訂的 Tailwind 設定、品牌色彩及組件規範導入 v0,使其生成的 React 程式碼完全符合既有的設計規範,大幅縮短從 Figma 設計稿到前端實作的距離。
本文回顧了 Hugging Face Diffusers 函式庫中開源影片生成模型的最新進展。隨著技術從 UNet 轉向 Diffusion Transformers (DiTs),如 CogVideoX、Mochi 1、LTX-Video 及 HunyuanVideo 等模型已全面整合。文章重點介紹了如何透過 CPU 卸載、FP8 量化與 Tiled VAE 等技術,在消費級 GPU 上高效運行這些動輒數十億參數的影片生成模型。
Hugging Face 宣布 Sentence Transformers 支援訓練「靜態嵌入(Static Embeddings)」模型。相較於傳統 Transformer 模型,靜態嵌入不需逐層計算,訓練速度快上 400 倍,且推理速度極快、記憶體佔用極小。這項技術非常適合用於資源受限的設備(如手機、邊緣裝置)或作為大規模檢索(RAG)的第一階段粗篩。
Vercel 宣布其 AI 輔助 UI 開發工具 v0 迎來全新變革。本次更新將 v0 從原本的「單一元件生成器」升級為支援多檔案、具備路由與狀態管理的「完整專案(Projects)」開發平台。此外,新加入的「自訂指令(Custom Instructions)」與團隊協作功能,讓開發者與團隊能更無縫地將 AI 融入現有的工作流與設計規範中。
Hugging Face 發表全新的 VDR-2B-multilingual 模型,專為視覺文件檢索(VDR)設計。傳統檢索依賴繁瑣的 OCR 步驟,而該模型能直接將文件頁面視為圖像進行向量化,保留排版、圖表與插圖資訊。本次更新重點在於擴展至多語言支持(包含中英日韓等),大幅提升跨國企業與多語系文檔的檢索效率與準確度。
Vercel 宣布為 Next.js 官方文件推出 AI 增強搜尋。開發者現在能用自然語言提問,系統將直接生成精準解答與程式碼範例,並能智慧區分 App 與 Pages Router 架構。此更新大幅縮短了開發者查閱 API 與排查錯誤的時間,顯著提升開發體驗。
Hugging Face 與 LightOn 等團隊聯合推出 ModernBERT,旨在取代已問世 6 年但仍被廣泛使用的 BERT 模型。ModernBERT 採用現代化架構,將上下文長度從 512 提升至 8192 標記,並原生支援 FlashAttention-2 與 RoPE。在保持極高推理速度與低記憶體佔用的同時,其在檢索、分類與嵌入等任務上的表現全面超越 DeBERTa-v3,為 RAG 與搜尋系統注入全新動力。
隨著 AI 搜尋與 LLM 的普及,AI 爬蟲(如 GPTBot、ClaudeBot)的流量在 2024 年呈現爆發式成長。這不僅帶來了伺服器成本上升與資料被無償抓取的隱憂,也改變了傳統的 SEO 遊戲規則。Vercel 在本文中深入分析了這股趨勢,並分享開發者如何透過 robots.txt、Vercel 防火牆與 Edge Middleware 來有效監控、限制或阻擋這些 AI 爬蟲,在保護網站資產與獲取 AI 搜尋曝光之間取得平衡。
Replicate 指出,AI 影片生成領域正經歷類似當年 Stable Diffusion 顛覆圖像生成的「開源時刻」。 目前市場上已出現多款效果足以媲美 OpenAI Sora 的開源影片生成模型。 這意味著開發者與創作者不再受限於封閉的 API,能以更低成本、更高自由度在本地或雲端部署高品質影片生成。
Hugging Face 宣布推出「LeMaterial」開源倡議,旨在降低材料科學領域的 AI 應用門檻。該項目整合了大規模材料數據集、先進的機器學習模型(如圖神經網路 GNN)以及標準化的評估基準。透過將這些資源託管於 Hugging Face 平台,LeMaterial 將促進全球研究人員協作,大幅縮短新材料的研發週期。
Vercel 宣布與 AWS 達成合作,旨在為前端開發者提供更流暢的 AI 開發體驗。 雙方將 Amazon Bedrock 的模型庫與 Vercel AI SDK 進行深度整合,支援 Claude、Llama 等多款熱門模型。 此合作讓開發者能結合 AWS 的企業級安全基礎設施與 Vercel 的極致開發體驗,快速構建並擴展 AI 網頁應用。
Hugging Face 發表全新的儲存優化方案,將傳統的檔案級儲存(如 Git LFS)轉型為「分塊儲存(Chunk-based Storage)」。透過內容定義分塊(CDC)與內容定址儲存(CAS)技術,Hub 能跨儲存庫進行資料去重。這對於微調(Fine-tune)與合併(Merge)模型的儲存能節省極大空間,並顯著加快上傳與下載速度。
Next.js Conf 2024 圓滿落幕,本次大會的核心焦點為 Next.js 15 的正式發布(GA)。新版本全面支援 React 19,並將 Turbopack 開發模式調整為穩定版,大幅提升編譯速度。此外,Next.js 15 調整了預設快取行為(改為預設不快取),並推出全新 <Form> 元件與更安全的 Server Actions。Vercel 亦展示了 AI 輔助開發工具 v0 的最新進展,進一步簡化全端應用的開發流程。
Vercel 發表專文介紹其 AI 輔助工具 v0 的最新演進。v0 已不僅能生成美觀的 React、Tailwind CSS 與 shadcn/ui 元件,更能進一步撰寫複雜的業務邏輯、狀態管理與 API 串接程式碼。開發者與設計師可透過對話介面持續迭代、即時預覽,並利用 CLI 工具一鍵將程式碼無縫整合至本地專案,大幅縮短從設計概念到生產環境的開發週期。
Google 與 Hugging Face 宣布將 SynthID Text 技術整合至 Transformers 庫中。這項技術能在不影響文本生成品質的前提下,於 LLM 輸出的機率分佈中嵌入隱形浮水印。開發者現在可以輕鬆在自己的模型中啟用此功能,以識別和追蹤 AI 生成的文本,應對虛假訊息與版權爭議。