Hugging Face 釋出全新開源影片資料集「FineVideo」的幕後製作過程。為了解決高品質影片數據稀缺的問題,該項目收錄了超過 4.3 萬部影片(約 3,400 小時),並提供高達 120 萬個詳細的影片與文字配對。文章深入探討了其自動化清理、場景分割與多模態模型標註的管線(Pipeline)設計,旨在為社群提供訓練下一代影片理解與生成模型(Video-LLM)的標準基石。
Hugging Face 的 Daily Papers 頁面已成為 AI 社群追蹤最新研究的重要樞紐。本文介紹該功能如何運作,包含每日精選論文、社群討論機制,以及如何將論文與 Hugging Face 上的模型、數據集和 Spaces 進行連結。這對於想要緊跟 AI 前沿技術的開發者與研究人員來說,是不可或缺的工具。
Hugging Face 宣布在 HuggingChat 中推出「社群工具 (Community Tools)」功能。這項更新讓 HuggingChat 上的開源模型(如 Llama 3.1、Command R+)能夠調用由社群開發的各種工具,例如圖像生成、網頁抓取、計算機等。開發者可以使用 Python 輕鬆建立並分享工具,使開源 AI 助理具備更強大的 Agent 實用能力。
Hugging Face 官方部落格盤點了 5 個被低估的「幕後英雄」工具。這些工具能解決開發者在處理 AI 模型與資料集時的痛點,包括支援多線程與斷點續傳的 huggingface-cli、免費測試 15 萬個模型的 Serverless 推論 API、免下載即可用 SQL 查詢的 Dataset Viewer、完全在瀏覽器運行的 Gradio-lite,以及兼顧安全與極速載入的 safetensors 格式。這些工具能顯著優化 AI 開發工作流。
Replicate Intelligence 第 9 期彙整了近期三大 AI 技術突破。首先是 Black Forest Labs 推出的開源影像生成模型 FLUX.1,其品質直逼 Midjourney v6;其次是 Meta 釋出的 SAM 2,將物件分割技術從靜態圖片延伸至動態影片;最後是 fast.ai 創辦人 Jeremy Howard 推出專為快速開發設計的全新 Python 網頁框架 FastHTML。
由 Stable Diffusion 核心團隊創立的 Black Forest Labs 發表了全新文字生成圖片模型 FLUX.1。該模型擁有 120 億參數,在文字渲染、細節描繪與指令遵循上皆超越現有開源模型。Replicate 已同步上架 FLUX.1 的 schnell、dev 與 pro 三種版本,開發者可直接透過 API 進行整合與部署。
Replicate 發布第 8 期技術情報。本次更新重點包括:全面支援 Meta 最新發布的頂級開源模型 Llama 3.1(包含 405B 旗艦模型);推出全新的安全分類器(如 Llama Guard 3),協助開發者過濾有害內容;以及正式開放「模型搜尋 API」,讓開發者能透過程式碼輕鬆檢索與篩選 Replicate 上的數萬個 AI 模型。
Meta 正式發布 Llama 3.1 系列,包含 8B、70B 及首款能與頂級閉源模型媲美的 405B 旗艦模型。此版本將上下文視窗大幅提升至 128k,並增強了多語言能力。Hugging Face 同步推出完整生態系支援,涵蓋 Transformers 整合、TGI 推論優化、TRL 微調以及 FP8 量化,降低 405B 的部署門檻。
Hugging Face 發表全新小語言模型家族 SmolLM,提供 135M、360M 和 1.7B 三種參數規格,專為本地端與行動裝置部署設計。該系列模型在高品質的教育與程式數據集(如 Cosmopedia v2 和 FineWeb-Edu)上進行訓練,效能超越同量級的 MobileLLM 和 Qwen2-0.5B。SmolLM 採 Apache 2.0 開源授權,並同步開源其訓練數據與配方,為邊緣運算與隱私優先的 AI 應用提供極佳選擇。
Hugging Face 宣布為其平台上的 15 萬多個資料集推出全新的搜尋與篩選功能。用戶現在可以透過任務類型、授權條款(如商業用途)、資料集大小(列數或檔案大小)以及語言等多重維度進行精準篩選。這項更新大幅優化了開發者與研究人員尋找特定機器學習訓練數據的效率。
Google 聯合 Hugging Face 推出新一代開源模型 Gemma 2,提供 9B 與 27B 兩種參數規格。27B 版本在同量級中表現極為優異,甚至能與體積兩倍大的模型競爭;9B 版本也超越了 Llama 3 8B。此系列模型採用知識蒸餾與混合注意力機制,並已在 Hugging Face 生態系中獲得全面支援。
Replicate 發布最新技術情報,重點介紹在平台上架的超強開源程式碼模型 DeepSeek-Coder-V2,其性能在多項指標上超越 GPT-4 Turbo。此外,文章探討了 AI 搜尋技術的最新突破,以及 Replicate 如何利用自身平台技術構建 Discord 社群專用的自動化客服支援機器人,展示了開源 AI 在實際開發與社群營運中的強大應用潛力。
Hugging Face 發表「Data Is Better Together (DIBT)」計劃的階段性回顧與展望。該計劃旨在透過社群協作,解決高品質開源對齊數據不足的痛點。過去一年中,DIBT 透過 Argilla 等工具成功匯聚全球開發者,共同標註與生成了多個高質量的偏好與提示詞數據集。未來,該計劃將進一步擴展任務類型,推動更具包容性與去中心化的 AI 數據生態。
知名簡報平台 Prezi 為了在產品中導入多模態 AI 功能,與 Hugging Face 展開深度合作。透過利用 Hugging Face Hub 的開源模型生態系,並加入「專家支持計畫(Expert Support Program)」,Prezi 獲得了 HF 頂尖工程師的直接技術指導。這項合作不僅解決了模型微調與推理優化的技術瓶頸,更大幅縮短了其機器學習路線圖的時程,實現高效的多模態功能落地。
Hugging Face 聯合 Cubzh 與 Gigax 推出「NPC-Playground」3D 互動沙盒。該平台利用開源的大型語言模型(LLM)賦予 NPC 記憶、感知與決策能力,使其不僅能與玩家對話,還能在 3D 空間中執行撿拾、移動等實體動作。這項開源合作展示了 AI Agent 在遊戲領域的全新應用可能。
阿布達比技術創新研究所(TII)推出全新開源模型 Falcon 2 11B,包含預訓練語言模型與視覺語言模型(VLM)。該模型在超過 5 兆(5000B)Token 的高質量數據上進行訓練,支援 11 種語言。其性能在同量級模型中表現亮眼,並採用 Apache 2.0 授權,對開源社群與開發者極具吸引力。
Hugging Face 與 LangChain 宣布推出全新的官方合作夥伴套件 langchain-huggingface。此套件旨在簡化開源模型與 LangChain 生態系的整合,提供更穩定、高效的連接方式。開發者現在可以透過統一的 API,輕鬆調用 Hugging Face 上的嵌入模型、本地 Pipeline 以及託管端點,大幅提升開發效率。
Hugging Face 推出 Transformers Agents 2.0,對其 Agent 框架進行了全面重構。新版本主打兩大核心 Agent:能直接撰寫並執行 Python 程式碼的 CodeAgent,以及基於 ReAct 思考循環的 ReactAgent。此版本大幅簡化了工具(Tools)的自訂與分享機制,並支援多種開源與商業 LLM,為開發者提供更靈活、強大的 Agent 開發體驗。
Hugging Face 與 BigCode 社群推出 StarCoder2-Instruct-15B。該模型最大特色在於採用「完全透明」與「寬鬆授權」的自我對齊流程。傳統指令模型常依賴 GPT-4 生成數據導致商用受限,而 StarCoder2-Instruct 完全使用開源模型自身生成數據進行訓練,在確保商用合規的同時,於 HumanEval 等基準測試中展現優異性能。
Hugging Face 發表通用型代理人 JAT(Jack of All Trades),採用統一的 Transformer 架構,在 Atari、BabyAI、Meta-World 等多種強化學習環境與文字任務上進行聯合訓練。此研究展示了單一模型如何同時掌握多種不同領域的技能,並開源了數據集與模型權重,推動具身智能發展。
Meta 正式推出全新一代開源大型語言模型 Llama 3,首波釋出 8B 與 70B 兩種參數版本。此版本採用 128k 詞彙量的新分詞器、支援 8K 上下文長度,並在超過 15 兆 Token 的超大資料集上進行訓練,程式碼與推理能力皆有飛躍性提升。Hugging Face 生態系已在第一時間全面整合,支援 Llama 3 的部署、微調與推論,為開源 AI 社群注入強大動力。
生醫 AI 平台 Ryght 宣布與 Hugging Face 專家支援團隊合作。面對醫療領域嚴格的 HIPAA 合規性、複雜的醫學術語與高昂的模型微調成本,Ryght 透過 Hugging Face 的技術指導,優化了開源模型的微調與推理效率。此合作成功讓 Ryght 快速推出專為臨床研究與數據分析設計的安全 AI 助理,大幅降低運算成本並縮短產品上市時間。
Hugging Face 宣布與 Google Cloud 合作,將其平台上數千個開源大語言模型(LLM)整合至 Vertex AI Model Garden。開發者現在無需複雜的設定,即可直接在 Google Cloud 環境中一鍵部署、微調及管理這些開源模型。此舉大幅降低了企業在雲端部署開源 AI 模型的門檻,並提升了運算資源的利用效率。
Google 官方正式發布 CodeGemma 程式碼模型系列,基於 Gemma 架構。提供專攻 IDE 程式碼補全(Fill-in-the-Middle)的 2B 版本,以及適合程式碼生成與對話的 7B 版本。該系列模型已深度整合至 Hugging Face 生態系,支援多種主流程式語言,為開發者提供高效且可本地運行的開源 AI 助手選擇。
Hugging Face 宣布其公共政策(Public Policy)倡議,旨在橋接 AI 社群與全球政策制定者。他們強調開源 AI 對於安全性、市場競爭與創新至關重要。未來將持續參與歐盟 AI 法案、美國行政命令等政策討論,確保開源開發者的聲音被聽見,避免過度監管扼殺創新。
Pollen-Vision 是一個專為機器人設計的開源視覺庫,旨在簡化 Zero-Shot(零樣本)視覺模型(如 OWL-ViT、SAM 等)的整合。它提供統一的 API,讓機器人無需重新訓練即可透過自然語言或點擊來識別與定位物體。此工具能顯著降低機器人視覺開發的門檻,加速具身智能(Embodied AI)的應用落地。
本指南是 Hugging Face 專為零基礎新手撰寫的 Transformers 入門教學。文章深入淺出地介紹了 Hugging Face Hub 的生態系,並透過最簡單的 pipeline API 示範如何進行情感分析、文本生成等任務。讀者無需深厚的機器學習背景,即可快速學會如何載入並運行開源 AI 模型。
Hugging Face 宣布與開源數據標註平台 Argilla 深度整合。使用者現在可以一鍵在 Hugging Face Spaces 上部署 Argilla,邀請社群成員共同進行數據標註、反饋與篩選(如 RLHF/DPO 數據)。這項合作降低了社群協作建構高品質數據集的門檻,有助於推動開源 AI 模型的對齊與優化。
由 Hugging Face 與 ServiceNow 主導的 BigCode 社群,聯合 NVIDIA 正式發布了新一代開源程式碼大語言模型 StarCoder2。該系列提供 3B、7B 和 15B 三種參數版本,並同步推出全新升級的 The Stack v2 資料集。StarCoder2 支援超過 600 種程式語言,並在程式碼生成、補全與修復等任務上展現出同量級模型中的頂尖性能,持續推動負責任且開放的 AI 開發。
Google 正式推出全新開源模型家族 Gemma,包含 2B 與 7B 兩種參數大小,並提供預訓練與指令微調版本。 Gemma 採用與 Gemini 相同的技術與架構,在多項基準測試中表現優於同尺寸的 Llama 2 與 Mistral。 Hugging Face 已同步支援 Gemma,開發者可直接透過 Transformers、TGI、PEFT 等工具進行部署與微調。