Ars Technica reports that Hugging Face has introduced a roughly $2,500 bipedal humanoid robot project built around 3D-printable legs. The effort targets builders and researchers rather than mainstream consumers, lowering the hardware barrier for hands-on robotics experiments. Its broader significance is in open, reproducible embodied AI research, where models and control systems need physical platforms for testing.
知名 AI 專家 Nathan Lambert 分享了近期四大專案:專注於對齊與開源模型的「ATOM Report」、系統化的「Post-Training(後訓練)」線上實戰課程、即將完稿的 AI 對齊專業書籍,以及持續進行的 LLM 評估與偏好微調研究。這些計畫旨在為開發者與研究人員填補後訓練技術的知識鴻溝。
Hugging Face 發表 Waypoint-1.5,這是一款專為消費級 GPU 優化的互動式世界模擬器。相較於前代,它在提升視覺與物理保真度的同時,大幅降低了硬體門檻。這讓研究人員與開發者能在單張家用顯示卡上,高效進行具身智能(Embodied AI)與強化學習代理的訓練,加速 AI 與物理世界互動的研究。
Hugging Face 深入解析 Transformer 中的混合專家模型 (MoE) 架構。MoE 透過稀疏門控網路將 Token 分流至特定「專家」FFN,實現「高總參數、低計算量」的優勢。本文探討其核心組件、訓練與推理挑戰(如 VRAM 佔用與路由失衡),是理解 Mixtral 與 DeepSeek 等主流模型的必讀指南。
Hugging Face 宣布與極速微調工具 Unsloth 合作,推出免費的 AI 模型訓練方案。使用者可以透過 Hugging Face Jobs 平台,直接在雲端免費運行 Unsloth 的高效微調任務。這項合作大幅降低了個人開發者與研究人員微調 Llama 3、Gemma 等開源大模型的門檻與成本。
Hugging Face 釋出最新消息,指出 Codex 正在開源其 AI 模型。此舉結合了 Hugging Face 的開源生態與 Codex 在技能培訓(Skills Training)領域的專長,旨在為全球開發者、學生及研究人員提供更具可及性的 AI 工具,進一步推動 AI 實作技能的普及與教育發展。
Hugging Face 介紹了與 Intel 合作的 DeepMath 專案,這是一個基於 smolagents 輕量級框架構建的數學推理 Agent。傳統 LLM 在數學計算上容易出錯,而 DeepMath 採用「Code Agent」機制,讓輕量級開源模型透過撰寫並執行 Python 程式碼來解答複雜數學題。此方案不僅降低了算力門檻,還能在 Intel 硬體上實現高效能的本地端推理。
AMD 與 Hugging Face 攜手推出「AMD Open Robotics Hackathon」,旨在推動開源機器人與實體 AI(Embodied AI)技術的發展。參賽者將利用 Hugging Face 的 LeRobot 開源機器人框架,並結合 AMD 的強大運算平台(如 ROCm、Ryzen AI 或 Kria 開發套件)來開發創新的機器人應用。活動提供豐富的硬體與獎金回饋,是機器人開發者與 AI 研究人員展身手的絕佳機會。
Hugging Face 發表最新指南,展示如何利用 Model Context Protocol (MCP) 將 AI 模型與學術研究工具無縫串接。文章介紹了如何建立 MCP 伺服器來連接 arXiv、Semantic Scholar 及 Zotero 等文獻資料庫,讓 AI 能夠直接檢索、閱讀並整理最新學術論文。這項技術不僅能大幅降低 AI 的幻覺,還能自動化文獻回顧與資料分析流程,是科研人員與開發者構建智慧學術助理的實用指南。
Hugging Face 與阿聯酋技術創新研究所(TII)聯合宣布 NeurIPS 2025 E2LM 競賽。該競賽聚焦於大語言模型(LLM)的「早期訓練評估」,旨在尋找能在訓練初期(僅消耗少數算力或數據時)即準確預測模型最終表現的方法。這將有助於大幅降低 LLM 研發的算力成本與時間,推動更高效、環保的 AI 開發流程。
本教學深入探討大語言模型推理加速的核心技術——KV Cache。文章以輕量級視覺語言模型 nanoVLM 為基礎,從原理出發,逐步引導讀者用 PyTorch 從頭實作 KV Cache。內容涵蓋 Prefill 與 Decode 階段的快取處理,並特別解析了多模態情境下視覺 Token 的快取優化,是理解 Transformer 推理底層邏輯的極佳教材。
Hugging Face 發表了 nanoVLM 專案,旨在提供一個最簡單、無冗餘程式碼的純 PyTorch 框架,讓開發者與研究人員能輕鬆理解並動手訓練自己的視覺語言模型(VLM)。該專案仿照 nanoGPT 的極簡風格,去除了複雜的封裝,完整展示了從圖像編碼器、投影層到語言模型的整合與訓練流程,是學習與實驗 VLM 的絕佳起點。
Hugging Face 與 Kaggle 展開全新整合,優化數據科學家在 Kaggle 環境中調用模型的體驗。此更新簡化了身份驗證流程,讓用戶能更輕鬆地存取受限模型(如 Llama 或 Gemma),並提升了模型下載速度與工作流順暢度,讓開發者能更專注於模型微調與競賽。
Hugging Face 宣布將其廣受歡迎的經典「NLP 課程(NLP Course)」正式轉型並升級為「LLM 課程(LLM Course)」。這項轉變反映了 AI 領域從傳統 NLP(如 BERT、分類與命名實體識別)向大語言模型(如 Llama、生成式 AI、RAG 與 Agent)的典範轉移。新課程將全面更新,涵蓋現代 LLM 架構、微調(PEFT/LoRA)、對齊(RLHF/DPO)及應用開發,繼續提供免費且高品質的開源學習資源。
Hugging Face 宣布啟動 Open-R1 專案,目標是完全重現 DeepSeek-R1 的推理能力。該專案將開源所有訓練配方、資料集與模型權重,並利用 TRL 框架中的 GRPO 演算法進行強化學習。這項計畫將降低開發者構建高效推理模型的門檻,推動開源 AI 社群的推理模型民主化。
Hugging Face 釋出深度科普文章,帶領讀者從零開始設計 Transformer 的位置編碼。文章從傳統絕對位置編碼(APE)的缺陷出發,指出其無法應對長文本外推的痛點,進而引入相對位置編碼(RPE)的概念。最終,透過簡單的複數與 2D 旋轉矩陣,一步步推導出當前主流大模型(如 Llama、Mistral)標配的 RoPE(旋轉位置編碼),證明這項最先進技術其實符合直覺且人人都能推導出來。
Hugging Face 官方發文鼓勵機器學習研究人員將其開源數據集託管至 Hugging Face Hub。透過 Hub 提供的強大工具(如數據集瀏覽器、版本控制與 metadata 標記),研究人員能更輕鬆地推廣其研究成果。此舉旨在降低數據集獲取門檻,進一步推動全球開源 AI 社群的協作與創新。
Google 宣布推出 Gemma 家族新成員:僅有 2.6B 參數但性能強悍的 Gemma 2 2B 輕量模型;專為過濾有害內容設計的安全分類器 ShieldGemma(提供 2B、9B、27B 版本);以及包含逾 400 個稀疏自編碼器的 Gemma Scope,為 AI 領域提供前所未有的模型內部決策「可解釋性」研究工具。
首屆 AI 數學奧林匹亞(AIMO)進步獎由 NuminaMath 奪得,其在私有測試集上取得 29/50 的佳績。該模型基於 DeepSeek-Math-Base 7B,採用獨特的兩階段微調策略:第一階段混合鏈式思考(CoT)與工具整合推理(TIR),第二階段則針對奧林匹亞級難題進行拒絕採樣微調。團隊已將包含 86 萬條數據的 NuminaMath 數據集與模型權重完全開源,為開源 AI 數學推理領域樹立了新里程碑。
Hugging Face 針對其最受歡迎的開源庫 Transformers 進行了官方文件的全面重新設計。為了解決因支援數千個模型、多種框架(PyTorch/TF/JAX)及多模態任務而日益混亂的結構,新版文件採用了更清晰的分類法。這項更新大幅提升了開發者查找 API、教學與概念指南的效率。
Google 發表全新開源視覺語言模型 PaliGemma,結合了 SigLIP 視覺編碼器與 Gemma-2B 語言模型。PaliGemma 具備強大的圖像描述、視覺問答(VQA)、物件偵測與 OCR 能力,並提供多種解析度版本。該模型已深度整合至 Hugging Face 生態系,非常適合開發者進行特定下游任務的微調。
Hugging Face 發布視覺語言模型(VLM)科普指南,詳解其結合圖像編碼器與文字解碼器的架構設計。文章涵蓋了從多模態預訓練到指令微調的完整訓練流程,並介紹了 LLaVA、Idefics 等主流開源模型。此外,也提供了如何使用 Hugging Face transformers 庫進行推理的實用程式碼範例,是理解多模態 AI 的必讀教材。
本指南是 Hugging Face 專為零基礎新手撰寫的 Transformers 入門教學。文章深入淺出地介紹了 Hugging Face Hub 的生態系,並透過最簡單的 pipeline API 示範如何進行情感分析、文本生成等任務。讀者無需深厚的機器學習背景,即可快速學會如何載入並運行開源 AI 模型。
本指南深入解析混合專家模型(MoE)的核心技術。MoE 透過門控網路(Router)將輸入 token 分流至不同的專家網路(FFN),實現「高參數量、低計算量」的優勢。文中探討了 MoE 的歷史、訓練挑戰(如負載均衡與記憶體佔用),以及如何高效部署與微調此類模型。
Replicate 發布了一篇趣味實用的技術教學,展示如何利用網路攝影機(Webcam)捕捉畫面,並透過 LLaVA 或 GPT-4V 等多模態視覺模型分析影像,最後結合 ElevenLabs 的語音合成技術,以經典自然紀錄片主持人大衛·艾登堡(David Attenborough)的口吻與聲音,為你的日常生活進行即時的幽默旁白。
Hugging Face 宣布與 Jupyter 生態系深度整合,推出全新的 Notebooks Hub。用戶現在可以直接在 Hugging Face 上瀏覽、搜尋與託管 Jupyter Notebooks。此外,平台提供一鍵啟動功能,讓開發者能直接將 Notebook 導入 Google Colab、Kaggle 或 Paperspace 等雲端環境,大幅降低了運行與測試開源 AI 模型的門檻。
Hugging Face 發表全新的「AI vs. AI」多智能體競賽系統,結合深度強化學習(DRL)與遊戲環境。開發者可將訓練好的智能體上傳至 Hugging Face Hub,系統會自動安排對戰並以 Elo 評分系統進行即時排名。首波活動以 Unity ML-Agents 的足球遊戲展開,旨在推動多智能體強化學習的社群發展。
Hugging Face 釋出的這篇技術指南,深入探討了視覺語言模型 (VLM) 的核心架構。文章詳細介紹了 VLM 如何結合圖像與文字編碼器,並剖析了對比學習(如 CLIP)、生成式(如 BLIP、GIT)及多模態融合等三大主流預訓練策略。最後,展示了如何利用 Hugging Face Transformers 庫輕鬆調用這些模型,是理解多模態 AI 的必讀經典。
Hugging Face 發布圖形機器學習(Graph ML)入門教學,介紹如何處理非歐幾里得空間的圖形數據。文章涵蓋節點分類、邊界預測與整圖分類三大核心任務,並解釋圖神經網路(GNN)如何透過「訊息傳遞」機制聚合鄰近節點資訊。這項技術在社群網路分析、藥物研發與推薦系統中扮演關鍵角色。
本文為 Hugging Face 撰寫的經典科普指南,深入淺出地解析了「人類回饋強化學習 (RLHF)」的運作機制。RLHF 是讓大型語言模型(如 ChatGPT)符合人類意圖(對齊)的核心技術。文章將其拆解為三個主要階段:預訓練與監督微調(SFT)、訓練獎勵模型(Reward Model),以及透過 PPO 演算法進行強化學習微調,並探討了其挑戰與未來展望。