Hugging Face 推出全新的 NPHardEval 排行榜,旨在透過計算複雜度理論(如 P、NP-Complete、NP-Hard 問題)來嚴格評估大型語言模型(LLM)的邏輯推理與規劃能力。為了解決傳統基準測試容易因訓練數據污染而失效的問題,NPHardEval 採用動態更新機制,定期生成全新測驗。這項工具能幫助研究人員更準確地衡量模型在面對複雜優化問題時的真實推理極限。
Hugging Face 宣佈旗下高效能大語言模型推理框架 Text Generation Inference (TGI) 正式支援 AWS Inferentia2 (Inf2) 執行個體。透過與 AWS Neuron SDK 的整合,開發者現在能以極具性價比的方式在 AWS 上部署 Llama 2、Mistral 等主流開源模型。此舉不僅簡化了專用硬體上的部署流程,更可望降低高達 50% 的推理成本。
Hugging Face 與 AI 評測新創 Patronus AI 合作,推出全新的「企業情境排行榜」(Enterprise Scenarios Leaderboard)。此排行榜旨在解決傳統學術基準(如 MMLU)與實際企業應用脫節的問題。評測涵蓋金融分析(如 SEC 申報文件)、法律合約理解、客戶服務以及隱私資訊(PII)防範等真實場景,為企業選擇最適合的 LLM 提供客觀的實戰數據參考。
Hugging Face 推出全新的「幻覺排行榜」(Hallucinations Leaderboard),這是一項旨在量化評估大型語言模型(LLM)幻覺程度的開源計畫。該排行榜主要評估模型在處理檢索增強生成(RAG)和文本摘要等任務時,產生不實資訊的機率。透過提供公開透明的評測標準,幫助開發者在建構應用時選擇最不易出錯、最可靠的模型。
Hugging Face 與學術團隊合作推出了全新的「AI Secure LLM 安全排行榜」(基於 DecodingTrust 評估框架)。該排行榜旨在填補現有 LLM 評測偏重「能力」而忽略「安全」的空白,從毒性、刻板印象偏見、對抗強健性、隱私保護及機器倫理等 8 大安全維度,對主流開源與閉源模型進行系統性評測,為開發者提供更全面的模型安全選擇依據。
本文介紹如何使用開源 LLM(如 Mixtral-8x7B)作為 LangChain Agent。過去 Agent 多依賴 GPT-4,但隨著開源模型推理能力提升,透過正確的 Prompt 格式(如 ReAct 框架)與 Hugging Face TGI 整合,開源模型也能穩定執行工具調用與多步驟推理,提供高隱私且低成本的替代方案。
Hugging Face 宣布旗下 TRL(Transformer Reinforcement Learning)微調工具包正式整合 Unsloth。開發者現在只需修改幾行程式碼,即可在進行監督式微調(SFT)時獲得 2 倍以上的訓練速度提升,並減少高達 60% 的 VRAM 記憶體消耗。此整合支援 Llama-2、Mistral 等主流開源模型,且完全不損害模型精度。
2023 年是開源大語言模型(LLM)的黃金時代。從 Meta 發布 LLaMA 奠定基礎,到 Mistral 推出高效的 MoE 模型,開源社群在模型架構、量化技術(QLoRA)與對齊方法(DPO)上取得突破。Hugging Face 的 Open LLM Leaderboard 更成為推動這波開源浪潮的核心樞紐,縮短了開源與閉源模型之間的差距。
Hugging Face 分享了優化 LoRA 模型推論的技術突破。傳統上,為不同用戶切換微調模型會面臨嚴重的「冷啟動」延遲;新方案透過在 Text Generation Inference (TGI) 中實現動態載入 LoRA 轉接器(Adapters),讓共享同一個基礎模型的不同微調版本能即時切換,使整體推論速度提升達 300%,大幅降低多租戶架構的部署成本與延遲。
Hugging Face 與 NVIDIA 合作推出 Optimum-NVIDIA 庫,旨在簡化 TensorRT-LLM 的使用門檻。開發者只需將原本的 Transformers 模型載入程式碼替換為 Optimum-NVIDIA 的對應類別,即可在 NVIDIA GPU 上獲得極致的推理加速與顯存優化,並支援 FP8 等低精度量化。
AI 模型託管平台 Replicate 宣布完成 4,000 萬美元的 B 輪融資,由知名創投 a16z 領投。這筆資金將用於擴展其雲端基礎設施,幫助更多企業與開發者透過簡單的 API 運行、微調及部署開源 AI 模型。此融資反映出企業級市場對於開源 AI(如 Llama、Stable Diffusion)的需求正迎來爆發性成長。
Hugging Face 釋出技術指南,比較 RoBERTa、Llama 2 與 Mistral 7B 在「災難推特分類」任務上的表現。 透過 LoRA(低秩適應)技術,詳細分析了傳統編碼器模型與現代生成式大模型在分類精準度、訓練時間與硬體資源(VRAM)上的折衷。 結果顯示,雖然 7B 模型具備強大理解力,但較小的 RoBERTa 在特定分類任務上依然展現出極高的成本效益與競爭力。
Hugging Face 介紹如何使用 AWS Inferentia2(Inf2 執行個體)來加速 Llama 2 模型的推理。透過 Optimum Neuron 整合庫,開發者可以輕鬆將 Llama 2 編譯並部署至 AWS 自研晶片上。這不僅能顯著提升文字生成速度(降低延遲),還能大幅降低雲端部署的硬體成本,是 NVIDIA GPU 之外的高性價比替代方案。
Replicate 介紹了如何將 Llama 2 模型與 Grammar(語法約束)結合,用於高精度的資訊萃取任務。透過定義 GBNF 語法,開發者可以強制 LLM 輸出完全符合特定格式(如 JSON)的內容,解決傳統 LLM 輸出格式不穩定、容易幻覺的問題。本文以旅遊規劃(Jet-setting)為例,展示如何從日常對話中精準提取出發地、目的地與日期等結構化數據。
在開發 LLM 對話應用時,不同模型(如 LLaMA、Vicuna)要求不同的特殊標記與格式。過去手動拼接字串極易出錯,微小的空格或換行差異都會嚴重影響模型輸出品質。Hugging Face 推出「Chat Templates」功能,將格式化邏輯以 Jinja 模板儲存於 tokenizer 設定中,開發者只需調用 `apply_chat_template()` 即可自動套用正確格式,徹底解決此痛點。
Hugging Face 針對 Llama 2 (7B、13B、70B) 在 Amazon SageMaker 上的部署進行了全面的效能基準測試。測試涵蓋了多種 AWS g5 與 p4 實例,評估指標包括首字延遲 (TTFT)、吞吐量 (tokens/sec) 與成本。這份指南能幫助開發者在部署開源大模型時,在效能與雲端預算之間取得最佳平衡。
Hugging Face 宣布為每月 9 美元的 PRO 訂閱用戶升級 Serverless 推理 API 服務。PRO 用戶將享有更高的速率限制、更低的延遲,並能直接調用 Llama 2、Falcon 與 StarCoder 等熱門大型開源模型。這項升級讓開發者在部署專屬端點前,能以極低成本進行高效的原型開發與測試。
微調 Llama 2 70B 等超大型模型時,開發者常因多進程重複載入模型而面臨 CPU 記憶體崩潰(OOM)的困境。本文介紹如何結合 PyTorch FSDP(完全分片數據並行)與 Hugging Face Accelerate 的延遲初始化與分片載入技術,在有限的硬體資源下實現記憶體高效的微調流程,大幅降低大模型訓練的門檻。
Replicate 宣布對微調模型的「冷啟動(Cold Boot)」進行重大改進。過去部署微調模型需要數分鐘來啟動新容器,現在透過共享基礎模型並動態載入輕量化的 LoRA 權重,冷啟動時間已縮短至一秒以內。這大幅降低了開發者在使用客製化模型時的延遲與成本。
Meta 正式發布專為程式碼任務設計的開源模型 Code Llama,提供 7B、13B 與 34B 三種尺寸,並包含 Python 專用版與指令微調版。該模型支援高達 100k 的上下文視窗,在多項程式碼基準測試中表現優異。Hugging Face 已同步支援該系列模型的推理、部署與微調。
Hugging Face 正式將 AutoGPTQ 整合進 transformers 生態系,支援直接載入與運行 4-bit GPTQ 量化模型。此更新大幅降低了 LLM 的 GPU 記憶體門檻(如 70B 模型可在單張消費級 GPU 運行),並提供極佳的推理加速。開發者只需簡單修改程式碼即可啟用,並能無縫使用 Hub 上數千個現成的 GPTQ 模型。
Hugging Face 發表開源多模態視覺語言模型 IDEFICS,旨在重現 DeepMind 閉源模型 Flamingo 的強大功能。該模型基於 LLaMA 與 OpenCLIP 構建,提供 9B 與 80B 兩種參數版本,能同時處理交錯的文本與圖片輸入。IDEFICS 的開源為社群提供了強大的多模態研究基礎,並同步釋出了大規模數據集 OBELICS。
本指南由 Replicate 團隊撰寫,深入解析 Llama 2 的官方提示詞(Prompt)格式。文章詳細說明了如何使用 `[INST]`、`<<SYS>>` 等特殊標記來結構化系統提示詞與用戶指令。遵循此標準模板能有效避免模型輸出混亂或不聽從指令的問題,是開發者部署與微調 Llama 2 的必讀基礎教學。
Hugging Face 釋出實用教學,介紹如何利用 TRL(Transformer Reinforcement Learning)庫中的 DPOTrainer,以「直接偏好優化(DPO)」技術微調 Llama 2。DPO 是一種替代傳統 RLHF 的新穎方法,它不需要訓練獨立的獎勵模型,也不需要複雜的 PPO 強化學習階段,僅需透過人類偏好數據(滿意與不滿意的回答對)即可直接優化模型,大幅降低了對齊(Alignment)的門檻與運算資源。
Replicate 宣布支援 Meta 的開源大語言模型 Llama 2。開發者現在無需自行管理繁雜的 GPU 基礎設施,只需透過 Replicate 提供的 API,用一行程式碼就能在雲端快速呼叫並運行 Llama 2。這大幅降低了開源模型的使用門檻,讓開發者能更輕鬆地將其整合至應用中。
本指南為開發者與 AI 愛好者提供在各種平台上本地運行 Llama 2 的實用方法。內容涵蓋適合 Mac 用戶的 Ollama、跨平台的 llama.cpp、圖形介面的 LM Studio,以及能在手機上運行 Llama 2 的 MLC LLM。透過這些工具,使用者無需依賴雲端 API 即可保護隱私並降低成本。
Replicate 宣布支援 Llama 2(包含 7B、13B 與 70B)的微調服務。開發者只需準備 JSONL 格式的訓練資料,即可透過 Replicate API 在 A100 GPU 上進行高效訓練。微調完成後,模型會自動部署為私有的 API 端點,方便直接整合至應用程式中,大幅降低了開源大模型微調與部署的門檻。
Meta 推出新一代開源大語言模型 Llama 2(包含 7B、13B、70B 參數版本)後,在 AI 社群引發連鎖反應。Replicate 在第一時間託管了這些模型並提供 API 服務。本文彙整了發布後 24 小時內,包含雲端部署、API 呼叫及社群生態的最新進展,展現開源 AI 領域的驚人迭代速度。
Meta 正式發布開源大型語言模型 Llama 2,包含 7B、13B 和 70B 三種參數規模,並允許商用。Hugging Face 與 Meta 深度合作,第一時間在 Hub 上架所有 Llama 2 模型,並全面支援 Transformers、TGI、PEFT 等工具。開發者可以直接在 Hugging Face 平台上進行 Llama 2 的推論、微調(Fine-tuning)與部署,並透過 Spaces 體驗 Chat 版本。
Hugging Face 分享了建立「AI WebTV」的實戰指南。該專案整合了多種開源 AI 技術:利用 LLM 自動生成劇本、透過 Stable Diffusion 產生視覺畫面,並結合 TTS 語音合成技術。最後,利用 FFmpeg 將這些素材即時融合成影片串流,部署於 Hugging Face Spaces 並可同步直播至 Twitch 等平台,展示了多模態 AI 工作流的強大整合能力。