Hugging Face 與 NVIDIA 合作推出 Optimum-NVIDIA 庫,旨在簡化 TensorRT-LLM 的使用門檻。開發者只需將原本的 Transformers 模型載入程式碼替換為 Optimum-NVIDIA 的對應類別,即可在 NVIDIA GPU 上獲得極致的推理加速與顯存優化,並支援 FP8 等低精度量化。
Hugging Face 分享了優化 LoRA 模型推論的技術突破。傳統上,為不同用戶切換微調模型會面臨嚴重的「冷啟動」延遲;新方案透過在 Text Generation Inference (TGI) 中實現動態載入 LoRA 轉接器(Adapters),讓共享同一個基礎模型的不同微調版本能即時切換,使整體推論速度提升達 300%,大幅降低多租戶架構的部署成本與延遲。
AI 模型託管平台 Replicate 宣布完成 4,000 萬美元的 B 輪融資,由知名創投 a16z 領投。這筆資金將用於擴展其雲端基礎設施,幫助更多企業與開發者透過簡單的 API 運行、微調及部署開源 AI 模型。此融資反映出企業級市場對於開源 AI(如 Llama、Stable Diffusion)的需求正迎來爆發性成長。
Hugging Face 介紹如何使用 AWS Inferentia2(Inf2 執行個體)來加速 Llama 2 模型的推理。透過 Optimum Neuron 整合庫,開發者可以輕鬆將 Llama 2 編譯並部署至 AWS 自研晶片上。這不僅能顯著提升文字生成速度(降低延遲),還能大幅降低雲端部署的硬體成本,是 NVIDIA GPU 之外的高性價比替代方案。
Hugging Face 釋出技術指南,比較 RoBERTa、Llama 2 與 Mistral 7B 在「災難推特分類」任務上的表現。 透過 LoRA(低秩適應)技術,詳細分析了傳統編碼器模型與現代生成式大模型在分類精準度、訓練時間與硬體資源(VRAM)上的折衷。 結果顯示,雖然 7B 模型具備強大理解力,但較小的 RoBERTa 在特定分類任務上依然展現出極高的成本效益與競爭力。
Replicate 介紹了如何將 Llama 2 模型與 Grammar(語法約束)結合,用於高精度的資訊萃取任務。透過定義 GBNF 語法,開發者可以強制 LLM 輸出完全符合特定格式(如 JSON)的內容,解決傳統 LLM 輸出格式不穩定、容易幻覺的問題。本文以旅遊規劃(Jet-setting)為例,展示如何從日常對話中精準提取出發地、目的地與日期等結構化數據。
在開發 LLM 對話應用時,不同模型(如 LLaMA、Vicuna)要求不同的特殊標記與格式。過去手動拼接字串極易出錯,微小的空格或換行差異都會嚴重影響模型輸出品質。Hugging Face 推出「Chat Templates」功能,將格式化邏輯以 Jinja 模板儲存於 tokenizer 設定中,開發者只需調用 `apply_chat_template()` 即可自動套用正確格式,徹底解決此痛點。
Hugging Face 官方發布指南,教導開發者如何部署熱門的開源專案「AI Comic Factory」。由於公共版本常因高流量需要排隊,使用者可以透過 Hugging Face Inference API 或專屬的 Inference Endpoints,配置自己的 LLM 與 SDXL 圖像生成服務,低成本打造專屬且流暢的 AI 漫畫創作平台。
本指南專為非工程師設計,介紹如何使用 Hugging Face AutoTrain 無程式碼平台微調 Meta 的 LLaMA 2 模型。讀者只需準備好對話資料集並上傳,即可在雲端自動完成訓練,並能一鍵部署至 Hugging Face Spaces 進行測試。這極大地降低了客製化 AI 的門檻,適合創作者與中小企業快速上手。
Hugging Face 針對 Llama 2 (7B、13B、70B) 在 Amazon SageMaker 上的部署進行了全面的效能基準測試。測試涵蓋了多種 AWS g5 與 p4 實例,評估指標包括首字延遲 (TTFT)、吞吐量 (tokens/sec) 與成本。這份指南能幫助開發者在部署開源大模型時,在效能與雲端預算之間取得最佳平衡。
Hugging Face 宣布為每月 9 美元的 PRO 訂閱用戶升級 Serverless 推理 API 服務。PRO 用戶將享有更高的速率限制、更低的延遲,並能直接調用 Llama 2、Falcon 與 StarCoder 等熱門大型開源模型。這項升級讓開發者在部署專屬端點前,能以極低成本進行高效的原型開發與測試。
微調 Llama 2 70B 等超大型模型時,開發者常因多進程重複載入模型而面臨 CPU 記憶體崩潰(OOM)的困境。本文介紹如何結合 PyTorch FSDP(完全分片數據並行)與 Hugging Face Accelerate 的延遲初始化與分片載入技術,在有限的硬體資源下實現記憶體高效的微調流程,大幅降低大模型訓練的門檻。
Replicate 宣布對微調模型的「冷啟動(Cold Boot)」進行重大改進。過去部署微調模型需要數分鐘來啟動新容器,現在透過共享基礎模型並動態載入輕量化的 LoRA 權重,冷啟動時間已縮短至一秒以內。這大幅降低了開發者在使用客製化模型時的延遲與成本。
Meta 正式發布專為程式碼任務設計的開源模型 Code Llama,提供 7B、13B 與 34B 三種尺寸,並包含 Python 專用版與指令微調版。該模型支援高達 100k 的上下文視窗,在多項程式碼基準測試中表現優異。Hugging Face 已同步支援該系列模型的推理、部署與微調。
Hugging Face 正式將 AutoGPTQ 整合進 transformers 生態系,支援直接載入與運行 4-bit GPTQ 量化模型。此更新大幅降低了 LLM 的 GPU 記憶體門檻(如 70B 模型可在單張消費級 GPU 運行),並提供極佳的推理加速。開發者只需簡單修改程式碼即可啟用,並能無縫使用 Hub 上數千個現成的 GPTQ 模型。
Hugging Face 發表開源多模態視覺語言模型 IDEFICS,旨在重現 DeepMind 閉源模型 Flamingo 的強大功能。該模型基於 LLaMA 與 OpenCLIP 構建,提供 9B 與 80B 兩種參數版本,能同時處理交錯的文本與圖片輸入。IDEFICS 的開源為社群提供了強大的多模態研究基礎,並同步釋出了大規模數據集 OBELICS。
本指南由 Replicate 團隊撰寫,深入解析 Llama 2 的官方提示詞(Prompt)格式。文章詳細說明了如何使用 `[INST]`、`<<SYS>>` 等特殊標記來結構化系統提示詞與用戶指令。遵循此標準模板能有效避免模型輸出混亂或不聽從指令的問題,是開發者部署與微調 Llama 2 的必讀基礎教學。
Hugging Face 釋出實用教學,介紹如何利用 TRL(Transformer Reinforcement Learning)庫中的 DPOTrainer,以「直接偏好優化(DPO)」技術微調 Llama 2。DPO 是一種替代傳統 RLHF 的新穎方法,它不需要訓練獨立的獎勵模型,也不需要複雜的 PPO 強化學習階段,僅需透過人類偏好數據(滿意與不滿意的回答對)即可直接優化模型,大幅降低了對齊(Alignment)的門檻與運算資源。
Replicate 宣布支援 Meta 的開源大語言模型 Llama 2。開發者現在無需自行管理繁雜的 GPU 基礎設施,只需透過 Replicate 提供的 API,用一行程式碼就能在雲端快速呼叫並運行 Llama 2。這大幅降低了開源模型的使用門檻,讓開發者能更輕鬆地將其整合至應用中。
本指南為開發者與 AI 愛好者提供在各種平台上本地運行 Llama 2 的實用方法。內容涵蓋適合 Mac 用戶的 Ollama、跨平台的 llama.cpp、圖形介面的 LM Studio,以及能在手機上運行 Llama 2 的 MLC LLM。透過這些工具,使用者無需依賴雲端 API 即可保護隱私並降低成本。
Replicate 宣布支援 Llama 2(包含 7B、13B 與 70B)的微調服務。開發者只需準備 JSONL 格式的訓練資料,即可透過 Replicate API 在 A100 GPU 上進行高效訓練。微調完成後,模型會自動部署為私有的 API 端點,方便直接整合至應用程式中,大幅降低了開源大模型微調與部署的門檻。
Meta 推出新一代開源大語言模型 Llama 2(包含 7B、13B、70B 參數版本)後,在 AI 社群引發連鎖反應。Replicate 在第一時間託管了這些模型並提供 API 服務。本文彙整了發布後 24 小時內,包含雲端部署、API 呼叫及社群生態的最新進展,展現開源 AI 領域的驚人迭代速度。
Meta 正式發布開源大型語言模型 Llama 2,包含 7B、13B 和 70B 三種參數規模,並允許商用。Hugging Face 與 Meta 深度合作,第一時間在 Hub 上架所有 Llama 2 模型,並全面支援 Transformers、TGI、PEFT 等工具。開發者可以直接在 Hugging Face 平台上進行 Llama 2 的推論、微調(Fine-tuning)與部署,並透過 Spaces 體驗 Chat 版本。
Hugging Face 分享了建立「AI WebTV」的實戰指南。該專案整合了多種開源 AI 技術:利用 LLM 自動生成劇本、透過 Stable Diffusion 產生視覺畫面,並結合 TTS 語音合成技術。最後,利用 FFmpeg 將這些素材即時融合成影片串流,部署於 Hugging Face Spaces 並可同步直播至 Twitch 等平台,展示了多模態 AI 工作流的強大整合能力。
Hugging Face 宣布推出專為 Amazon SageMaker 設計的全新深度學習容器(DLC),用於部署大型語言模型(LLM)。該容器整合了 Text Generation Inference (TGI) 技術,支援張量並行、動態批處理與 Token 串流。開發者現在能以極低延遲與高吞吐量,在 AWS 託管環境中輕鬆部署 Falcon、Llama 等開源大模型。
Replicate 發布了 2023 年 4 月的開源語言模型(LLM)彙整報告。文章介紹了當時快速崛起的開源模型,包括基於 LLaMA 微調的 Vicuna、首款可商用的 Dolly v2,以及 Stability AI 推出的 StableLM。讀者可以透過 Replicate 的雲端 API 輕鬆部署與測試這些模型,大幅降低了開發者使用開源大模型的門檻與硬體成本。
知名 AI 雲端託管平台 Replicate 宣布正式支援大型語言模型(LLMs)。平台已上架包括 Vicuna、Alpaca、Flan-T5 等多款開源模型,並優化了冷啟動時間。開發者現在可以透過簡單的 API 與 SDK,輕鬆在應用程式中整合語言模型的文字生成與串流(Streaming)輸出功能。
本指南是 Hugging Face 介紹如何使用 TRL(Transformer Reinforcement Learning)與 PEFT(LoRA)技術,對 LLaMA 模型進行人類回饋強化學習(RLHF)的經典實戰教學。文章以 Stack Exchange 數據集為例,詳細拆解了監督式微調(SFT)、獎勵模型(RM)訓練,以及近端策略最佳化(PPO)三大核心步驟,展示了如何在有限的硬體資源下完成大語言模型的對齊(Alignment)訓練。
本文介紹了 2023 年開源 AI 圈的重要里程碑技術——Alpaca-LoRA。透過低秩適應(LoRA)技術,開發者可以在消費級硬體或 Replicate 雲端平台上,以極低的算力與時間成本微調 LLaMA-7B 模型。藉由 Stanford Alpaca 的 52,000 筆指令數據,即可讓開源模型獲得類似 ChatGPT 的對話與指令遵循能力,大幅降低了客製化大語言模型的門檻。
本文彙整了 LLaMA 發布第三週時的關鍵進展。當時開源社群展現了驚人的生命力,包括 Georgi Gerganov 推出可在 Mac 本地運行的 llama.cpp,以及史丹佛大學以極低成本微調出指令遵循模型 Alpaca。這些突破降低了大型語言模型的運行門檻,奠定了今日開源 AI 生態系蓬勃發展的基礎。