Hugging Face 與 AI 評測新創 Patronus AI 合作,推出全新的「企業情境排行榜」(Enterprise Scenarios Leaderboard)。此排行榜旨在解決傳統學術基準(如 MMLU)與實際企業應用脫節的問題。評測涵蓋金融分析(如 SEC 申報文件)、法律合約理解、客戶服務以及隱私資訊(PII)防範等真實場景,為企業選擇最適合的 LLM 提供客觀的實戰數據參考。
Hugging Face 發布 Habana Gaudi2 與 Nvidia A100 80GB 的基準測試對比。結果顯示,Gaudi2 在 BERT 和 T5 等主流模型的訓練速度上比 A100 快上近兩倍。透過 optimum-habana 庫,開發者只需修改極少程式碼即可無縫轉移,為 Nvidia 晶片短缺與高成本提供了強力的替代方案。
隨著大型語言模型(LLM)體積急劇膨脹,如何公平且標準化地評估其性能成為一大挑戰。Hugging Face 宣布與 EleutherAI 合作,將其著名的 lm-evaluation-harness 整合至 Hugging Face Hub。用戶現在可以直接在 Hub 上對託管的模型進行零樣本(Zero-shot)與少樣本(Few-shot)評估,這不僅簡化了評估流程,更促進了開源 AI 社群的基準測試透明度與可重複性。