Google 正式推出全新開源模型家族 Gemma,包含 2B 與 7B 兩種參數大小,並提供預訓練與指令微調版本。 Gemma 採用與 Gemini 相同的技術與架構,在多項基準測試中表現優於同尺寸的 Llama 2 與 Mistral。 Hugging Face 已同步支援 Gemma,開發者可直接透過 Transformers、TGI、PEFT 等工具進行部署與微調。
Hugging Face 推出全新的 NPHardEval 排行榜,旨在透過計算複雜度理論(如 P、NP-Complete、NP-Hard 問題)來嚴格評估大型語言模型(LLM)的邏輯推理與規劃能力。為了解決傳統基準測試容易因訓練數據污染而失效的問題,NPHardEval 採用動態更新機制,定期生成全新測驗。這項工具能幫助研究人員更準確地衡量模型在面對複雜優化問題時的真實推理極限。