第 20 期《Open Artifacts》開源週報帶來了多個全新組織與新型態開源模型的發布。 重點亮點包含 NVIDIA 的 Nemotron Super 系列、專注於印度語系的 Sarvam AI,以及 Cohere 推出的 Transcribe 語音轉寫相關模型。 這波釋出展示了開源生態系正朝向更多元、更具特定領域專業化(如多語言與語音)的方向快速演進。
Google 推出全新一代開源模型 Gemma 3,具備強大的多模態(視覺與語音)理解能力、廣泛的多語言支持以及長文本處理能力。本次發布涵蓋多種參數規格,並與 Hugging Face 生態系統深度整合,開發者可立即透過 Transformers、vLLM 等工具進行部署與微調,為開源社群注入強大動力。
Cohere For AI 發表全新開源多語言多模態模型「Aya Vision」(提供 8B 與 32B 版本)。該模型旨在解決現有視覺語言模型(VLM)嚴重偏向英語的問題,大幅提升了對全球多種語言(特別是低資源語言)的圖像理解與文字生成能力。在多項多語言多模態基準測試中,Aya Vision 展現出超越同量級開源模型的優異性能,並已於 Hugging Face 平台上開源。
Hugging Face 宣布與印度頂尖研究機構印度科學理工學院(IISc)展開合作。雙方將結合 IISc 的學術研究實力與 Hugging Face 的開源生態系,致力於解決印度多元語言(包含多種低資源語言)的 AI 模型開發挑戰。此舉旨在為印度本土語言建立更完善的開源數據集與語言模型,促進在地化的 AI 技術普及。
Hugging Face 發表全新的 VDR-2B-multilingual 模型,專為視覺文件檢索(VDR)設計。傳統檢索依賴繁瑣的 OCR 步驟,而該模型能直接將文件頁面視為圖像進行向量化,保留排版、圖表與插圖資訊。本次更新重點在於擴展至多語言支持(包含中英日韓等),大幅提升跨國企業與多語系文檔的檢索效率與準確度。
本文介紹了首屆多語言大型語言模型(LLM)辯論賽。傳統的靜態評估方法(如多選題)已難以衡量模型的深層推理與說服力,因此研究人員設計了讓模型針對特定議題進行多輪多語言辯論的機制。透過這種動態對抗,不僅能更精準地評估模型在非英語環境下的邏輯一致性,也為 LLM 的安全性和對齊(Alignment)提供了全新的評估維度。
Cohere For AI 發表全新開源多語言模型家族 Aya Expanse(包含 8B 與 32B 參數版本),支援 23 種語言。該模型透過創新的資料套利、合成資料生成與多語言偏好對齊技術,在多項基準測試中擊敗了 Llama 3.1、Gemma 2 等同級甚至更大規模的模型,為全球多語言 AI 研究樹立了新標竿。
Hugging Face 發表「Huggy Lingo」專案,旨在解決 Hub 上許多模型和數據集缺乏或標記錯誤語言元數據(Metadata)的問題。該系統利用機器學習(如語言識別模型)分析 README 內容與數據集樣本,自動預測並補全正確的語言標籤(如 ISO 639 代碼)。這項改進將大幅提升全球開發者在 Hub 上搜尋、篩選特定語言資源的效率,特別是針對低資源語言的發掘。
Hugging Face 協同 BigScience 社群正式發表 BLOOM,這是一個擁有 1760 億參數的開源多語言大模型。該模型由全球 70 多國、上千名研究人員歷時一年多共同協作完成,並在法國 Jean Zay 超級電腦上進行訓練。BLOOM 支援 46 種自然語言與 13 種程式語言,旨在打破科技巨頭壟斷,推動 AI 學術研究的民主化與開放合作。