知名 AI 專家 Nathan Lambert 親自走訪中國多家領先的 AI 實驗室(如 DeepSeek、智譜 AI、零一萬物等),分享第一手觀察。他指出,面對美國嚴苛的晶片制裁,中國實驗室展現出驚人的系統級工程與架構優化能力,並以極低成本推動開源模型(如 Qwen 與 DeepSeek)的快速迭代。然而,嚴格的政府監管審查與對即時商業變現的焦慮,也形塑了與矽谷截然不同的 AI 發展生態。
本文為 Nathan Lambert 的《Latest open artifacts》第 19 期。隨著農曆馬年的到來,阿里 Qwen 3.5、智譜 GLM 5 以及 MiniMax 2.5 等模型相繼亮相。這些最新釋出的開放權重(open-weights)模型,展示了中國 AI 實驗室在開源與前沿領域的強勁實力,並進一步縮小了與美國頂尖模型之間的差距,為全球開發者提供更多元的高性能選擇。
本文探討知識蒸餾(Distillation)在中國大語言模型(如 DeepSeek、Qwen)發展中扮演的角色。針對 Anthropic 近期將蒸餾視為「安全攻擊」的報告,作者指出,雖然蒸餾確實加速了模型對齊,但中國 LLM 的成功更多歸功於其強大的預訓練底座與強化學習(RL)創新。將蒸餾單純簡化為「抄襲」或「攻擊」,忽略了其作為標準機器學習技術的本質,也低估了中國團隊的工程實力。
隨著 Qwen、DeepSeek、Yi 等中國開源模型在 Hugging Face 排行榜上名列前茅,中國 AI 勢力正加速全球擴張。這些模型憑藉強大的多語言能力、數學與程式碼推理性能,以及極高的性價比,成為全球開發者在 Llama 之外的重要選擇。本文總結了中國 AI 透過開源生態系打破地理限制、走向國際的關鍵策略與面臨的挑戰。