Showing:llm-architectureStudentsClear ×
Hugging Face 釋出深度科普文章,帶領讀者從零開始設計 Transformer 的位置編碼。文章從傳統絕對位置編碼(APE)的缺陷出發,指出其無法應對長文本外推的痛點,進而引入相對位置編碼(RPE)的概念。最終,透過簡單的複數與 2D 旋轉矩陣,一步步推導出當前主流大模型(如 Llama、Mistral)標配的 RoPE(旋轉位置編碼),證明這項最先進技術其實符合直覺且人人都能推導出來。