Google DeepMind 發表全新開源模型系列「T5Gemma」。不同於目前主流的 Decoder-only 架構,T5Gemma 採用經典的 Encoder-Decoder 架構,將 T5 的設計理念與 Gemma 的現代化技術結合。這為需要雙向上下文理解的任務(如翻譯、摘要、分類)提供了更高效且強大的新選擇。
本文為 Hugging Face 撰寫的經典技術指南,深入探討基於 Transformer 的編碼器-解碼器(Encoder-Decoder)架構。文章詳細解析了雙向編碼器、自迴歸解碼器以及兩者之間的交叉注意力機制(Cross-Attention),並介紹如何利用 Hugging Face `EncoderDecoderModel` 結合預訓練模型(如 BERT 與 GPT-2)來建構強大的序列到序列(Seq2Seq)模型。