Hugging Face BlogNov 9, 2020, 12:00 AM

Leveraging Pre-trained Language Model Checkpoints for Encoder-Decoder Models

Hugging Face 介紹如何利用現成的 BERT 或 GPT-2 等預訓練權重,快速構建並「熱啟動」Seq2Seq 序列生成模型。

Hugging Face 發表技術部落格,介紹如何使用 `EncoderDecoderModel` 將現有的預訓練編碼器(如 BERT)與解碼器(如 GPT-2)結合。 這種「熱啟動(Warm-starting)」方法免去了從頭訓練 Seq2Seq 模型的巨大成本,特別適合摘要生成和機器翻譯等任務。 文章詳細說明了架構原理、交叉注意力機制的初始化,並提供了實用的 Transformers 程式碼範例。

想看英文原文 / 完整內容?

前往 Hugging Face Blog 原文 →

摘要由 AI 整理,以原文為準。