目錄
前言
標題「預訓練語言模型的新範式」 (New paradigm of pretrained language model) 代表的是從 BERT 時代到 GPT 時代的常用的詞定義與 fine-tune 方法等等的演化。
以下是我的理解,希望能拋磚引玉,如果有錯誤也請不吝指正。
系列文傳送門
[LLM 論文筆記] 一口氣看完大型語言模型的前世今生 (1) – Transformer 介紹 [LLM 論文筆記] 一口氣看完大型語言模型的前世今生 (2) – 預訓練語言模型的新範式 [LLM 論文筆記] 一口氣看完大型語言模型的前世今生 (3) – PEFT 與 LoRA [LLM 論文筆記] 一口氣看完大型語言模型的前世今生 (4) – LLM 開源與在地化之路
提示工程 (Prompt Engineering)
與傳統以 BERT 和 Encoder-Only 為主的語言模型截然不同,基於轉換器的生成式預訓練(Generative Pretrained Transformer, GPT)流派開始悄悄興起,這種 Decoder-Only 的語言模型捨棄了繁複的遷移學習(Transfer Learning)的過程轉而投向提示工程(Prompt Engineering)的懷抱。
GPT-3 力壓群雄
Brown 等人(2020)[1] 共同訓練了擁有 1750 億參數的 GPT-3,他們的模型以及思想可以說是顛覆了傳統語言模型的範式(paradigm)。
他們將模型在無監督式 (Unsupervised)的預訓練過程中發展出的可在推理時快速適應或識別任務的能力稱之為上下文學習(In-Context learning, ICL)。
上下文學習的概念就如同下圖,Image source。
使用者給定特定幾組 input 跟 output,然後模型自己去學說你想幹嘛。
因此 GPT-3 無須任何參數更新或微調即可透過使用者給定的提示詞(prompt)來進行任務,例如零樣本(zero-shot)、單一樣本(one-shot)或是少量文本(few-shot)都算是上下文學習的一種。
指令微調(Instruction Tuning)
Wei 等人(2021)首先提出了指令微調(Instruction Tuning)[2] 的概念。
該研究探討了對大型語言模型進行指令微調的方法與效果,他們將 62 種資料集分類成 12 種子任務類別並使用 137B 的 LaMDA-PT 作為基底模型,實驗證實在經過指令微調後,原先的預訓練模型在各種任務上的零樣本效能都顯著提高了。
Alpaca 跟 LLama 的關係
後來的 Taori 等人 (2023) 也受 Wei [2] 等人影響,發布了基於 LLama-7B [3] 模型的 Alpaca-7B [4]。
他們借鑑了自我指導(Self-Instruct)的概念並使用 OpenAI 的 text-davinci-003 的模型自動生成 52K 的指令資料集(Instruction-following dataset),再進行基於指令遵循(Instruction-following)範式的微調。
令人驚訝的是,這種方式相較於傳統人工標註而言,以低成本(少於 500 美金)與極小模型尺寸(7B v.s. 175B)的情況下有效的復刻了原始的 Text-davinci-003 的效能。
參考資料
- [2005.14165] Language Models are Few-Shot Learners
- Finetuned Language Models Are Zero-Shot Learners
- LLaMA: Open and Efficient Foundation Language Models
- Alpaca: A Strong, Replicable Instruction-Following Model
- 我碩論做的文獻回顧
- [推薦工具] 讓程式碼截圖變的美美的吧!VScode CodeSnap 與 3 種同功能線上工具介紹 - 2025-01-05
- [AI 繪圖初級教學] 用 X/Y/Z Plot 比較 Stable Diffusion 的 prompt 與 LoRA 效果 - 2024-12-27
- [AI 繪圖中級篇教學] Stable Diffusion WebUI WD14 Tagger 介紹 - 2024-12-26