目錄
前言
接續前篇,最新的 LLaMA 3.2 模型已經出來,真的是 AI 一天人間一年 ,演化的太快…😂
以下是我的理解,希望能拋磚引玉,如果有錯誤也請不吝指正。
LLM 論文筆記系列文傳送門
[LLM 論文筆記] 一口氣看完大型語言模型的前世今生 (1) – Transformer 介紹 [LLM 論文筆記] 一口氣看完大型語言模型的前世今生 (2) – 預訓練語言模型的新範式 [LLM 論文筆記] 一口氣看完大型語言模型的前世今生 (3) – PEFT 與 LoRA [LLM 論文筆記] 一口氣看完大型語言模型的前世今生 (4) – LLM 開源與在地化之路
開源大型語言模型
雖然 ChatGPT 相當強大但是它並不是以開源的方式對外開放,因此也開始有一些公司釋出自己的研究成果。
LLaMA 模型
例如由 Meta 研究員為主的 Touvron 等人(2023)介紹了 LLaMA [1],他們除了調整超參數(hyper-parameters)之外也受先前一些模型架構的啟發,使用了對輸入進行預歸一化(Pre-normalization)、SwiGLU 激勵函數(Activation Function)以及旋轉位置嵌入(Rotary Postition Embedding)等技巧,成功在大多數的基準測試中贏過 10 倍之大的 GPT-3。
最後釋出了 7B、13B 與 70B 三種不同大小的模型。
短短五個月後,Touvron 等人又發布(2023) LLaMA 2-CHAT [2],這是 LLaMA 2 [2] 的聊天版,
在預訓練 base model 時除了對資料做更好的預處理、更新使用的資料集、將訓練的 token 數量增加 40% 外也增加了上下文長度(context length)與群組查詢注意力(Grouped-query Attention, GQA) 的機制,最後再使用基於人類回饋的強化學習 (RLHF)微調模型,
使其輸出內容達到有幫助的(helpfulness)與安全的(safety)的雙重目標。
中文的 LLM
有鑑於主流的大型語言模型都以英文為主,也開始有人著手訓練中文的大型語言模型。
簡體中文
其實簡中的 LLM 非常多,可以說是百花爭鳴,我這邊只有舉一個也是從 LLaMA 衍生的模型,有興趣的讀者應該會發現更多好用的模型,畢竟這塊真的是日新月異。
Cui 等人(2023)使用了簡體中文語料來訓練一個中文分詞器(tokenizer),再與舊有的 LLaMA [1] 分詞器合併,
再用類似於 Alpaca 的提示詞模板以及 LoRA 方法進行指令微調以增強 LLaMA 2 [2] 的簡體中文能力,
最終釋出了 Chinese-LLaMA-2 [3] 的兩種版本— 7B 與 13B。
繁體中文
Taiwan-LLM
Lin 等人 (2023) 則是基於 LLaMA 2 [2] 釋出了 Taiwan-LLM [4],這是第一個專為台灣文化設計的繁體中文大型語言模型,
他們使用繼續預訓練(Continue-Pretraining, cPT)、監督式微調(Supervised Fine-Tuning, SFT) 與回饋監督式微調(Feedback Supervised Fine-Tuning, Feedback SFT) 這三種階段來達成目標,
經過這些階段後的 Taiwan-LLM 與原始的 LLaMA 2-CHAT 相比,
無論是在台灣文化或是情緒分析上的 benchmark 中都有著顯著的進步。
TAIDE
TAIDE (2023) [35] 是由國科會與其轄下的機構共同打造的「可信任生成式AI 對話引擎」(TAIDE,Trustworthy AI Dialogue Engine)計畫的簡稱,
他們希望能夠做出繁體中文專屬的可信賴人工智慧應用的基底模型,
已經釋出包含根據LLaMA 2 [2] 做微調的 TAIDE-LX-7B [5] 與TAIDE-LX-7B-CHAT [5],TAIDE-LX-7B-CHAT 除了指令微調外它也有做語表擴充,
並針對辦公室常見應用以及台灣在地文化的知識上做加強。
參考資料
- LLaMA: Open and Efficient Foundation Language Models
- Llama 2: Open Foundation and Fine-Tuned Chat Models
- Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca
- Taiwan LLM: Bridging the Linguistic Divide with a Culturally Aligned Language Model
- Advancing the Evaluation of Traditional Chinese Language Models: Towards a Comprehensive Benchmark Suite
- 我碩論做的文獻回顧
- [推薦工具] 讓程式碼截圖變的美美的吧!VScode CodeSnap 與 3 種同功能線上工具介紹 - 2025-01-05
- [AI 繪圖初級教學] 用 X/Y/Z Plot 比較 Stable Diffusion 的 prompt 與 LoRA 效果 - 2024-12-27
- [AI 繪圖中級篇教學] Stable Diffusion WebUI WD14 Tagger 介紹 - 2024-12-26