0%
Loading ...

[LLM 論文筆記] 一口氣看完大型語言模型的前世今生 (4) – LLM 開源與在地化之路

image 1732113125606

前言

Alt
接續前篇,最新的 LLaMA 3.2 模型已經出來,真的是 AI 一天人間一年 ,演化的太快…😂

以下是我的理解,希望能拋磚引玉,如果有錯誤也請不吝指正。

LLM 論文筆記系列文傳送門

[LLM 論文筆記] 一口氣看完大型語言模型的前世今生 (1) – Transformer 介紹

[LLM 論文筆記] 一口氣看完大型語言模型的前世今生 (2) – 預訓練語言模型的新範式

[LLM 論文筆記] 一口氣看完大型語言模型的前世今生 (3) – PEFT 與 LoRA

[LLM 論文筆記] 一口氣看完大型語言模型的前世今生 (4) – LLM 開源與在地化之路

開源大型語言模型

雖然 ChatGPT 相當強大但是它並不是以開源的方式對外開放,因此也開始有一些公司釋出自己的研究成果。

LLaMA 模型

例如由 Meta 研究員為主的 Touvron 等人(2023)介紹了 LLaMA [1],他們除了調整超參數(hyper-parameters)之外也受先前一些模型架構的啟發,使用了對輸入進行預歸一化(Pre-normalization)、SwiGLU 激勵函數(Activation Function)以及旋轉位置嵌入(Rotary Postition Embedding)等技巧,成功在大多數的基準測試中贏過 10 倍之大的 GPT-3。

最後釋出了 7B、13B 與 70B 三種不同大小的模型。

短短五個月後,Touvron 等人又發布(2023) LLaMA 2-CHAT [2],這是 LLaMA 2 [2] 的聊天版,
在預訓練 base model 時除了對資料做更好的預處理、更新使用的資料集、將訓練的 token 數量增加 40% 外也增加了上下文長度(context length)與群組查詢注意力(Grouped-query Attention, GQA) 的機制,最後再使用基於人類回饋的強化學習 (RLHF)微調模型,
使其輸出內容達到有幫助的(helpfulness)與安全的(safety)的雙重目標。

中文的 LLM

有鑑於主流的大型語言模型都以英文為主,也開始有人著手訓練中文的大型語言模型。

簡體中文

其實簡中的 LLM 非常多,可以說是百花爭鳴,我這邊只有舉一個也是從 LLaMA 衍生的模型,有興趣的讀者應該會發現更多好用的模型,畢竟這塊真的是日新月異。

Cui 等人(2023)使用了簡體中文語料來訓練一個中文分詞器(tokenizer),再與舊有的 LLaMA [1] 分詞器合併,
再用類似於 Alpaca 的提示詞模板以及 LoRA 方法進行指令微調以增強 LLaMA 2 [2] 的簡體中文能力,
最終釋出了 Chinese-LLaMA-2 [3] 的兩種版本— 7B 與 13B。

繁體中文

Taiwan-LLM

Lin 等人 (2023) 則是基於 LLaMA 2 [2] 釋出了 Taiwan-LLM [4],這是第一個專為台灣文化設計的繁體中文大型語言模型,
他們使用繼續預訓練(Continue-Pretraining, cPT)、監督式微調(Supervised Fine-Tuning, SFT) 與回饋監督式微調(Feedback Supervised Fine-Tuning, Feedback SFT) 這三種階段來達成目標,
經過這些階段後的 Taiwan-LLM 與原始的 LLaMA 2-CHAT 相比,
無論是在台灣文化或是情緒分析上的 benchmark 中都有著顯著的進步。

TAIDE

TAIDE (2023) [35] 是由國科會與其轄下的機構共同打造的「可信任生成式AI 對話引擎」(TAIDE,Trustworthy AI Dialogue Engine)計畫的簡稱,
他們希望能夠做出繁體中文專屬的可信賴人工智慧應用的基底模型,
已經釋出包含根據LLaMA 2 [2] 做微調的 TAIDE-LX-7B [5] 與TAIDE-LX-7B-CHAT [5],TAIDE-LX-7B-CHAT 除了指令微調外它也有做語表擴充,
並針對辦公室常見應用以及台灣在地文化的知識上做加強。

參考資料

  1. LLaMA: Open and Efficient Foundation Language Models
  2. Llama 2: Open Foundation and Fine-Tuned Chat Models
  3. Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca
  4. Taiwan LLM: Bridging the Linguistic Divide with a Culturally Aligned Language Model
  5. Advancing the Evaluation of Traditional Chinese Language Models: Towards a Comprehensive Benchmark Suite
  6. 我碩論做的文獻回顧
數據女巫 𝔻.𝕡𝕪𝕤 🔮

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

The reCAPTCHA verification period has expired. Please reload the page.