1 前言
2 LLM 論文筆記系列文傳送門
3 開源大型語言模型
- 3.1 LLaMA 模型
4 中文的 LLM
- 4.1 簡體中文
- 4.2 繁體中文
  - 4.2.1 Taiwan-LLM
  - 4.2.2 TAIDE
5 參考資料

前言

接續前篇，最新的 LLaMA 3.2 模型已經出來，真的是 AI 一天人間一年，演化的太快…😂

以下是我的理解，希望能拋磚引玉，如果有錯誤也請不吝指正。

LLM 論文筆記系列文傳送門

[LLM 論文筆記] 一口氣看完大型語言模型的前世今生 (1) – Transformer 介紹

https://techmagichouse.art/llm-papers-history-1-transformer

[LLM 論文筆記] 一口氣看完大型語言模型的前世今生 (2) – 預訓練語言模型的新範式

https://techmagichouse.art/llm-papers-history-2-pretrained-model-new-paradigm

[LLM 論文筆記] 一口氣看完大型語言模型的前世今生 (3) – PEFT 與 LoRA

https://techmagichouse.art/llm-papers-history-3-peft-lora

[LLM 論文筆記] 一口氣看完大型語言模型的前世今生 (4) – LLM 開源與在地化之路

https://techmagichouse.art/llm-papers-history-4-open-source-and-localize-llm

開源大型語言模型

雖然 ChatGPT 相當強大但是它並不是以開源的方式對外開放，因此也開始有一些公司釋出自己的研究成果。

LLaMA 模型

例如由 Meta 研究員為主的 Touvron 等人（2023）介紹了 LLaMA [1]，他們除了調整超參數（hyper-parameters）之外也受先前一些模型架構的啟發，使用了對輸入進行預歸一化（Pre-normalization）、SwiGLU 激勵函數（Activation Function）以及旋轉位置嵌入（Rotary Postition Embedding）等技巧，成功在大多數的基準測試中贏過 10 倍之大的 GPT-3。

最後釋出了 7B、13B 與 70B 三種不同大小的模型。

短短五個月後，Touvron 等人又發布（2023） LLaMA 2-CHAT [2]，這是 LLaMA 2 [2] 的聊天版，
在預訓練 base model 時除了對資料做更好的預處理、更新使用的資料集、將訓練的 token 數量增加 40% 外也增加了上下文長度（context length）與群組查詢注意力（Grouped-query Attention, GQA）的機制，最後再使用基於人類回饋的強化學習（RLHF）微調模型，
使其輸出內容達到有幫助的（helpfulness）與安全的（safety）的雙重目標。

中文的 LLM

有鑑於主流的大型語言模型都以英文為主，也開始有人著手訓練中文的大型語言模型。

簡體中文

其實簡中的 LLM 非常多，可以說是百花爭鳴，我這邊只有舉一個也是從 LLaMA 衍生的模型，有興趣的讀者應該會發現更多好用的模型，畢竟這塊真的是日新月異。

Cui 等人（2023）使用了簡體中文語料來訓練一個中文分詞器（tokenizer），再與舊有的 LLaMA [1] 分詞器合併，
再用類似於 Alpaca 的提示詞模板以及 LoRA 方法進行指令微調以增強 LLaMA 2 [2] 的簡體中文能力，
最終釋出了 Chinese-LLaMA-2 [3] 的兩種版本— 7B 與 13B。

繁體中文

Taiwan-LLM

Lin 等人（2023）則是基於 LLaMA 2 [2] 釋出了 Taiwan-LLM [4]，這是第一個專為台灣文化設計的繁體中文大型語言模型，
他們使用繼續預訓練（Continue-Pretraining, cPT）、監督式微調（Supervised Fine-Tuning, SFT）與回饋監督式微調（Feedback Supervised Fine-Tuning, Feedback SFT）這三種階段來達成目標，
經過這些階段後的 Taiwan-LLM 與原始的 LLaMA 2-CHAT 相比，
無論是在台灣文化或是情緒分析上的 benchmark 中都有著顯著的進步。

TAIDE

TAIDE （2023） [35] 是由國科會與其轄下的機構共同打造的「可信任生成式AI 對話引擎」（TAIDE，Trustworthy AI Dialogue Engine）計畫的簡稱，
他們希望能夠做出繁體中文專屬的可信賴人工智慧應用的基底模型，
已經釋出包含根據LLaMA 2 [2] 做微調的 TAIDE-LX-7B [5] 與TAIDE-LX-7B-CHAT [5]，TAIDE-LX-7B-CHAT 除了指令微調外它也有做語表擴充，
並針對辦公室常見應用以及台灣在地文化的知識上做加強。

參考資料

About
Latest Posts

數據女巫 𝔻.𝕡𝕪𝕤 🔮

𝐀𝐈 𝐀𝐫𝐭𝐢𝐬𝐭 • 𝐒𝐨𝐟𝐭𝐰𝐚𝐫𝐞 𝐄𝐧𝐠𝐢𝐧𝐞𝐞𝐫
﹊﹊﹊﹊﹊﹊﹊﹊﹊﹊﹊﹊﹊﹊
致力於打破現有框架的 AI 藝術創作者，曾接受藝文雜誌的個人專訪，作品於香港實體展出。有擔任大學講座講師與 Stable Diffusion AI 年會講者的經驗。擅長 Live Prompting，曾獲 GIGABYTE VS AI 街頭對戰冠軍、ASUS 校園 AI 繪圖競賽亞軍等殊榮。
---
歡迎合作邀約 / 委託 / 各式交流
ᴇᴍᴀɪʟ：dpys@techmagichouse.art

Latest posts by 數據女巫 𝔻.𝕡𝕪𝕤 🔮 (see all)

科技, AI 筆記

[LLM 論文筆記] 一口氣看完大型語言模型的前世今生 (4) – LLM 開源與在地化之路

前言

LLM 論文筆記系列文傳送門

開源大型語言模型

LLaMA 模型

中文的 LLM

簡體中文

繁體中文

Taiwan-LLM

TAIDE

參考資料

數據女巫 𝔻.𝕡𝕪𝕤 🔮

發佈留言取消回覆

前言

LLM 論文筆記系列文傳送門

開源大型語言模型

LLaMA 模型

中文的 LLM

簡體中文

繁體中文

Taiwan-LLM

TAIDE

參考資料

數據女巫 𝔻.𝕡𝕪𝕤 🔮

發佈留言 取消回覆

發佈留言取消回覆