LLM 大型語言模型訓練全流程：從預訓練到 RLHF

Q: LLM 大型語言模型訓練全流程？從預訓練到 RLHF？

GPT 是怎麼訓練出來的？預訓練、微調、指令微調、RLHF 四階段完整拆解。

一、學習目標

理解大型語言模型（Large Language Model, LLM） 的定義、規模特徵與「湧現能力（Emergent Abilities）」
掌握 LLM 四階段訓練流程：預訓練（Pre-training）→ 微調（Fine-tuning）→ 指令微調（Instruction Tuning）→ RLHF
了解參數高效微調（Parameter-Efficient Fine-Tuning, PEFT） 技術，特別是 LoRA/QLoRA
熟悉分詞化（Tokenization）、情境視窗（Context Window）、溫度（Temperature） 等推論關鍵概念
能比較 GPT-4、Claude、Gemini、LLaMA 等主流 LLM 的架構定位與差異

二、核心內容

2.1 什麼是大型語言模型（LLM）？

大型語言模型（Large Language Model, LLM） 是以 Transformer 架構為基礎、擁有數十億至數千億個參數（Parameters）、透過海量文字語料訓練而成的神經網路模型。LLM 的核心能力是「預測下一個 Token」，給定一段文字，模型計算出接下來最可能出現的詞。

生活類比：

想像一個人從出生開始，把世界上每一本書、每一篇網路文章、每一段對話都讀過一遍。讀完之後，他不僅能「接龍」任何句子，還能回答各種問題、寫文章、寫程式，這就是 LLM 的預訓練結果。

LLM 的規模特徵：

特徵	說明
參數量（Parameters）	模型中可調整的權重數量，GPT-4 估計超過 1 兆個參數
訓練語料（Training Corpus）	通常達數兆個 Token，涵蓋網頁、書籍、程式碼、論文
計算需求（Compute）	預訓練需要數千塊 GPU 連續運行數週，成本達數千萬美元
湧現能力（Emergent Abilities）	規模超過臨界點後，模型自發出現預訓練階段未明確教導的能力

2.2 規模改變一切：湧現能力（Emergent Abilities）

傳統 NLP 模型（如命名實體識別、文字分類）是為特定任務設計的，規模小、能力有限。LLM 帶來了「規模即能力（Scale is All You Need）」的典範轉移。

傳統 NLP vs LLM 比較：

面向	傳統 NLP 模型	LLM
參數量	數百萬至數億	數十億至數千億
訓練方式	針對特定任務監督學習	自監督預訓練 + 後續對齊
能力範圍	單一任務（如翻譯、分類）	通用語言理解與生成
湧現能力	無	有（思維鏈推理、少樣本學習等）
訓練資料	數十萬至數百萬筆標注資料	數兆個 Token 非標注資料
代表模型	BERT（分類）、MarianMT（翻譯）	GPT-4、Claude、Gemini、LLaMA

湧現能力範例：

湧現能力	說明
思維鏈推理（Chain-of-Thought, CoT）	模型能一步一步推導數學或邏輯問題
少樣本學習（Few-Shot Learning）	只給幾個範例，模型就能學會新任務
指令遵循（Instruction Following）	按照自然語言指令完成複雜任務
程式碼生成（Code Generation）	從自然語言描述直接生成可執行程式碼

考試重點：湧現能力（Emergent Abilities） 是 LLM 與傳統 NLP 模型的核心區別。這些能力在小規模模型中不存在，只在參數量超過某個臨界點後才「突然出現」，是 LLM 最重要的特性之一。

2.3 四階段訓練流程

GPT 系列等主流 LLM 的完整訓練流程可分為四個階段，每個階段目標不同：

[第一階段] 預訓練 Pre-training
  學會語言本身
  ↓
[第二階段] 微調 Fine-tuning
  適應特定領域或任務
  ↓
[第三階段] 指令微調 Instruction Tuning
  學會理解並遵循人類指令
  ↓
[第四階段] RLHF 人類回饋強化學習
  對齊人類偏好，輸出更有幫助、無害、誠實的回答

2.4 第一階段：預訓練（Pre-training）

預訓練是 LLM 的基礎，目標是讓模型從海量文字中學習語言的統計規律。

訓練目標：下一個 Token 預測（Next Token Prediction），給定前面的文字，預測下一個最可能出現的詞（或次詞單元）。

生活類比：

這就像把一個人關進世界最大的圖書館，讀完所有書籍、論文、網站。他不需要老師告訴他「這句話對不對」，他只是大量閱讀，自然內化了語言的邏輯、知識與模式。這個過程叫做自監督學習（Self-supervised Learning），因為訓練標籤（下一個詞是什麼）直接從文字本身取得，不需要人工標注。

預訓練的四大要素：

要素	說明
訓練目標	最大化預測下一個 Token 的準確性（最小化交叉熵損失）
訓練資料	Common Crawl 網頁、Books、Wikipedia、GitHub、ArXiv 等
計算資源	數千塊 A100/H100 GPU，訓練時間數週至數月
訓練方式	自監督學習（Self-supervised Learning），無需人工標注

擴展定律（Scaling Laws）：

Chinchilla 論文（DeepMind, 2022）提出：模型參數量與訓練 Token 數量應等比例增長，才能達到最佳訓練效率。

模型大小	最佳訓練 Token 數（Chinchilla 建議）
7B 參數	約 140B Tokens
70B 參數	約 1.4T Tokens
700B 參數	約 14T Tokens

考試重點：預訓練（Pre-training） 採用自監督學習（Self-supervised Learning），訓練目標是「下一個 Token 預測」。不需要人工標注資料，但需要極大量的計算資源。

2.5 第二階段：微調（Fine-tuning）

預訓練後的模型是「通才」，微調（Fine-tuning）是讓模型成為「專才」的過程，用較小的特定領域標注資料集繼續訓練，讓模型適應特定任務或領域。

生活類比：

醫學院學生完成六年基礎醫學教育（相當於預訓練）後，選擇心臟科進行住院醫師訓練（相當於微調），從通才醫師成為心臟科專家。

全量微調 vs 參數高效微調：

方法	說明	成本	適用情境
全量微調（Full Fine-tuning）	更新模型所有參數	極高（需與預訓練相近的資源）	資源充足、需深度適應特定領域
LoRA（Low-Rank Adaptation）	只在原始權重矩陣旁添加少量低秩矩陣，訓練這部分參數	低（只需訓練約 0.1~1% 的參數）	資源有限、快速適應新任務
QLoRA（Quantized LoRA）	LoRA + 量化（Quantization），進一步壓縮記憶體需求	極低（單張消費級 GPU 即可）	本地端微調開源模型

生活類比：

LoRA 就像在原本的書本上貼便條紙，書（原始模型）不動，你只是多貼了幾張便條紙來補充新知識，大幅節省了印一本全新書籍的成本。

考試重點：LoRA（Low-Rank Adaptation） 是目前最主流的參數高效微調（Parameter-Efficient Fine-Tuning, PEFT） 方法，只訓練少量額外參數，大幅降低微調成本，讓企業可以用有限資源客製化開源 LLM。

2.6 第三階段：指令微調（Instruction Tuning）

預訓練和微調後，模型擅長「補全文字」，但不擅長「回答問題」或「執行指令」。指令微調（Instruction Tuning） 用「指令-回應」格式的資料集，教模型學會遵循人類的自然語言指令。

指令微調資料格式範例：

欄位	內容
指令（Instruction）	「請將以下英文翻譯成繁體中文：The model is training.」
輸入（Input）	「The model is training.」
輸出（Output）	「模型正在訓練中。」

生活類比：

指令微調就像是教公司新進實習生（預訓練後的模型）遵循公司標準作業程序（SOP）。實習生或許很聰明，但你必須明確告訴他「收到客戶需求時，先確認需求、再報價、再交付」，他才知道怎麼「照規矩辦事」。

代表性指令微調資料集：

資料集	機構	特色
FLAN	Google	1,800+ 個任務，多語言指令資料集
Alpaca	Stanford	使用 GPT 自動生成 52,000 筆指令資料
OpenAssistant	LAION	開放授權的人工撰寫對話資料集

2.7 第四階段：RLHF（人類回饋強化學習）

RLHF（Reinforcement Learning from Human Feedback，人類回饋強化學習） 是讓模型輸出更符合人類偏好（有幫助、無害、誠實）的關鍵技術。

RLHF 三步驟流程：

步驟一：收集人類偏好資料
  人類評分員對同一問題的多個模型回答進行排名
  ↓
步驟二：訓練獎勵模型（Reward Model）
  用人類排名資料訓練一個「評分模型」，能預測人類對輸出的滿意度
  ↓
步驟三：PPO 強化學習優化
  以獎勵模型為評分者，用 PPO（Proximal Policy Optimization）
  演算法持續調整語言模型，讓輸出獲得更高分

生活類比：

這就像一堂寫作課。老師（獎勵模型）批改學生（語言模型）的作文，給出分數與回饋。學生根據回饋修改下一篇作文，目標是讓每次作文分數都更高。不同的是，AI「老師」是先從真實人類的評分偏好中學習「什麼樣的作文算好文章」，再去批改學生的每一篇習作。

RLHF 關鍵角色：

角色	說明
語言模型（LM / Policy）	被優化的主角，生成文字回應
獎勵模型（Reward Model, RM）	預測人類對輸出的偏好分數
人類評分員（Human Raters）	對模型多個輸出進行排名，提供訓練訊號
PPO 演算法	強化學習演算法，根據獎勵訊號調整語言模型參數

考試重點：RLHF 的三步驟是：①收集人類偏好排名 → ②訓練獎勵模型（Reward Model）→ ③用 PPO 優化語言模型。RLHF 是 ChatGPT、Claude 等「好用」的 AI 助理背後的關鍵技術，解決的是「模型能力」與「人類偏好對齊」之間的落差。

2.8 關鍵推論概念

理解 LLM 的輸出行為，需要掌握以下推論階段的核心概念：

分詞化（Tokenization）

LLM 不直接處理文字，而是先將文字切分成Token（詞元）。常見演算法有 BPE（Byte Pair Encoding） 與 WordPiece。

概念	說明
Token	LLM 處理的最小語言單元，可能是一個字、半個字或一個標點
BPE（Byte Pair Encoding）	從字元出發，反覆合併高頻字元組合，用於 GPT 系列
WordPiece	類似 BPE，用於 BERT 系列
Token 與字的關係	英文約 1 個字 ≈ 1.3 Token；中文約 1 個字 ≈ 1~2 Token

情境視窗（Context Window）

模型每次推論能「看到」的最大 Token 數量。超過此長度的內容模型無法參考。

模型	Context Window
GPT-3.5	16K Tokens
GPT-4o	128K Tokens
Claude 3.5 Sonnet	200K Tokens
Gemini 1.5 Pro	1M Tokens

溫度（Temperature）與 Top-p 取樣

控制模型輸出的隨機性（Randomness）：

參數	說明	建議設定
Temperature = 0	完全確定性，每次輸出相同（取最高機率 Token）	適合需要一致性的任務（分類、結構化輸出）
Temperature = 1	預設，按機率分布取樣	適合一般對話
Temperature > 1	更隨機、更有創意，也更容易出錯	適合創意寫作
Top-p（Nucleus Sampling）	只從累積機率超過 p 的 Token 中取樣，控制輸出多樣性	Top-p = 0.9 為常見設定

2.9 主流 LLM 比較

模型	開發商	開放 / 閉源	特色
GPT-4o	OpenAI	閉源（API）	多模態（文字、圖片、語音），推理能力強
Claude 3.5 Sonnet	Anthropic	閉源（API）	長情境（200K），安全性強，適合文件分析
Gemini 1.5 Pro	Google	閉源（API）	超長情境（1M Token），Google 生態整合
LLaMA 3	Meta	開源	可本地部署，企業可自行微調，無需付費
Mistral 7B	Mistral AI	開源	小而精，7B 參數達到 13B 模型的性能，適合資源有限場景
Qwen / 通義千問	Alibaba	開源 + 閉源	中文優化，多模態，亞洲市場廣泛應用

開源 vs 閉源 LLM 比較：

面向	閉源 LLM（如 GPT-4）	開源 LLM（如 LLaMA 3）
使用方式	API 呼叫，按量計費	下載模型，可本地運行
客製化	有限（只能 Fine-tune API）	完全可控，可修改模型結構
資料隱私	資料傳送至服務商	資料留在本地，隱私較佳
能力上限	通常更強（計算資源更多）	受限於模型大小，但持續追趕
成本	用量計費，大規模使用成本高	前期硬體投資，長期使用成本較低

三、關鍵名詞中英對照

中文	英文	說明
大型語言模型	Large Language Model (LLM)	數十億以上參數、以海量文字訓練的語言模型
參數	Parameters	模型中可調整的權重數量，決定模型「記憶」的上限
預訓練	Pre-training	以下一個 Token 預測為目標，在海量文字上訓練模型
自監督學習	Self-supervised Learning	不需人工標注，標籤直接從資料本身產生的訓練方式
微調	Fine-tuning	用較小的特定資料集繼續訓練預訓練模型
參數高效微調	Parameter-Efficient Fine-Tuning (PEFT)	只訓練少量額外參數的微調方法，降低成本
低秩適應	LoRA (Low-Rank Adaptation)	在原始權重旁加入低秩矩陣進行微調的 PEFT 技術
量化低秩適應	QLoRA (Quantized LoRA)	LoRA 結合量化技術，可在消費級 GPU 上微調大模型
指令微調	Instruction Tuning	用指令-回應格式資料集訓練模型遵循指令的技術
人類回饋強化學習	RLHF (Reinforcement Learning from Human Feedback)	利用人類偏好排名訓練獎勵模型，再以強化學習優化 LLM
獎勵模型	Reward Model (RM)	預測人類對模型輸出偏好程度的輔助模型
近端策略優化	PPO (Proximal Policy Optimization)	RLHF 中用於優化語言模型的強化學習演算法
湧現能力	Emergent Abilities	模型規模超過臨界值後自發出現的新能力
分詞化	Tokenization	將文字切分為模型可處理的 Token 的過程
詞元	Token	LLM 處理的最小語言單元
位元組對編碼	BPE (Byte Pair Encoding)	常見的分詞演算法，用於 GPT 系列
情境視窗	Context Window	模型單次推論能處理的最大 Token 數量
溫度	Temperature	控制模型輸出隨機性的參數
核取樣	Top-p / Nucleus Sampling	從累積機率超過閾值的 Token 中取樣的策略
擴展定律	Scaling Laws	描述模型性能與參數量、資料量、計算量關係的規律
對齊	Alignment	使 AI 輸出符合人類意圖、價值觀與偏好的過程

四、考試重點提示

考試重點：LLM 預訓練（Pre-training） 的核心訓練目標是「下一個 Token 預測（Next Token Prediction）」，採用自監督學習（Self-supervised Learning），標注來自資料本身，不需人工標注。

考試重點：微調（Fine-tuning） 的目的是讓通用模型適應特定領域。LoRA 是目前最主流的參數高效微調方法，只訓練約 0.1~1% 的額外參數，大幅降低計算成本。

考試重點：指令微調（Instruction Tuning） 讓模型從「補全文字」轉變為「遵循指令」。訓練資料格式為「指令 + 輸入 + 輸出」三欄式。

考試重點：RLHF 三步驟固定考：①人類評分員對輸出排名 → ②訓練獎勵模型（Reward Model） → ③用 PPO 優化語言模型。這是讓 ChatGPT 等助理「聽話又有幫助」的核心技術。

考試重點：湧現能力（Emergent Abilities） 是 LLM 與傳統 NLP 模型最重要的區別，這些能力在規模小時不存在，超過臨界點才突然出現，包含思維鏈推理、少樣本學習等。

考試重點：Temperature = 0 輸出最確定（適合分類）；Temperature 高 輸出更有創意（適合寫作）。情境視窗（Context Window） 決定模型能「記住」多長的對話歷史。

Q1. LLM 預訓練（Pre-training）的核心訓練目標是什麼？

A. 預測輸入文字的情感正負
B. 對給定指令生成最符合人類偏好的回應
C. 預測序列中的下一個 Token，以自監督方式學習語言規律
D. 將輸入文字分類到預先定義的類別中

Q2. 企業想要讓一個 70B 參數的開源 LLM 能理解公司內部的法律文件，但計算資源有限。以下哪種做法最合適？

A. 從頭開始預訓練一個全新的模型
B. 使用 LoRA（Low-Rank Adaptation） 進行參數高效微調
C. 只調整 Temperature 參數讓模型更聚焦
D. 增加模型的 Context Window 大小

Q3. RLHF（人類回饋強化學習）的三個步驟，正確順序是？

A. 訓練獎勵模型 → 收集人類偏好排名 → PPO 優化語言模型
B. PPO 優化語言模型 → 訓練獎勵模型 → 收集人類偏好排名
C. 收集人類偏好排名 → 訓練獎勵模型 → PPO 優化語言模型
D. 收集人類偏好排名 → PPO 優化語言模型 → 訓練獎勵模型

Q4. 以下哪個特性最能區分 LLM 與傳統 NLP 模型（如 BERT 文字分類器）？

A. LLM 使用 Transformer 架構，傳統 NLP 使用 RNN
B. LLM 具備湧現能力（Emergent Abilities），如思維鏈推理與少樣本學習，傳統 NLP 模型沒有
C. LLM 只能生成文字，傳統 NLP 只能分類文字
D. LLM 需要人工標注資料，傳統 NLP 使用自監督學習

Q5. 使用者希望 AI 每次對同一個問題給出完全一致（不隨機）的答案，應該將 Temperature 設定為？

A. Temperature = 2
B. Temperature = 1
C. Temperature = 0.5
D. Temperature = 0

解答與解析

題號	答案	解析
Q1	C	預訓練的核心目標是「下一個 Token 預測」，給定前面的文字，模型預測最可能接續的 Token。這是自監督學習，標注直接來自文字本身（下一個詞就是標注），不需人工標記。選 A 是情感分析、選 B 是 RLHF 的目標、選 D 是分類任務，均不是預訓練的定義。
Q2	B	資源有限時的最佳選擇是 LoRA（Low-Rank Adaptation），只需訓練約 0.1~1% 的額外參數，大幅降低微調成本，同時保留預訓練模型的通用能力。選 A 成本極高且從頭訓練無法利用已有預訓練知識；選 C 調整 Temperature 只影響輸出隨機性，無法讓模型學習新領域知識；選 D 增加 Context Window 是架構改動，無法讓模型「理解」特定領域。
Q3	C	RLHF 正確三步驟：①收集人類偏好排名（人類評分員對多個輸出排名）→ ②訓練獎勵模型（用排名資料訓練能預測人類偏好的評分模型）→ ③PPO 優化語言模型（以獎勵模型評分為訊號，用強化學習持續改善語言模型輸出）。邏輯是：先蒐集人類偏好資料，再建立代理人類打分的模型，最後用這個代理評分者優化 LLM。
Q4	B	湧現能力（Emergent Abilities）是 LLM 最重要的特性，這些能力在小模型中完全不存在，只在參數量超過臨界點後突然出現，包括思維鏈推理、少樣本學習、程式碼生成等。選 A 不正確，BERT 等傳統 NLP 模型也使用 Transformer；選 C 不正確，LLM 也能做分類；選 D 正好相反，LLM 的預訓練用自監督學習，傳統 NLP 模型通常需要標注資料。
Q5	D	Temperature = 0 時，模型每次都選擇機率最高的 Token，輸出完全確定（Deterministic）。Temperature 越高，取樣越隨機，輸出越多元但也越不穩定。需要一致性輸出（如結構化資料擷取、分類判斷）時應設為 0；需要創意性輸出（如故事寫作）時可提高 Temperature。