一、學習目標
- 理解大型語言模型(Large Language Model, LLM) 的定義、規模特徵與「湧現能力(Emergent Abilities)」
- 掌握 LLM 四階段訓練流程:預訓練(Pre-training)→ 微調(Fine-tuning)→ 指令微調(Instruction Tuning)→ RLHF
- 了解參數高效微調(Parameter-Efficient Fine-Tuning, PEFT) 技術,特別是 LoRA/QLoRA
- 熟悉分詞化(Tokenization)、情境視窗(Context Window)、溫度(Temperature) 等推論關鍵概念
- 能比較 GPT-4、Claude、Gemini、LLaMA 等主流 LLM 的架構定位與差異
二、核心內容
2.1 什麼是大型語言模型(LLM)?
大型語言模型(Large Language Model, LLM) 是以 Transformer 架構為基礎、擁有數十億至數千億個參數(Parameters)、透過海量文字語料訓練而成的神經網路模型。LLM 的核心能力是「預測下一個 Token」——給定一段文字,模型計算出接下來最可能出現的詞。
生活類比:
想像一個人從出生開始,把世界上每一本書、每一篇網路文章、每一段對話都讀過一遍。讀完之後,他不僅能「接龍」任何句子,還能回答各種問題、寫文章、寫程式——這就是 LLM 的預訓練結果。
LLM 的規模特徵:
| 特徵 | 說明 |
|---|---|
| 參數量(Parameters) | 模型中可調整的權重數量,GPT-4 估計超過 1 兆個參數 |
| 訓練語料(Training Corpus) | 通常達數兆個 Token,涵蓋網頁、書籍、程式碼、論文 |
| 計算需求(Compute) | 預訓練需要數千塊 GPU 連續運行數週,成本達數千萬美元 |
| 湧現能力(Emergent Abilities) | 規模超過臨界點後,模型自發出現預訓練階段未明確教導的能力 |
2.2 規模改變一切:湧現能力(Emergent Abilities)
傳統 NLP 模型(如命名實體識別、文字分類)是為特定任務設計的,規模小、能力有限。LLM 帶來了「規模即能力(Scale is All You Need)」的典範轉移。
傳統 NLP vs LLM 比較:
| 面向 | 傳統 NLP 模型 | LLM |
|---|---|---|
| 參數量 | 數百萬至數億 | 數十億至數千億 |
| 訓練方式 | 針對特定任務監督學習 | 自監督預訓練 + 後續對齊 |
| 能力範圍 | 單一任務(如翻譯、分類) | 通用語言理解與生成 |
| 湧現能力 | 無 | 有(思維鏈推理、少樣本學習等) |
| 訓練資料 | 數十萬至數百萬筆標注資料 | 數兆個 Token 非標注資料 |
| 代表模型 | BERT(分類)、MarianMT(翻譯) | GPT-4、Claude、Gemini、LLaMA |
湧現能力範例:
| 湧現能力 | 說明 |
|---|---|
| 思維鏈推理(Chain-of-Thought, CoT) | 模型能一步一步推導數學或邏輯問題 |
| 少樣本學習(Few-Shot Learning) | 只給幾個範例,模型就能學會新任務 |
| 指令遵循(Instruction Following) | 按照自然語言指令完成複雜任務 |
| 程式碼生成(Code Generation) | 從自然語言描述直接生成可執行程式碼 |
考試重點:湧現能力(Emergent Abilities) 是 LLM 與傳統 NLP 模型的核心區別。這些能力在小規模模型中不存在,只在參數量超過某個臨界點後才「突然出現」,是 LLM 最重要的特性之一。
2.3 四階段訓練流程
GPT 系列等主流 LLM 的完整訓練流程可分為四個階段,每個階段目標不同:
[第一階段] 預訓練 Pre-training
學會語言本身
↓
[第二階段] 微調 Fine-tuning
適應特定領域或任務
↓
[第三階段] 指令微調 Instruction Tuning
學會理解並遵循人類指令
↓
[第四階段] RLHF 人類回饋強化學習
對齊人類偏好,輸出更有幫助、無害、誠實的回答
2.4 第一階段:預訓練(Pre-training)
預訓練是 LLM 的基礎,目標是讓模型從海量文字中學習語言的統計規律。
訓練目標:下一個 Token 預測(Next Token Prediction)——給定前面的文字,預測下一個最可能出現的詞(或次詞單元)。
生活類比:
這就像把一個人關進世界最大的圖書館,讀完所有書籍、論文、網站。他不需要老師告訴他「這句話對不對」——他只是大量閱讀,自然內化了語言的邏輯、知識與模式。這個過程叫做自監督學習(Self-supervised Learning),因為訓練標籤(下一個詞是什麼)直接從文字本身取得,不需要人工標注。
預訓練的四大要素:
| 要素 | 說明 |
|---|---|
| 訓練目標 | 最大化預測下一個 Token 的準確性(最小化交叉熵損失) |
| 訓練資料 | Common Crawl 網頁、Books、Wikipedia、GitHub、ArXiv 等 |
| 計算資源 | 數千塊 A100/H100 GPU,訓練時間數週至數月 |
| 訓練方式 | 自監督學習(Self-supervised Learning),無需人工標注 |
擴展定律(Scaling Laws):
Chinchilla 論文(DeepMind, 2022)提出:模型參數量與訓練 Token 數量應等比例增長,才能達到最佳訓練效率。
| 模型大小 | 最佳訓練 Token 數(Chinchilla 建議) |
|---|---|
| 7B 參數 | 約 140B Tokens |
| 70B 參數 | 約 1.4T Tokens |
| 700B 參數 | 約 14T Tokens |
考試重點:預訓練(Pre-training) 採用自監督學習(Self-supervised Learning),訓練目標是「下一個 Token 預測」。不需要人工標注資料,但需要極大量的計算資源。
2.5 第二階段:微調(Fine-tuning)
預訓練後的模型是「通才」,微調(Fine-tuning)是讓模型成為「專才」的過程——用較小的特定領域標注資料集繼續訓練,讓模型適應特定任務或領域。
生活類比:
醫學院學生完成六年基礎醫學教育(相當於預訓練)後,選擇心臟科進行住院醫師訓練(相當於微調)——從通才醫師成為心臟科專家。
全量微調 vs 參數高效微調:
| 方法 | 說明 | 成本 | 適用情境 |
|---|---|---|---|
| 全量微調(Full Fine-tuning) | 更新模型所有參數 | 極高(需與預訓練相近的資源) | 資源充足、需深度適應特定領域 |
| LoRA(Low-Rank Adaptation) | 只在原始權重矩陣旁添加少量低秩矩陣,訓練這部分參數 | 低(只需訓練約 0.1~1% 的參數) | 資源有限、快速適應新任務 |
| QLoRA(Quantized LoRA) | LoRA + 量化(Quantization),進一步壓縮記憶體需求 | 極低(單張消費級 GPU 即可) | 本地端微調開源模型 |
生活類比:
LoRA 就像在原本的書本上貼便條紙——書(原始模型)不動,你只是多貼了幾張便條紙來補充新知識,大幅節省了印一本全新書籍的成本。
考試重點:LoRA(Low-Rank Adaptation) 是目前最主流的參數高效微調(Parameter-Efficient Fine-Tuning, PEFT) 方法,只訓練少量額外參數,大幅降低微調成本,讓企業可以用有限資源客製化開源 LLM。
2.6 第三階段:指令微調(Instruction Tuning)
預訓練和微調後,模型擅長「補全文字」,但不擅長「回答問題」或「執行指令」。指令微調(Instruction Tuning) 用「指令-回應」格式的資料集,教模型學會遵循人類的自然語言指令。
指令微調資料格式範例:
| 欄位 | 內容 |
|---|---|
| 指令(Instruction) | 「請將以下英文翻譯成繁體中文:The model is training.」 |
| 輸入(Input) | 「The model is training.」 |
| 輸出(Output) | 「模型正在訓練中。」 |
生活類比:
指令微調就像是教公司新進實習生(預訓練後的模型)遵循公司標準作業程序(SOP)。實習生或許很聰明,但你必須明確告訴他「收到客戶需求時,先確認需求、再報價、再交付」——他才知道怎麼「照規矩辦事」。
代表性指令微調資料集:
| 資料集 | 機構 | 特色 |
|---|---|---|
| FLAN | 1,800+ 個任務,多語言指令資料集 | |
| Alpaca | Stanford | 使用 GPT 自動生成 52,000 筆指令資料 |
| OpenAssistant | LAION | 開放授權的人工撰寫對話資料集 |
2.7 第四階段:RLHF(人類回饋強化學習)
RLHF(Reinforcement Learning from Human Feedback,人類回饋強化學習) 是讓模型輸出更符合人類偏好(有幫助、無害、誠實)的關鍵技術。
RLHF 三步驟流程:
步驟一:收集人類偏好資料
人類評分員對同一問題的多個模型回答進行排名
↓
步驟二:訓練獎勵模型(Reward Model)
用人類排名資料訓練一個「評分模型」,能預測人類對輸出的滿意度
↓
步驟三:PPO 強化學習優化
以獎勵模型為評分者,用 PPO(Proximal Policy Optimization)
演算法持續調整語言模型,讓輸出獲得更高分
生活類比:
這就像一堂寫作課。老師(獎勵模型)批改學生(語言模型)的作文,給出分數與回饋。學生根據回饋修改下一篇作文,目標是讓每次作文分數都更高。不同的是,AI「老師」是先從真實人類的評分偏好中學習「什麼樣的作文算好文章」,再去批改學生的每一篇習作。
RLHF 關鍵角色:
| 角色 | 說明 |
|---|---|
| 語言模型(LM / Policy) | 被優化的主角,生成文字回應 |
| 獎勵模型(Reward Model, RM) | 預測人類對輸出的偏好分數 |
| 人類評分員(Human Raters) | 對模型多個輸出進行排名,提供訓練訊號 |
| PPO 演算法 | 強化學習演算法,根據獎勵訊號調整語言模型參數 |
考試重點:RLHF 的三步驟是:①收集人類偏好排名 → ②訓練獎勵模型(Reward Model)→ ③用 PPO 優化語言模型。RLHF 是 ChatGPT、Claude 等「好用」的 AI 助理背後的關鍵技術,解決的是「模型能力」與「人類偏好對齊」之間的落差。
2.8 關鍵推論概念
理解 LLM 的輸出行為,需要掌握以下推論階段的核心概念:
分詞化(Tokenization)
LLM 不直接處理文字,而是先將文字切分成Token(詞元)。常見演算法有 BPE(Byte Pair Encoding) 與 WordPiece。
| 概念 | 說明 |
|---|---|
| Token | LLM 處理的最小語言單元,可能是一個字、半個字或一個標點 |
| BPE(Byte Pair Encoding) | 從字元出發,反覆合併高頻字元組合,用於 GPT 系列 |
| WordPiece | 類似 BPE,用於 BERT 系列 |
| Token 與字的關係 | 英文約 1 個字 ≈ 1.3 Token;中文約 1 個字 ≈ 1~2 Token |
情境視窗(Context Window)
模型每次推論能「看到」的最大 Token 數量。超過此長度的內容模型無法參考。
| 模型 | Context Window |
|---|---|
| GPT-3.5 | 16K Tokens |
| GPT-4o | 128K Tokens |
| Claude 3.5 Sonnet | 200K Tokens |
| Gemini 1.5 Pro | 1M Tokens |
溫度(Temperature)與 Top-p 取樣
控制模型輸出的隨機性(Randomness):
| 參數 | 說明 | 建議設定 |
|---|---|---|
| Temperature = 0 | 完全確定性,每次輸出相同(取最高機率 Token) | 適合需要一致性的任務(分類、結構化輸出) |
| Temperature = 1 | 預設,按機率分布取樣 | 適合一般對話 |
| Temperature > 1 | 更隨機、更有創意,也更容易出錯 | 適合創意寫作 |
| Top-p(Nucleus Sampling) | 只從累積機率超過 p 的 Token 中取樣,控制輸出多樣性 | Top-p = 0.9 為常見設定 |
2.9 主流 LLM 比較
| 模型 | 開發商 | 開放 / 閉源 | 特色 |
|---|---|---|---|
| GPT-4o | OpenAI | 閉源(API) | 多模態(文字、圖片、語音),推理能力強 |
| Claude 3.5 Sonnet | Anthropic | 閉源(API) | 長情境(200K),安全性強,適合文件分析 |
| Gemini 1.5 Pro | 閉源(API) | 超長情境(1M Token),Google 生態整合 | |
| LLaMA 3 | Meta | 開源 | 可本地部署,企業可自行微調,無需付費 |
| Mistral 7B | Mistral AI | 開源 | 小而精,7B 參數達到 13B 模型的性能,適合資源有限場景 |
| Qwen / 通義千問 | Alibaba | 開源 + 閉源 | 中文優化,多模態,亞洲市場廣泛應用 |
開源 vs 閉源 LLM 比較:
| 面向 | 閉源 LLM(如 GPT-4) | 開源 LLM(如 LLaMA 3) |
|---|---|---|
| 使用方式 | API 呼叫,按量計費 | 下載模型,可本地運行 |
| 客製化 | 有限(只能 Fine-tune API) | 完全可控,可修改模型結構 |
| 資料隱私 | 資料傳送至服務商 | 資料留在本地,隱私較佳 |
| 能力上限 | 通常更強(計算資源更多) | 受限於模型大小,但持續追趕 |
| 成本 | 用量計費,大規模使用成本高 | 前期硬體投資,長期使用成本較低 |
三、關鍵名詞中英對照
| 中文 | 英文 | 說明 |
|---|---|---|
| 大型語言模型 | Large Language Model (LLM) | 數十億以上參數、以海量文字訓練的語言模型 |
| 參數 | Parameters | 模型中可調整的權重數量,決定模型「記憶」的上限 |
| 預訓練 | Pre-training | 以下一個 Token 預測為目標,在海量文字上訓練模型 |
| 自監督學習 | Self-supervised Learning | 不需人工標注,標籤直接從資料本身產生的訓練方式 |
| 微調 | Fine-tuning | 用較小的特定資料集繼續訓練預訓練模型 |
| 參數高效微調 | Parameter-Efficient Fine-Tuning (PEFT) | 只訓練少量額外參數的微調方法,降低成本 |
| 低秩適應 | LoRA (Low-Rank Adaptation) | 在原始權重旁加入低秩矩陣進行微調的 PEFT 技術 |
| 量化低秩適應 | QLoRA (Quantized LoRA) | LoRA 結合量化技術,可在消費級 GPU 上微調大模型 |
| 指令微調 | Instruction Tuning | 用指令-回應格式資料集訓練模型遵循指令的技術 |
| 人類回饋強化學習 | RLHF (Reinforcement Learning from Human Feedback) | 利用人類偏好排名訓練獎勵模型,再以強化學習優化 LLM |
| 獎勵模型 | Reward Model (RM) | 預測人類對模型輸出偏好程度的輔助模型 |
| 近端策略優化 | PPO (Proximal Policy Optimization) | RLHF 中用於優化語言模型的強化學習演算法 |
| 湧現能力 | Emergent Abilities | 模型規模超過臨界值後自發出現的新能力 |
| 分詞化 | Tokenization | 將文字切分為模型可處理的 Token 的過程 |
| 詞元 | Token | LLM 處理的最小語言單元 |
| 位元組對編碼 | BPE (Byte Pair Encoding) | 常見的分詞演算法,用於 GPT 系列 |
| 情境視窗 | Context Window | 模型單次推論能處理的最大 Token 數量 |
| 溫度 | Temperature | 控制模型輸出隨機性的參數 |
| 核取樣 | Top-p / Nucleus Sampling | 從累積機率超過閾值的 Token 中取樣的策略 |
| 擴展定律 | Scaling Laws | 描述模型性能與參數量、資料量、計算量關係的規律 |
| 對齊 | Alignment | 使 AI 輸出符合人類意圖、價值觀與偏好的過程 |
四、考試重點提示
考試重點:LLM 預訓練(Pre-training) 的核心訓練目標是「下一個 Token 預測(Next Token Prediction)」,採用自監督學習(Self-supervised Learning)——標注來自資料本身,不需人工標注。
考試重點:微調(Fine-tuning) 的目的是讓通用模型適應特定領域。LoRA 是目前最主流的參數高效微調方法,只訓練約 0.1~1% 的額外參數,大幅降低計算成本。
考試重點:指令微調(Instruction Tuning) 讓模型從「補全文字」轉變為「遵循指令」。訓練資料格式為「指令 + 輸入 + 輸出」三欄式。
考試重點:RLHF 三步驟固定考:①人類評分員對輸出排名 → ②訓練獎勵模型(Reward Model) → ③用 PPO 優化語言模型。這是讓 ChatGPT 等助理「聽話又有幫助」的核心技術。
考試重點:湧現能力(Emergent Abilities) 是 LLM 與傳統 NLP 模型最重要的區別——這些能力在規模小時不存在,超過臨界點才突然出現,包含思維鏈推理、少樣本學習等。
考試重點:Temperature = 0 輸出最確定(適合分類);Temperature 高 輸出更有創意(適合寫作)。情境視窗(Context Window) 決定模型能「記住」多長的對話歷史。
Q1. LLM 預訓練(Pre-training)的核心訓練目標是什麼?
- A. 預測輸入文字的情感正負
- B. 對給定指令生成最符合人類偏好的回應
- C. 預測序列中的下一個 Token,以自監督方式學習語言規律
- D. 將輸入文字分類到預先定義的類別中
Q2. 企業想要讓一個 70B 參數的開源 LLM 能理解公司內部的法律文件,但計算資源有限。以下哪種做法最合適?
- A. 從頭開始預訓練一個全新的模型
- B. 使用 LoRA(Low-Rank Adaptation) 進行參數高效微調
- C. 只調整 Temperature 參數讓模型更聚焦
- D. 增加模型的 Context Window 大小
Q3. RLHF(人類回饋強化學習)的三個步驟,正確順序是?
- A. 訓練獎勵模型 → 收集人類偏好排名 → PPO 優化語言模型
- B. PPO 優化語言模型 → 訓練獎勵模型 → 收集人類偏好排名
- C. 收集人類偏好排名 → 訓練獎勵模型 → PPO 優化語言模型
- D. 收集人類偏好排名 → PPO 優化語言模型 → 訓練獎勵模型
Q4. 以下哪個特性最能區分 LLM 與傳統 NLP 模型(如 BERT 文字分類器)?
- A. LLM 使用 Transformer 架構,傳統 NLP 使用 RNN
- B. LLM 具備湧現能力(Emergent Abilities),如思維鏈推理與少樣本學習,傳統 NLP 模型沒有
- C. LLM 只能生成文字,傳統 NLP 只能分類文字
- D. LLM 需要人工標注資料,傳統 NLP 使用自監督學習
Q5. 使用者希望 AI 每次對同一個問題給出完全一致(不隨機)的答案,應該將 Temperature 設定為?
- A. Temperature = 2
- B. Temperature = 1
- C. Temperature = 0.5
- D. Temperature = 0
解答與解析
| 題號 | 答案 | 解析 |
|---|---|---|
| Q1 | C | 預訓練的核心目標是「下一個 Token 預測」——給定前面的文字,模型預測最可能接續的 Token。這是自監督學習,標注直接來自文字本身(下一個詞就是標注),不需人工標記。選 A 是情感分析、選 B 是 RLHF 的目標、選 D 是分類任務,均不是預訓練的定義。 |
| Q2 | B | 資源有限時的最佳選擇是 LoRA(Low-Rank Adaptation),只需訓練約 0.1~1% 的額外參數,大幅降低微調成本,同時保留預訓練模型的通用能力。選 A 成本極高且從頭訓練無法利用已有預訓練知識;選 C 調整 Temperature 只影響輸出隨機性,無法讓模型學習新領域知識;選 D 增加 Context Window 是架構改動,無法讓模型「理解」特定領域。 |
| Q3 | C | RLHF 正確三步驟:①收集人類偏好排名(人類評分員對多個輸出排名)→ ②訓練獎勵模型(用排名資料訓練能預測人類偏好的評分模型)→ ③PPO 優化語言模型(以獎勵模型評分為訊號,用強化學習持續改善語言模型輸出)。邏輯是:先蒐集人類偏好資料,再建立代理人類打分的模型,最後用這個代理評分者優化 LLM。 |
| Q4 | B | 湧現能力(Emergent Abilities) 是 LLM 最重要的特性——這些能力在小模型中完全不存在,只在參數量超過臨界點後突然出現,包括思維鏈推理、少樣本學習、程式碼生成等。選 A 不正確,BERT 等傳統 NLP 模型也使用 Transformer;選 C 不正確,LLM 也能做分類;選 D 正好相反,LLM 的預訓練用自監督學習,傳統 NLP 模型通常需要標注資料。 |
| Q5 | D | Temperature = 0 時,模型每次都選擇機率最高的 Token,輸出完全確定(Deterministic)。Temperature 越高,取樣越隨機,輸出越多元但也越不穩定。需要一致性輸出(如結構化資料擷取、分類判斷)時應設為 0;需要創意性輸出(如故事寫作)時可提高 Temperature。 |