一、學習目標
- 理解**生成式 AI(Generative AI)**的核心概念:學習資料分布 P(X)
- 掌握四大生成模型的原理:GAN、VAE、Diffusion Models、LLM/GPT
- 了解各模型的優缺點與代表性應用
- 能夠對比鑑別式 AI 與生成式 AI 的根本差異
二、核心內容
2.1 什麼是生成式 AI?
生成式 AI(Generative AI) 的任務是「創造」——它不只是判斷「這是什麼」,而是能「製造出全新的東西」。
生活類比:
鑑別式 AI 像一位美食評審:看一道菜,說「這是法式料理,給 4 顆星」。 生成式 AI 像一位主廚:學會了無數道食譜的精髓後,能從頭設計出一道全新料理。
核心數學邏輯:
- 鑑別式 AI 學習:P(Y|X)——給定資料 X,預測標籤 Y
- 生成式 AI 學習:P(X)——理解資料 X 本身的分布規律,然後從這個分布中「抽樣」出新資料
訓練資料 學習 生成結果
[真實人臉圖片] → 學習人臉分布 P(X) → 生成從未存在過的人臉
[真實文章] → 學習語言分布 P(X) → 生成全新文章
[真實音樂] → 學習旋律分布 P(X) → 生成原創音樂
2.2 四大生成模型
模型一:生成對抗網路(GAN,Generative Adversarial Network)
類比:造假幣的罪犯 vs. 鑑定真偽的警察。罪犯不斷改進技術讓假幣更逼真,警察不斷升級眼光抓出假幣——兩者互相對抗、共同進化,最終罪犯的手藝精湛到連頂尖警察都分不清。
核心架構:兩個網路的對抗訓練
| 角色 | 網路 | 任務 | 輸入 | 輸出 |
|---|---|---|---|---|
| 造假者 | 生成器(Generator, G) | 生成假資料以欺騙判別器 | 隨機噪聲 z | 假圖片 |
| 警察 | 判別器(Discriminator, D) | 判斷資料是真實還是生成的 | 真/假圖片 | 真實機率 0~1 |
Minimax 訓練目標:
G 希望:讓 D 以為假圖片是真的(最大化 D 的錯誤率)
D 希望:正確區分真假(最大化自己的準確率)
兩者互相博弈,G 的生成能力不斷提升
代表性應用:
- StyleGAN(NVIDIA):生成超逼真人臉,thispersondoesnotexist.com
- Pix2Pix:草圖轉真實圖片
GAN 的著名問題——模式崩潰(Mode Collapse):
生成器「學聰明了」,發現只要一直生成同一種圖片就能欺騙判別器(例如一直生成同一張臉),導致輸出缺乏多樣性。這就像造假幣的罪犯只會複製同一版鈔票。
考試重點:GAN 的核心是「生成器 vs. 判別器的對抗訓練(Adversarial Training)」,訓練目標稱為 Minimax,主要缺點是「訓練不穩定」和「模式崩潰(Mode Collapse)」。
模型二:變分自動編碼器(VAE,Variational Autoencoder)
類比:你想畫一個「介於蘋果和橘子之間」的水果。VAE 先把所有水果「壓縮」成一個多維地圖(潛在空間),你只要在地圖上蘋果和橘子的中間點一點,它就能生成那個想像中的水果。
核心架構:編碼器-解碼器 + 機率潛在空間
原始圖片 X
↓
[編碼器 Encoder]
↓
潛在空間 z(以機率分布表示,μ 和 σ)
↓
[解碼器 Decoder]
↓
重建圖片 X'
兩個損失函數:
- 重建損失(Reconstruction Loss):X’ 要盡可能像原始 X
- KL 散度(KL Divergence):讓潛在空間的分布接近標準常態分布,確保空間是「連續且有意義的」
| 特性 | VAE | GAN |
|---|---|---|
| 訓練穩定性 | 穩定(有明確損失函數) | 不穩定(兩網路對抗) |
| 生成品質 | 偏模糊 | 清晰逼真 |
| 潛在空間 | 連續、可插值 | 不保證連續 |
| 可控性 | 高(可在潛在空間操作) | 低 |
考試重點:VAE 訓練穩定但生成圖片偏模糊;KL 散度用於規範潛在空間的分布形狀。
模型三:擴散模型(Diffusion Models)
類比:把一張清晰照片慢慢噴上沙子,最終變成一片雜訊——這是「前向過程」。然後訓練一個神經網路,學會怎麼把沙子一層一層吹走,還原出清晰圖片——這是「反向過程」。生成時,從純雜訊開始,讓模型一步步「去沙」,創造出全新的圖片。
核心流程:加噪 → 去噪
【前向過程(Forward Process,訓練用)】
清晰圖片 → 加一點噪聲 → 加更多噪聲 → ... → 純高斯雜訊
x_0 x_1 x_2 x_T
【反向過程(Reverse Process,生成用)】
純高斯雜訊 → 去一點噪聲 → 去更多噪聲 → ... → 生成圖片
x_T x_(T-1) x_0
關鍵技術:U-Net 架構
去噪網路通常使用 U-Net——一種能同時保留局部細節和全局結構的卷積網路架構,負責在每一步預測「應該去掉哪些雜訊」。
代表性模型:
- Stable Diffusion(開源,Stability AI)
- DALL-E 2 / DALL-E 3(OpenAI)
- Midjourney(基於擴散模型原理)
考試重點:擴散模型的兩個過程:前向加噪(Forward) 和 反向去噪(Reverse);去噪網路常用 U-Net 架構。
模型四:大型語言模型 / GPT(LLM / GPT)
類比:你在接龍遊戲中,給出「天空是藍色的,草地是綠色的,太陽是___」,大家都能猜到「黃色的」——GPT 就是透過無數次這樣的「猜下一個詞」訓練,學會了人類語言的全部規律。
核心機制:自回歸(Autoregressive)Token 預測
訓練目標:根據前面所有 token,預測下一個 token 的機率
輸入:「今天天氣」
預測:「很」(機率最高)
輸入:「今天天氣很」
預測:「好」
輸入:「今天天氣很好」
預測:「,」
... 如此循環直到生成完整句子
因果遮罩(Causal Mask):
GPT 在訓練時,使用因果遮罩確保模型只能看「左側」(已生成的)token,不能偷看「右側」(未來的)token。這和 BERT 的雙向注意力機制形成對比。
GPT 系列演進:
| 版本 | 年份 | 參數量 | 里程碑 |
|---|---|---|---|
| GPT-1 | 2018 | 1.17 億 | 首次展示大規模預訓練 |
| GPT-2 | 2019 | 15 億 | 文字生成能力震驚業界 |
| GPT-3 | 2020 | 1,750 億 | Few-shot learning 強大 |
| GPT-4 | 2023 | 未公開 | 多模態、推理能力大幅提升 |
Encoder-Decoder 架構(T5 / BART):
除了純解碼器的 GPT 架構,還有 Encoder-Decoder 架構:
- T5(Google):把所有 NLP 任務統一成「文字轉文字(Text-to-Text)」格式
- BART(Meta):結合 BERT 的雙向編碼與 GPT 的自回歸解碼,適合摘要、翻譯
Encoder:理解輸入(雙向注意力)
↓
Decoder:生成輸出(因果遮罩,自回歸)
考試重點:GPT 是解碼器(Decoder-Only)架構,使用因果遮罩,做自回歸預測。T5/BART 是 Encoder-Decoder 架構,適合翻譯、摘要等序列到序列任務。
2.3 生成式 AI 的主要應用場景
- 文字生成(Text Generation):ChatGPT、Claude、Gemini——對話、寫作、程式碼生成
- 圖片生成(Image Generation):DALL-E 3、Midjourney、Stable Diffusion——文字描述轉圖片
- 音樂生成(Music Generation):Suno AI、AIVA——輸入風格描述,輸出完整歌曲
- 影片生成(Video Generation):Runway ML、Sora(OpenAI)——文字或圖片生成短影片
2.4 鑑別式 AI vs. 生成式 AI:完整對比
| 比較維度 | 鑑別式 AI | 生成式 AI |
|---|---|---|
| 核心任務 | 分類、預測、辨識 | 創作、生成新內容 |
| 學習目標 | P(Y|X)——條件機率 | P(X)——資料分布 |
| 訓練穩定性 | 相對穩定 | 較不穩定(尤其 GAN) |
| 可解釋性 | 較高(決策邊界可視化) | 較低(潛在空間難解釋) |
| 計算成本 | 相對低 | 非常高(需大量 GPU) |
| 資料需求 | 需要標記資料(Label) | 可使用無標記資料 |
| 輸出形式 | 標籤、類別、數值 | 文字、圖片、音樂、影片 |
| 代表模型 | CNN、SVM、BERT | GAN、VAE、Diffusion、GPT |
| 典型應用 | 醫療診斷、詐欺偵測 | ChatGPT、DALL-E、Midjourney |
三、關鍵名詞中英對照
| 中文 | 英文 | 說明 |
|---|---|---|
| 生成式 AI | Generative AI | 學習資料分布並生成新內容的模型 |
| 資料分布 | Data Distribution P(X) | 生成式 AI 的學習目標 |
| 生成對抗網路 | GAN (Generative Adversarial Network) | 生成器對抗判別器的架構 |
| 生成器 | Generator | GAN 中負責生成假資料的網路 |
| 判別器 | Discriminator | GAN 中負責判斷真假的網路 |
| 對抗訓練 | Adversarial Training | 生成器與判別器互相博弈的訓練方式 |
| 極小極大 | Minimax | GAN 的訓練目標函數 |
| 模式崩潰 | Mode Collapse | GAN 只生成少數幾種輸出的問題 |
| 變分自動編碼器 | VAE (Variational Autoencoder) | 有機率潛在空間的自動編碼器 |
| 潛在空間 | Latent Space | 壓縮資料的低維表示空間 |
| KL 散度 | KL Divergence | 衡量兩個機率分布差異的指標 |
| 擴散模型 | Diffusion Models | 透過加噪再去噪生成圖片的模型 |
| 前向過程 | Forward Process | 擴散模型中逐步加噪的過程 |
| 反向過程 | Reverse Process | 擴散模型中逐步去噪生成的過程 |
| U-Net | U-Net | 擴散模型中常用的去噪神經網路架構 |
| 大型語言模型 | Large Language Model (LLM) | 大規模預訓練的語言模型 |
| 自回歸 | Autoregressive | 依序預測下一個 token 的生成方式 |
| 因果遮罩 | Causal Mask | 防止模型看到未來 token 的注意力遮罩 |
| 編碼器-解碼器 | Encoder-Decoder | 先理解輸入、再生成輸出的架構 |
| Token | Token | 語言模型處理的最小文字單位 |
四、考試重點提示
考試重點:生成式 AI 學習 P(X)(資料分布),不需要標籤,能從學到的分布中抽樣生成新資料。
考試重點:GAN 的兩個核心組件是「生成器(Generator)」和「判別器(Discriminator)」,訓練方式稱為「對抗訓練(Adversarial Training)」,著名缺點是「模式崩潰(Mode Collapse)」和「訓練不穩定」。
考試重點:VAE 使用 KL 散度規範潛在空間,優點是訓練穩定且潛在空間連續,缺點是生成圖片偏模糊。
考試重點:擴散模型分兩個過程:訓練時「前向加噪」,生成時「反向去噪」,去噪網路常用 U-Net;代表模型有 Stable Diffusion 和 DALL-E。
考試重點:GPT 是 Decoder-Only 架構,使用**因果遮罩(Causal Mask)做自回歸(Autoregressive)**預測;T5/BART 是 Encoder-Decoder 架構。
Q1. 生成式 AI 在數學上主要學習的是什麼?
- A. 條件機率 P(Y|X)
- B. 資料本身的分布 P(X)
- C. 後驗機率 P(X|Y)
- D. 均勻分布 U(0,1)
Q2. GAN(生成對抗網路)中,「模式崩潰(Mode Collapse)」指的是什麼問題?
- A. 判別器無法區分真假圖片
- B. 生成器只生成少數幾種相似輸出,缺乏多樣性
- C. 訓練過程中梯度爆炸導致模型崩潰
- D. 生成器和判別器同時停止學習
Q3. VAE(變分自動編碼器)中,KL 散度(KL Divergence)的作用是什麼?
- A. 計算生成圖片與真實圖片的像素差異
- B. 規範潛在空間的分布,使其接近標準常態分布
- C. 衡量生成器與判別器的對抗強度
- D. 計算去噪過程中的噪聲強度
Q4. 關於擴散模型(Diffusion Models),下列敘述何者正確?
- A. 訓練時進行反向去噪,生成時進行前向加噪
- B. 訓練時對圖片逐步加噪(前向),生成時從雜訊逐步去噪(反向)
- C. 擴散模型不需要神經網路,只需數學公式即可生成圖片
- D. 擴散模型的去噪網路使用 Transformer 架構,不使用 U-Net
Q5. 下列哪一組對比最正確地描述了 GPT 與 BERT 的架構差異?
- A. GPT 是 Encoder-Only;BERT 是 Decoder-Only
- B. GPT 是 Decoder-Only,使用因果遮罩做自回歸預測;BERT 是 Encoder-Only,使用雙向注意力做理解任務
- C. GPT 和 BERT 都是 Encoder-Decoder 架構,差別只在參數量
- D. GPT 使用遮罩語言模型(MLM);BERT 使用因果遮罩
解答與解析
| 題號 | 答案 | 解析 |
|---|---|---|
| Q1 | B | 生成式 AI 的核心目標是學習訓練資料的分布 P(X),理解資料長什麼樣子,再從這個分布抽樣生成新資料。P(Y|X) 是鑑別式 AI 的學習目標,P(X|Y) 是貝氏推論,U(0,1) 是均勻分布。 |
| Q2 | B | 模式崩潰(Mode Collapse)是 GAN 的著名問題:生成器發現只要一直生成某幾種能欺騙判別器的輸出就好,導致生成結果缺乏多樣性。例如訓練人臉生成時,只生成幾十張相似的臉而非豐富多樣的臉型。 |
| Q3 | B | KL 散度在 VAE 中作為正則化項,衡量潛在空間分布 q(z|x) 與標準常態分布 N(0,1) 的差距,並懲罰差距過大的情形。這使潛在空間連續且有意義,能夠在空間中插值生成新樣本。 |
| Q4 | B | 擴散模型的流程是:訓練階段——對原始圖片逐步加高斯噪聲(前向過程),訓練 U-Net 學習去噪;生成階段——從純雜訊開始,讓 U-Net 一步步去噪(反向過程),最終生成新圖片。選 A 把前後向搞反了。 |
| Q5 | B | GPT 是 Decoder-Only 架構,訓練時使用因果遮罩只看左側 token,做自回歸下一 token 預測,擅長文字生成。BERT 是 Encoder-Only 架構,使用雙向注意力同時看左右上下文,用遮罩語言模型(MLM)預訓練,擅長理解任務。選 D 把兩者的預訓練任務搞反了。 |