生成式 AI：從零到一「創造」新內容的魔法 — iPAS AI 應用規劃師證照教學

Q: 生成式 AI？從零到一「創造」新內容的魔法？

生成式 AI 怎麼創造新東西？GAN、VAE、Diffusion Models、GPT 四大技術全解析。

一、學習目標

理解生成式 AI（Generative AI）的核心概念：學習資料分布 P(X)
掌握四大生成模型的原理：GAN、VAE、Diffusion Models、LLM/GPT
了解各模型的優缺點與代表性應用
能夠對比鑑別式 AI 與生成式 AI 的根本差異

二、核心內容

2.1 什麼是生成式 AI？

生成式 AI（Generative AI） 的任務是「創造」，它不只是判斷「這是什麼」，而是能「製造出全新的東西」。

生活類比：

鑑別式 AI 像一位美食評審：看一道菜，說「這是法式料理，給 4 顆星」。生成式 AI 像一位主廚：學會了無數道食譜的精髓後，能從頭設計出一道全新料理。

核心數學邏輯：

鑑別式 AI 學習：P(Y|X)，給定資料 X，預測標籤 Y
生成式 AI 學習：P(X)，理解資料 X 本身的分布規律，然後從這個分布中「抽樣」出新資料

訓練資料         學習         生成結果
[真實人臉圖片] → 學習人臉分布 P(X) → 生成從未存在過的人臉
[真實文章]     → 學習語言分布 P(X) → 生成全新文章
[真實音樂]     → 學習旋律分布 P(X) → 生成原創音樂

2.2 四大生成模型

模型一：生成對抗網路（GAN，Generative Adversarial Network）

類比：造假幣的罪犯 vs. 鑑定真偽的警察。罪犯不斷改進技術讓假幣更逼真，警察不斷升級眼光抓出假幣，兩者互相對抗、共同進化，最終罪犯的手藝精湛到連頂尖警察都分不清。

核心架構：兩個網路的對抗訓練

角色	網路	任務	輸入	輸出
造假者	生成器（Generator, G）	生成假資料以欺騙判別器	隨機噪聲 z	假圖片
警察	判別器（Discriminator, D）	判斷資料是真實還是生成的	真/假圖片	真實機率 0～1

Minimax 訓練目標：

G 希望：讓 D 以為假圖片是真的（最大化 D 的錯誤率）
D 希望：正確區分真假（最大化自己的準確率）
兩者互相博弈，G 的生成能力不斷提升

代表性應用：

StyleGAN（NVIDIA）：生成超逼真人臉，thispersondoesnotexist.com
Pix2Pix：草圖轉真實圖片

GAN 的著名問題，模式崩潰（Mode Collapse）：

生成器「學聰明了」，發現只要一直生成同一種圖片就能欺騙判別器（例如一直生成同一張臉），導致輸出缺乏多樣性。這就像造假幣的罪犯只會複製同一版鈔票。

考試重點：GAN 的核心是「生成器 vs. 判別器的對抗訓練（Adversarial Training）」，訓練目標稱為 Minimax，主要缺點是「訓練不穩定」和「模式崩潰（Mode Collapse）」。

模型二：變分自動編碼器（VAE，Variational Autoencoder）

類比：你想畫一個「介於蘋果和橘子之間」的水果。VAE 先把所有水果「壓縮」成一個多維地圖（潛在空間），你只要在地圖上蘋果和橘子的中間點一點，它就能生成那個想像中的水果。

核心架構：編碼器-解碼器 + 機率潛在空間

原始圖片 X
    ↓
[編碼器 Encoder]
    ↓
潛在空間 z（以機率分布表示，μ 和 σ）
    ↓
[解碼器 Decoder]
    ↓
重建圖片 X'

兩個損失函數：

重建損失（Reconstruction Loss）：X' 要盡可能像原始 X
KL 散度（KL Divergence）：讓潛在空間的分布接近標準常態分布，確保空間是「連續且有意義的」

特性	VAE	GAN
訓練穩定性	穩定（有明確損失函數）	不穩定（兩網路對抗）
生成品質	偏模糊	清晰逼真
潛在空間	連續、可插值	不保證連續
可控性	高（可在潛在空間操作）	低

考試重點：VAE 訓練穩定但生成圖片偏模糊；KL 散度用於規範潛在空間的分布形狀。

模型三：擴散模型（Diffusion Models）

類比：把一張清晰照片慢慢噴上沙子，最終變成一片雜訊，這是「前向過程」。然後訓練一個神經網路，學會怎麼把沙子一層一層吹走，還原出清晰圖片，這是「反向過程」。生成時，從純雜訊開始，讓模型一步步「去沙」，創造出全新的圖片。

核心流程：加噪 → 去噪

【前向過程（Forward Process，訓練用）】
清晰圖片 → 加一點噪聲 → 加更多噪聲 → ... → 純高斯雜訊
  x_0          x_1           x_2              x_T

【反向過程（Reverse Process，生成用）】
純高斯雜訊 → 去一點噪聲 → 去更多噪聲 → ... → 生成圖片
   x_T           x_(T-1)                          x_0

關鍵技術：U-Net 架構

去噪網路通常使用 U-Net，一種能同時保留局部細節和全局結構的卷積網路架構，負責在每一步預測「應該去掉哪些雜訊」。

代表性模型：

Stable Diffusion（開源，Stability AI）
DALL-E 2 / DALL-E 3（OpenAI）
Midjourney（基於擴散模型原理）

考試重點：擴散模型的兩個過程：前向加噪（Forward） 和 反向去噪（Reverse）；去噪網路常用 U-Net 架構。

模型四：大型語言模型 / GPT（LLM / GPT）

類比：你在接龍遊戲中，給出「天空是藍色的，草地是綠色的，太陽是___」，大家都能猜到「黃色的」，GPT 就是透過無數次這樣的「猜下一個詞」訓練，學會了人類語言的全部規律。

核心機制：自回歸（Autoregressive）Token 預測

訓練目標：根據前面所有 token，預測下一個 token 的機率

輸入：「今天天氣」
預測：「很」（機率最高）

輸入：「今天天氣很」
預測：「好」

輸入：「今天天氣很好」
預測：「，」
... 如此循環直到生成完整句子

因果遮罩（Causal Mask）：

GPT 在訓練時，使用因果遮罩確保模型只能看「左側」（已生成的）token，不能偷看「右側」（未來的）token。這和 BERT 的雙向注意力機制形成對比。

GPT 系列演進：

版本	年份	參數量	里程碑
GPT-1	2018	1.17 億	首次展示大規模預訓練
GPT-2	2019	15 億	文字生成能力震驚業界
GPT-3	2020	1,750 億	Few-shot learning 強大
GPT-4	2023	未公開	多模態、推理能力大幅提升

Encoder-Decoder 架構（T5 / BART）：

除了純解碼器的 GPT 架構，還有 Encoder-Decoder 架構：

T5（Google）：把所有 NLP 任務統一成「文字轉文字（Text-to-Text）」格式
BART（Meta）：結合 BERT 的雙向編碼與 GPT 的自回歸解碼，適合摘要、翻譯

Encoder：理解輸入（雙向注意力）
    ↓
Decoder：生成輸出（因果遮罩，自回歸）

考試重點：GPT 是解碼器（Decoder-Only）架構，使用因果遮罩，做自回歸預測。T5/BART 是 Encoder-Decoder 架構，適合翻譯、摘要等序列到序列任務。

2.3 生成式 AI 的主要應用場景

文字生成（Text Generation）：ChatGPT、Claude、Gemini，對話、寫作、程式碼生成
圖片生成（Image Generation）：DALL-E 3、Midjourney、Stable Diffusion，文字描述轉圖片
音樂生成（Music Generation）：Suno AI、AIVA，輸入風格描述，輸出完整歌曲
影片生成（Video Generation）：Runway ML、Sora（OpenAI），文字或圖片生成短影片

2.4 鑑別式 AI vs. 生成式 AI：完整對比

比較維度	鑑別式 AI	生成式 AI
核心任務	分類、預測、辨識	創作、生成新內容
學習目標	P(Y\	X)，條件機率	P(X)，資料分布
訓練穩定性	相對穩定	較不穩定（尤其 GAN）
可解釋性	較高（決策邊界可視化）	較低（潛在空間難解釋）
計算成本	相對低	非常高（需大量 GPU）
資料需求	需要標記資料（Label）	可使用無標記資料
輸出形式	標籤、類別、數值	文字、圖片、音樂、影片
代表模型	CNN、SVM、BERT	GAN、VAE、Diffusion、GPT
典型應用	醫療診斷、詐欺偵測	ChatGPT、DALL-E、Midjourney

三、關鍵名詞中英對照

中文	英文	說明
生成式 AI	Generative AI	學習資料分布並生成新內容的模型
資料分布	Data Distribution P(X)	生成式 AI 的學習目標
生成對抗網路	GAN (Generative Adversarial Network)	生成器對抗判別器的架構
生成器	Generator	GAN 中負責生成假資料的網路
判別器	Discriminator	GAN 中負責判斷真假的網路
對抗訓練	Adversarial Training	生成器與判別器互相博弈的訓練方式
極小極大	Minimax	GAN 的訓練目標函數
模式崩潰	Mode Collapse	GAN 只生成少數幾種輸出的問題
變分自動編碼器	VAE (Variational Autoencoder)	有機率潛在空間的自動編碼器
潛在空間	Latent Space	壓縮資料的低維表示空間
KL 散度	KL Divergence	衡量兩個機率分布差異的指標
擴散模型	Diffusion Models	透過加噪再去噪生成圖片的模型
前向過程	Forward Process	擴散模型中逐步加噪的過程
反向過程	Reverse Process	擴散模型中逐步去噪生成的過程
U-Net	U-Net	擴散模型中常用的去噪神經網路架構
大型語言模型	Large Language Model (LLM)	大規模預訓練的語言模型
自回歸	Autoregressive	依序預測下一個 token 的生成方式
因果遮罩	Causal Mask	防止模型看到未來 token 的注意力遮罩
編碼器-解碼器	Encoder-Decoder	先理解輸入、再生成輸出的架構
Token	Token	語言模型處理的最小文字單位

四、考試重點提示

考試重點：生成式 AI 學習 P(X)（資料分布），不需要標籤，能從學到的分布中抽樣生成新資料。

考試重點：GAN 的兩個核心組件是「生成器（Generator）」和「判別器（Discriminator）」，訓練方式稱為「對抗訓練（Adversarial Training）」，著名缺點是「模式崩潰（Mode Collapse）」和「訓練不穩定」。

考試重點：VAE 使用 KL 散度規範潛在空間，優點是訓練穩定且潛在空間連續，缺點是生成圖片偏模糊。

考試重點：擴散模型分兩個過程：訓練時「前向加噪」，生成時「反向去噪」，去噪網路常用 U-Net；代表模型有 Stable Diffusion 和 DALL-E。

考試重點：GPT 是 Decoder-Only 架構，使用因果遮罩（Causal Mask）做自回歸（Autoregressive）預測；T5/BART 是 Encoder-Decoder 架構。

Q1. 生成式 AI 在數學上主要學習的是什麼？

A. 條件機率 P(Y|X)
B. 資料本身的分布 P(X)
C. 後驗機率 P(X|Y)
D. 均勻分布 U(0,1)

Q2. GAN（生成對抗網路）中，「模式崩潰（Mode Collapse）」指的是什麼問題？

A. 判別器無法區分真假圖片
B. 生成器只生成少數幾種相似輸出，缺乏多樣性
C. 訓練過程中梯度爆炸導致模型崩潰
D. 生成器和判別器同時停止學習

Q3. VAE（變分自動編碼器）中，KL 散度（KL Divergence）的作用是什麼？

A. 計算生成圖片與真實圖片的像素差異
B. 規範潛在空間的分布，使其接近標準常態分布
C. 衡量生成器與判別器的對抗強度
D. 計算去噪過程中的噪聲強度

Q4. 關於擴散模型（Diffusion Models），下列敘述何者正確？

A. 訓練時進行反向去噪，生成時進行前向加噪
B. 訓練時對圖片逐步加噪（前向），生成時從雜訊逐步去噪（反向）
C. 擴散模型不需要神經網路，只需數學公式即可生成圖片
D. 擴散模型的去噪網路使用 Transformer 架構，不使用 U-Net

Q5. 下列哪一組對比最正確地描述了 GPT 與 BERT 的架構差異？

A. GPT 是 Encoder-Only；BERT 是 Decoder-Only
B. GPT 是 Decoder-Only，使用因果遮罩做自回歸預測；BERT 是 Encoder-Only，使用雙向注意力做理解任務
C. GPT 和 BERT 都是 Encoder-Decoder 架構，差別只在參數量
D. GPT 使用遮罩語言模型（MLM）；BERT 使用因果遮罩

解答與解析

題號	答案	解析
Q1	B	生成式 AI 的核心目標是學習訓練資料的分布 P(X)，理解資料長什麼樣子，再從這個分布抽樣生成新資料。P(Y\	X) 是鑑別式 AI 的學習目標，P(X\	Y) 是貝氏推論，U(0,1) 是均勻分布。
Q2	B	模式崩潰（Mode Collapse）是 GAN 的著名問題：生成器發現只要一直生成某幾種能欺騙判別器的輸出就好，導致生成結果缺乏多樣性。例如訓練人臉生成時，只生成幾十張相似的臉而非豐富多樣的臉型。
Q3	B	KL 散度在 VAE 中作為正則化項，衡量潛在空間分布 q(z\	x) 與標準常態分布 N(0,1) 的差距，並懲罰差距過大的情形。這使潛在空間連續且有意義，能夠在空間中插值生成新樣本。
Q4	B	擴散模型的流程是：訓練階段，對原始圖片逐步加高斯噪聲（前向過程），訓練 U-Net 學習去噪；生成階段，從純雜訊開始，讓 U-Net 一步步去噪（反向過程），最終生成新圖片。選 A 把前後向搞反了。
Q5	B	GPT 是 Decoder-Only 架構，訓練時使用因果遮罩只看左側 token，做自回歸下一 token 預測，擅長文字生成。BERT 是 Encoder-Only 架構，使用雙向注意力同時看左右上下文，用遮罩語言模型（MLM）預訓練，擅長理解任務。選 D 把兩者的預訓練任務搞反了。