一、學習目標
讀完這篇,你會知道:
- 鑑別式 AI 和生成式 AI 各自的侷限,以及為什麼需要整合?
- GAN(生成對抗網路)如何讓兩種 AI 互相競爭、互相成長?
- 自監督學習(Self-supervised Learning)如何借助生成式任務訓練鑑別式模型?
- 資料增強(Data Augmentation)和內容過濾(Content Filtering)怎麼搭配兩種 AI?
- 整合應用的四大產業案例和主流開發工具有哪些?
二、核心內容
2-1|為什麼要整合兩種 AI?
在深入整合技術之前,先弄清楚各自的短板:
| 鑑別式 AI(Discriminative AI) | 生成式 AI(Generative AI) | |
|---|---|---|
| 強項 | 分類精準、效率高、可解釋 | 能創造新內容、遷移能力強 |
| 弱項 | 無法主動生成新資料 | 輸出品質難以自我驗證、可能幻想(Hallucination) |
| 例子 | CNN 圖片分類、BERT 情感分析 | GPT 文章生成、Stable Diffusion 圖片生成 |
生活比喻:想像一間餐廳——廚師(生成式 AI) 負責做菜,能創作各種料理;品管員(鑑別式 AI) 負責試吃把關,確保每道菜都合格。只有廚師,菜可能良莠不齊;只有品管員,根本沒菜可吃。兩者搭配,才能持續產出高品質的料理。
考試重點:鑑別式 AI = 分類、辨別;生成式 AI = 創造新內容。整合的核心動機是互補彼此的不足。
2-2|整合技術一:GAN(生成對抗網路)
GAN(Generative Adversarial Network) 是整合兩種 AI 最經典的架構,由 Ian Goodfellow 於 2014 年提出。
運作原理:
- 生成器(Generator) — 生成式 AI:負責製造假資料(圖片、文字)
- 判別器(Discriminator) — 鑑別式 AI:負責判斷「是真實資料還是假資料」
兩者對抗競爭(Adversarial Training),生成器努力騙過判別器,判別器努力分辨真假,最終生成器能生成以假亂真的內容。
真實資料 ──┐
├→ [判別器:真/假?] → 給回饋
[生成器]──┘
↑
接收「被識破」的訊號,下次生成得更像真的
生活比喻:偽鈔製造商(生成器)vs 驗鈔機(判別器)。偽鈔商不斷改良技術想騙過驗鈔機,驗鈔機也不斷升級。反覆對抗之後,偽鈔商的技術越來越高超——GAN 訓練完成後,生成器就能製造幾乎真假難辨的內容。
| GAN 的衍生架構 | 特色 | 應用 |
|---|---|---|
| DCGAN | 用 CNN 架構實作 GAN | 圖片生成 |
| CycleGAN | 不需成對資料即可做風格轉換 | 照片轉素描、馬轉斑馬 |
| StyleGAN | 控制生成圖片的細節風格 | 人臉生成(This Person Does Not Exist) |
| Conditional GAN(CGAN) | 指定生成特定類別的資料 | 指定生成某數字的手寫圖 |
考試重點:GAN = 生成器(生成式)+ 判別器(鑑別式)的對抗訓練。判別器的損失函數同時影響兩者的學習。
2-3|整合技術二:自監督學習(Self-supervised Learning)
白話解釋:用「生成式任務」來製造訓練信號,讓模型在沒有人工標籤的情況下學習有用的表示(Representation),再把這個能力轉移到分類等鑑別式任務。
生活比喻:老師出了一道「把句子中被遮掉的字填回去」的填空題——不用考生自己標答案,答案就藏在原文裡。BERT 就是用這個方法,在大量文字上自學,然後再拿去做情感分類、問答等鑑別任務。
BERT 的自監督訓練方式(MLM, Masked Language Model):
原始句子:「台灣 的 [MASK] 很 美麗」
BERT 任務:預測 [MASK] = ?
模型學習:理解上下文語義 → 答「風景」
訓練完成後:拿去做情感分析、意圖分類等鑑別任務
| 自監督學習策略 | 代表模型 | 生成式任務 |
|---|---|---|
| 遮蔽語言模型(MLM) | BERT | 預測被遮住的字 |
| 下一句預測(NSP) | BERT | 判斷兩段文字是否相連 |
| 因果語言模型(CLM) | GPT | 預測下一個字 |
| 圖像遮蔽自編碼(MAE) | ViT-MAE | 預測被遮住的圖像區塊 |
考試重點:自監督學習 = 利用「遮蔽/預測」等偽生成式任務作為預訓練,本質是不需人工標籤的訓練策略。
2-4|整合技術三:資料增強(Data Augmentation)
問題背景:鑑別式模型(如醫療 CNN)需要大量標注資料,但現實中標注資料往往稀少且昂貴。
解決方案:用生成式 AI 合成新資料,擴充訓練集。
生活比喻:考生考前的模擬試卷不夠用,於是請 AI 根據過去題目的「風格」額外生成 1000 題模擬題——考生用更多題目練習後,真實考試表現更好。
醫療影像的實際案例:
- 醫院只有 500 張罕見腫瘤的 X 光片(資料太少,訓練 CNN 會過擬合)
- 用 GAN(生成式 AI) 生成 5000 張合成 X 光片,保留腫瘤特徵
- 用 500 張真實 + 5000 張合成資料訓練 CNN(鑑別式 AI)
- 模型診斷準確率顯著提升
真實資料(少)→ GAN 學習資料分布 → 合成資料(多)
↓
合成資料 + 真實資料 → 訓練 CNN
常見資料增強方式對比:
| 方式 | 是否需要生成式 AI | 說明 |
|---|---|---|
| 幾何轉換(翻轉、旋轉) | 否 | 對現有圖片做簡單變換 |
| 顏色抖動(Color Jitter) | 否 | 調整亮度、對比度 |
| GAN 合成資料 | 是 | 生成全新的擬真樣本 |
| 擴散模型(Diffusion)合成 | 是 | 生成更高品質的合成樣本 |
考試重點:資料增強中使用生成式 AI = 解決訓練資料不足(Data Scarcity)問題,特別常見於醫療、工業瑕疵偵測等標注成本高的場景。
2-5|整合技術四:內容過濾(Content Filtering)
問題背景:生成式 AI(如 GPT)在生成文字時可能產生錯誤事實(Hallucination)、偏見或不安全內容,需要「審查員」把關。
解決方案:用鑑別式 AI 作為「品管員」,對生成內容進行驗證和過濾。
生活比喻:新聞編輯部——記者(生成式 AI) 快速產出大量新聞稿,事實查核員(鑑別式 AI) 逐一驗證事實是否正確,才能刊出。
ChatGPT + BERT 事實查核流程:
用戶提問
↓
GPT 生成回答(可能有幻覺)
↓
BERT 分類器:這句話是否與已知知識庫一致?
↓
不一致 → 重新生成或加入警告標語
一致 → 輸出給用戶
| 過濾任務 | 使用的鑑別式模型 | 目標 |
|---|---|---|
| 毒性內容偵測 | BERT / RoBERTa 分類器 | 過濾仇恨言論、暴力內容 |
| 事實查核 | 自然語言推理(NLI)模型 | 驗證生成內容與事實一致性 |
| 品牌語氣審查 | 風格分類器 | 確保行銷文案符合品牌調性 |
| 安全過濾(Safety Filter) | 多標籤分類器 | 避免生成違禁或有害內容 |
考試重點:RLHF(Reinforcement Learning from Human Feedback) 本質上也是一種內容過濾——訓練一個「獎勵模型(Reward Model)」作為鑑別式 AI,對生成內容打分,再用強化學習優化生成模型。
2-6|四大產業應用案例
案例一:智慧客服(Smart Customer Service)
生活比喻:你打電話給客服,聰明的系統不只聽懂你說什麼,還知道你接下來要做什麼。
用戶輸入
↓
GPT 生成初步回應草稿
↓
BERT 意圖分類(Intent Classification)
→ 判斷:退款申請 / 技術問題 / 一般詢問?
↓
根據意圖類別調用對應的知識庫 + 優化回應
↓
輸出精準回應給用戶
| 角色 | 使用模型 | 任務 |
|---|---|---|
| 內容生成 | GPT 系列(生成式) | 生成自然語言回應 |
| 意圖識別 | BERT(鑑別式) | 分類用戶意圖,路由到正確流程 |
案例二:醫療影像報告(Medical Imaging Report)
生活比喻:放射科醫師先用機器標出病灶,再用語言描述它——AI 複製了這個工作流程。
- CNN(鑑別式) 分析 X 光 / CT 影像,偵測並標記病灶位置和嚴重程度
- GPT(生成式) 根據 CNN 的偵測結果,自動生成結構化醫療報告
- 醫師只需審查和修改,大幅節省報告撰寫時間
案例三:廣告文案創作(Copywriting)
生活比喻:廣告公司的流程——文案人員(GPT)先寫初稿,品牌監測員(分類器)確認文案符合品牌個性。
GPT 根據產品規格生成 5 個廣告文案版本
↓
品牌語氣分類器(鑑別式)對每個版本評分:
→ 符合「親切/專業/年輕」等品牌調性?
↓
選出最高分版本,或請 GPT 根據回饋重新生成
案例四:深偽偵測(Deepfake Detection)
生活比喻:請鎖匠教你怎麼開鎖(生成式 AI 模擬攻擊),才能設計出更難撬開的鎖(鑑別式 AI 更準確地偵測深偽)。
- StyleGAN / Diffusion Model(生成式) 生成大量高品質深偽影片,用於訓練偵測器
- CNN + LSTM(鑑別式) 分析影片的時間和空間特徵,偵測不自然的面部動態
- 生成式 AI 不斷更新深偽技術,偵測器也跟著持續訓練升級——形成對抗式進化
考試重點:深偽偵測 = 用 GAN 製造訓練資料(正樣本)+ 用 CNN/LSTM 做分類(偵測深偽)。這是資料增強與內容過濾的綜合應用。
2-7|整合的優勢與挑戰
| 優勢 | 挑戰 | |
|---|---|---|
| 效能 | 互補彼此弱點,整體表現超越單一模型 | 架構複雜,調參難度大 |
| 資料 | 生成式 AI 可解決資料不足問題 | 合成資料品質不穩定,可能引入偏差 |
| 品質 | 鑑別式把關,提升生成內容可靠度 | 鑑別器本身可能有偏見或錯誤 |
| 訓練 | 對抗訓練(GAN)可產生高品質生成器 | GAN 訓練不穩定,容易模式崩潰(Mode Collapse) |
| 部署 | 模組化設計,可分別升級各組件 | 延遲時間增加(兩個模型串接) |
GAN 最常見的訓練問題 — 模式崩潰(Mode Collapse):
生活比喻:偽鈔商發現只要專門仿造 100 元鈔票就能騙過驗鈔機,於是放棄其他面額——生成器只學會生成少數幾種固定樣本,失去多樣性。
2-8|主流開發工具
| 工具 | 類型 | 用途 |
|---|---|---|
| Hugging Face | 模型平台 | 提供數千個預訓練 BERT / GPT 模型,可直接載入整合 |
| LangChain | 應用框架 | 串接 LLM 與鑑別式工具(如資料庫查詢、事實驗證) |
| TensorFlow / PyTorch | 深度學習框架 | 自行構建 GAN、分類器等整合架構 |
| ONNX + Triton | 模型部署 | 標準化模型格式(ONNX),高效推理伺服器(Triton),讓生成式和鑑別式模型在同一環境部署 |
考試重點:Hugging Face 是目前最主流的預訓練模型平台;LangChain 專為 LLM 應用整合而設計;ONNX 解決不同框架之間的相容性問題。
三、關鍵名詞中英對照
| 中文 | 英文 | 一句話解釋 |
|---|---|---|
| 生成對抗網路 | GAN (Generative Adversarial Network) | 生成器與判別器對抗訓練的框架 |
| 生成器 | Generator | GAN 中負責生成假資料的模型(生成式) |
| 判別器 | Discriminator | GAN 中負責辨別真假資料的模型(鑑別式) |
| 對抗訓練 | Adversarial Training | 生成器與判別器相互競爭的訓練方式 |
| 模式崩潰 | Mode Collapse | GAN 訓練失敗,生成器只輸出少數固定樣本 |
| 自監督學習 | Self-supervised Learning | 利用資料本身製造標籤的訓練策略 |
| 遮蔽語言模型 | MLM (Masked Language Model) | BERT 的預訓練任務,預測被遮住的字 |
| 資料增強 | Data Augmentation | 擴充訓練資料的技術,可用生成式 AI 合成新樣本 |
| 合成資料 | Synthetic Data | 由 AI 生成的人工資料,用於訓練其他模型 |
| 內容過濾 | Content Filtering | 用鑑別式模型審查生成內容的品質與安全性 |
| 幻覺 | Hallucination | 生成式 AI 輸出看似合理但實際錯誤的資訊 |
| 獎勵模型 | Reward Model | RLHF 中的鑑別式模型,對生成回應評分 |
| 深偽偵測 | Deepfake Detection | 用鑑別式 AI 辨識 AI 合成的假影片或圖片 |
| 意圖分類 | Intent Classification | 鑑別式模型判斷用戶輸入的目的和類別 |
| 自然語言推理 | NLI (Natural Language Inference) | 判斷兩段文字之間的邏輯關係(蘊含/矛盾/無關) |
四、考試重點提示
必背清單:
- GAN = 生成器(生成式)+ 判別器(鑑別式),兩者對抗訓練
- 模式崩潰(Mode Collapse) = GAN 的常見訓練失敗,生成多樣性下降
- BERT 的 MLM(遮蔽語言模型) = 自監督學習的代表,不需人工標籤
- 資料增強用生成式 AI 的動機 = 解決標注資料不足問題
- 內容過濾 = 生成式 AI 生成 → 鑑別式 AI 審查 = 提升可靠性與安全性
- RLHF 中的獎勵模型 = 鑑別式 AI,對 GPT 的回應打分
- 深偽偵測 = GAN 製造訓練樣本 + CNN/LSTM 做分類
- Hugging Face = 最主流的預訓練模型平台
- LangChain = 專為 LLM 應用整合設計的框架
- ONNX = 跨框架的模型標準格式,解決部署相容性
易混淆比較:
| 常搞混的 | 差別在哪 |
|---|---|
| GAN 的生成器 vs 判別器 | 生成器 = 生成式 AI(造假);判別器 = 鑑別式 AI(識破) |
| 資料增強 vs 自監督學習 | 資料增強 = 擴充訓練資料;自監督 = 用遮蔽任務自製標籤 |
| 模式崩潰 vs 梯度消失 | 模式崩潰是 GAN 特有問題;梯度消失是 RNN / 深層網路問題 |
| BERT MLM vs GPT CLM | BERT 遮蔽中間字(雙向);GPT 預測下一字(單向) |
| 內容過濾 vs RLHF | 內容過濾是推理時(Inference)的把關;RLHF 是訓練時的優化 |
Q1. 在 GAN 架構中,判別器(Discriminator)扮演的是哪一種 AI 的角色?
- (A) 生成式 AI,負責生成假資料
- (B) 鑑別式 AI,負責辨別資料真假
- (C) 強化學習 AI,負責給予獎勵
- (D) 自監督 AI,負責製造訓練標籤
Q2. BERT 採用的自監督學習策略(MLM)最接近下列哪種生活情境?
- (A) 讓學生根據老師的批改意見修改作文
- (B) 讓學生做填空測驗,答案藏在原文中
- (C) 讓學生閱讀大量課外書籍後做選擇題
- (D) 讓學生觀看影片後回答老師的問題
Q3. 醫院想用 AI 診斷罕見疾病,但只有 200 張已標注的 X 光片,下列哪種整合策略最能有效解決此問題?
- (A) 改用更複雜的鑑別式模型,讓它從少量資料學習更多特徵
- (B) 用生成式 AI(GAN)合成更多 X 光片,再訓練鑑別式 CNN
- (C) 採用自監督學習,讓模型在無標注資料上預訓練
- (D) 使用強化學習,讓模型透過試錯學習診斷技術
Q4. 下列哪個工具/框架專門為「串接大型語言模型(LLM)與外部工具(如資料庫、事實驗證器)」而設計?
- (A) TensorFlow
- (B) ONNX
- (C) LangChain
- (D) Hugging Face
Q5. GAN 訓練時發生「模式崩潰(Mode Collapse)」,下列哪個描述最準確?
- (A) 判別器太強,導致生成器的梯度消失,無法學習
- (B) 生成器只學會生成少數幾種固定樣本,失去多樣性
- (C) 生成器生成的資料品質太差,全部被判別器識破
- (D) 訓練資料太少,導致兩個模型都無法收斂
解答與解析
| 題號 | 答案 | 解析 |
|---|---|---|
| Q1 | (B) | GAN 中判別器(Discriminator)是鑑別式 AI,負責判斷輸入資料是真實資料還是生成器偽造的假資料。生成器(Generator)才是生成式 AI,負責生成假資料。兩者對抗訓練,互相提升。 |
| Q2 | (B) | BERT 的 MLM(Masked Language Model)會隨機遮住句子中的某些字,要求模型根據上下文預測被遮住的字。答案就藏在原始句子裡,不需要人工另外標注,這正是「填空題答案藏在原文中」的概念——自監督學習的核心精神。 |
| Q3 | (B) | 訓練資料不足是典型的「資料稀缺(Data Scarcity)」問題。用 GAN 等生成式 AI 合成更多合成 X 光片(Synthetic Data),擴充訓練集後再訓練鑑別式 CNN,是最直接有效的解決方案。選項 (C) 的自監督學習解決的是「無標注」問題,而非「資料太少」問題。 |
| Q4 | (C) | LangChain 是專門為 LLM 應用整合設計的框架,提供工具鏈(Tool Chain)讓開發者輕鬆串接 GPT 等大型語言模型與外部資料庫、搜尋引擎、事實驗證器。TensorFlow 是訓練框架;ONNX 是模型格式標準;Hugging Face 是模型平台。 |
| Q5 | (B) | 模式崩潰(Mode Collapse)是 GAN 訓練最常見的失敗模式:生成器發現只要持續生成少數幾種特定樣本就能騙過判別器,因此停止探索多樣性,所有輸出都趨於相似。選項 (A) 描述的是「梯度消失」問題,與模式崩潰不同。 |