鑑別式 AI：教電腦分辨「是貓還是狗」的技術

Q: 鑑別式 AI？教電腦分辨「是貓還是狗」的技術？

鑑別式 AI 怎麼運作？P(Y|X) 條件機率是什麼意思？SVM、CNN、BERT 各自擅長什麼？

一、學習目標

理解鑑別式 AI（Discriminative AI）的核心概念與運作邏輯
掌握條件機率 P(Y|X) 的直覺意義
認識五種主要鑑別式模型：Logistic Regression、SVM、CNN、RNN/LSTM、BERT
了解鑑別式 AI 的應用場景與四大特性
區分鑑別式 AI 與生成式 AI 的根本差異

二、核心內容

2.1 什麼是鑑別式 AI？

鑑別式 AI（Discriminative AI） 的任務是「分類、預測、辨識」。它就像一位經驗豐富的法官，不需要理解犯人的童年背景，只需要根據眼前的證據（特徵 X）判斷「有罪還是無罪（標籤 Y）」。

生活類比：

你每天早上看天空決定要不要帶傘，你不需要理解氣象的生成原理，你只需要看「烏雲（X）」判斷「會不會下雨（Y）」。這就是鑑別式 AI 的核心邏輯。

三個關鍵動作：

分類（Classification）：輸入圖片，輸出「貓 or 狗」
預測（Prediction）：輸入歷史數據，輸出「明天股價漲 or 跌」
辨識（Recognition）：輸入語音，輸出「文字轉譯」

2.2 條件機率 P(Y|X)

鑑別式 AI 學習的是條件機率 P(Y|X)，讀作「給定 X 的條件下，Y 的機率」。

符號	意義	生活例子
X	輸入特徵（觀察到的資料）	照片中的像素
Y	輸出標籤（要預測的答案）	「貓」或「狗」
P(Y\	X)	給定 X，Y 是某個值的機率	「這張照片是貓的機率 = 92%」

決策邊界（Decision Boundary）：

鑑別式模型學習一條「分界線」，把不同類別的資料分開。

考試重點：鑑別式 AI 直接學習 P(Y|X)（條件機率），而生成式 AI 學習 P(X)（資料分布）。這是兩者最根本的數學差異。

2.3 五大鑑別式模型

1. 邏輯迴歸（Logistic Regression）

類比：你在餐廳點餐，服務生問「要辣嗎？」你根據自己的辣度耐受程度（特徵）給出「要 / 不要（0 or 1）」。邏輯迴歸就是把任意數字壓縮到 0～1 之間的機率。

核心機制：使用 Sigmoid 函數將線性輸出轉換為 0～1 的機率值。

Sigmoid(z) = 1 / (1 + e^(-z))

z 很大 → Sigmoid ≈ 1（幾乎確定是正類）
z 很小 → Sigmoid ≈ 0（幾乎確定是負類）
z = 0   → Sigmoid = 0.5（五五波）

適用場景：二元分類（垃圾郵件/正常郵件、良性/惡性腫瘤）

2. 支援向量機（Support Vector Machine，SVM）

類比：在兩群人中間畫一條路，讓這條路盡可能寬，兩側留最大空白，這樣即使新來的人站歪一點，也不會走錯邊。SVM 找的就是「最寬的分界路」。

核心機制：

最大化邊距（Maximize Margin）：找到離兩類資料最遠的超平面（Hyperplane）
支援向量（Support Vectors）：離邊界最近的幾個資料點，決定邊界位置
核技巧（Kernel Trick）：將非線性可分的資料投影到高維空間，再切一刀

適用場景：小資料集、高維度特徵（文字分類、基因資料分析）

3. 卷積神經網路（Convolutional Neural Network，CNN）

類比：你認識一張臉，不是靠整張臉同時判斷，而是先看「眼睛形狀 → 鼻子位置 → 嘴巴輪廓」，再綜合判斷。CNN 就是模仿這種「局部特徵累積」的過程。

核心三層結構：

卷積層（Convolution Layer）：用濾波器（Filter）掃描圖片，提取局部特徵（邊緣、紋理）
池化層（Pooling Layer）：壓縮特徵圖，保留最重要的資訊，減少計算量
全連接層（Fully-Connected Layer）：整合所有特徵，輸出最終分類結果

原始圖片 → [卷積層] → [池化層] → [卷積層] → [池化層] → [全連接層] → 分類結果
 (貓臉)     特徵提取    降維壓縮    更深特徵    再壓縮      整合判斷     「貓 92%」

適用場景：影像分類、物件偵測、醫學影像診斷

4. 遞迴神經網路 / 長短期記憶（RNN / LSTM）

類比：讀小說時，你記得「主角在第三章受了傷」，這影響你理解「第十章主角為什麼走路怪怪的」。一般神經網路每次都從頭開始，但 RNN/LSTM 有「記憶」，能記住序列的前後關係。

核心機制：

RNN（Recurrent Neural Network）：每個時間步的輸出會傳回下一個時間步
LSTM（Long Short-Term Memory）：加入閘門單元（Gate Units）解決 RNN 的梯度消失問題

LSTM 三個閘門：

閘門	功能	類比
遺忘閘（Forget Gate）	決定哪些舊記憶要丟掉	忘掉不重要的舊事
輸入閘（Input Gate）	決定哪些新資訊要記住	把重要新事記下來
輸出閘（Output Gate）	決定輸出哪些記憶	在對的時機說出來

適用場景：時間序列預測、語音辨識、機器翻譯（現已多被 Transformer 取代）

5. BERT（Bidirectional Encoder Representations from Transformers）

類比：讀一篇文章時，你不只向前讀，也會回頭確認前文。BERT 同時看一個詞的「左邊鄰居」和「右邊鄰居」，理解它在整句話中的真實意思。

核心機制：

遮罩語言模型（Masked Language Model，MLM）：訓練時隨機遮住 15% 的詞，讓模型猜測被遮住的詞
雙向（Bidirectional）：同時利用左右兩側的上下文，理解更深層的語意

輸入：「我喜歡吃 [MASK] 披薩」
BERT同時看：「我喜歡吃」← → 「披薩」
輸出：預測 [MASK] = 「義大利」

適用場景：情感分析、問答系統、文本分類、命名實體識別（NER）

考試重點：BERT 是編碼器（Encoder）架構，擅長理解任務；GPT 是解碼器（Decoder）架構，擅長生成任務。

2.4 鑑別式 AI 的四大特性

特性	說明	與生成式 AI 比較
需要標記資料	訓練時每筆資料都需要正確答案（標籤）	生成式 AI 可用無標籤資料
訓練相對穩定	有明確的損失函數目標，收斂較可預期	生成式 AI（如 GAN）訓練不穩定
可解釋性較高	決策邊界可視化，較易解釋判斷原因	生成式 AI 的潛在空間難以解釋
計算成本較低	不需要生成高維資料，計算資源需求少	生成式 AI 需要大量 GPU 資源

2.5 主要應用場景

影像辨識（Image Recognition）：工廠瑕疵檢測、人臉識別、自動駕駛行人偵測
自然語言處理情感分析（NLP Sentiment Analysis）：電商評論正負面判斷、社群媒體輿情監測
醫療診斷（Medical Diagnosis）：X 光片腫瘤偵測、皮膚癌分類、眼底病變篩查
詐欺偵測（Fraud Detection）：信用卡異常交易識別、保險理賠造假判斷

三、關鍵名詞中英對照

中文	英文	說明
鑑別式 AI	Discriminative AI	學習分類邊界的模型
條件機率	Conditional Probability P(Y\	X)	給定輸入 X 下，輸出 Y 的機率
決策邊界	Decision Boundary	分隔不同類別的超平面或曲線
邏輯迴歸	Logistic Regression	用 Sigmoid 輸出機率的線性分類器
Sigmoid 函數	Sigmoid Function	將任意值壓縮到 (0,1) 的激活函數
支援向量機	Support Vector Machine (SVM)	最大化邊距的分類器
邊距	Margin	SVM 中兩類資料到決策邊界的距離
核技巧	Kernel Trick	將資料投影到高維空間的技術
卷積神經網路	Convolutional Neural Network (CNN)	處理影像的深度學習架構
卷積層	Convolution Layer	提取局部空間特徵的層
池化層	Pooling Layer	降低特徵圖空間維度的層
遞迴神經網路	Recurrent Neural Network (RNN)	處理序列資料的神經網路
長短期記憶	Long Short-Term Memory (LSTM)	解決梯度消失的 RNN 變體
閘門單元	Gate Units	LSTM 中控制資訊流動的機制
BERT	Bidirectional Encoder Representations from Transformers	Google 雙向語言模型
遮罩語言模型	Masked Language Model (MLM)	BERT 的預訓練任務
情感分析	Sentiment Analysis	判斷文本正負面情感的 NLP 任務
詐欺偵測	Fraud Detection	識別異常行為的分類任務

四、考試重點提示

考試重點：鑑別式 AI 學習 P(Y|X)，生成式 AI 學習 P(X)，這是兩者的根本數學差異，高頻考點。

考試重點：CNN 的三層結構「卷積 → 池化 → 全連接」需要記住，常以選擇題形式考架構順序。

考試重點：SVM 的核心概念是「最大化邊距（Maximize Margin）」，支援向量是離邊界最近的資料點。

考試重點：BERT 是雙向 Encoder，用於理解任務；GPT 是單向 Decoder，用於生成任務，這對比常出現在比較題。

考試重點：鑑別式 AI 的四大特性：需要標記資料、訓練穩定、可解釋性高、計算成本低。

Q1. 鑑別式 AI 在數學上學習的是哪種機率？

A. 聯合機率 P(X, Y)
B. 先驗機率 P(Y)
C. 條件機率 P(Y|X)
D. 邊際機率 P(X)

Q2. 下列哪個模型使用 Sigmoid 函數將輸出壓縮到 0～1 之間的機率值？

A. SVM
B. CNN
C. 邏輯迴歸（Logistic Regression）
D. LSTM

Q3. SVM（支援向量機）的核心訓練目標是什麼？

A. 最小化訓練資料的損失函數
B. 最大化決策邊界的邊距（Margin）
C. 最大化訓練資料的條件熵
D. 最小化模型參數的數量

Q4. CNN（卷積神經網路）處理圖片時，三個主要層的正確順序是？

A. 全連接層 → 池化層 → 卷積層
B. 池化層 → 卷積層 → 全連接層
C. 卷積層 → 全連接層 → 池化層
D. 卷積層 → 池化層 → 全連接層

Q5. 關於 BERT，下列敘述何者正確？

A. BERT 是單向模型，只看左側上下文
B. BERT 採用解碼器（Decoder）架構，擅長文字生成
C. BERT 使用遮罩語言模型（MLM）進行預訓練，是雙向編碼器架構
D. BERT 主要用於影像分類任務

解答與解析

題號	答案	解析
Q1	C	鑑別式 AI 直接學習「給定輸入特徵 X 的情況下，標籤 Y 的條件機率 P(Y\	X)」。P(X) 是生成式 AI 學習的目標；P(X,Y) 是聯合機率；P(Y) 是未考慮輸入的先驗機率。
Q2	C	邏輯迴歸使用 Sigmoid 函數 `1/(1+e^(-z))` 將線性組合結果轉換為 0 到 1 之間的機率。SVM 輸出的是決策值而非機率；CNN 輸出層通常用 Softmax；LSTM 輸出是隱藏狀態向量。
Q3	B	SVM 的核心目標是找到一個超平面，使兩類資料到該超平面的邊距（Margin）最大化，這樣對新資料有更好的泛化能力。選 A 是一般神經網路的目標，選 C、D 都不是 SVM 的定義。
Q4	D	CNN 的標準架構是：卷積層（提取局部特徵）→ 池化層（降維壓縮）→ 全連接層（整合分類）。這個順序可能重複多次（多個卷積+池化），最後才接全連接層輸出。
Q5	C	BERT（Bidirectional Encoder Representations from Transformers）是雙向編碼器，預訓練任務是遮罩語言模型（MLM），同時利用左右兩側上下文，擅長理解類任務如情感分析、問答系統。GPT 才是解碼器架構用於生成。