一、學習目標
- 理解**鑑別式 AI(Discriminative AI)**的核心概念與運作邏輯
- 掌握條件機率 P(Y|X) 的直覺意義
- 認識五種主要鑑別式模型:Logistic Regression、SVM、CNN、RNN/LSTM、BERT
- 了解鑑別式 AI 的應用場景與四大特性
- 區分鑑別式 AI 與生成式 AI 的根本差異
二、核心內容
2.1 什麼是鑑別式 AI?
鑑別式 AI(Discriminative AI) 的任務是「分類、預測、辨識」。它就像一位經驗豐富的法官,不需要理解犯人的童年背景,只需要根據眼前的**證據(特徵 X)**判斷「有罪還是無罪(標籤 Y)」。
生活類比:
你每天早上看天空決定要不要帶傘——你不需要理解氣象的生成原理,你只需要看「烏雲(X)」判斷「會不會下雨(Y)」。這就是鑑別式 AI 的核心邏輯。
三個關鍵動作:
- 分類(Classification):輸入圖片,輸出「貓 or 狗」
- 預測(Prediction):輸入歷史數據,輸出「明天股價漲 or 跌」
- 辨識(Recognition):輸入語音,輸出「文字轉譯」
2.2 條件機率 P(Y|X)
鑑別式 AI 學習的是條件機率 P(Y|X),讀作「給定 X 的條件下,Y 的機率」。
| 符號 | 意義 | 生活例子 |
|---|---|---|
| X | 輸入特徵(觀察到的資料) | 照片中的像素 |
| Y | 輸出標籤(要預測的答案) | 「貓」或「狗」 |
| P(Y|X) | 給定 X,Y 是某個值的機率 | 「這張照片是貓的機率 = 92%」 |
決策邊界(Decision Boundary):
鑑別式模型學習一條「分界線」,把不同類別的資料分開。
狗的區域
● ● ●
● ●
─────────────── ← 決策邊界
○ ○
○ ○ ○
貓的區域
考試重點:鑑別式 AI 直接學習 P(Y|X)(條件機率),而生成式 AI 學習 P(X)(資料分布)。這是兩者最根本的數學差異。
2.3 五大鑑別式模型
1. 邏輯迴歸(Logistic Regression)
類比:你在餐廳點餐,服務生問「要辣嗎?」你根據自己的辣度耐受程度(特徵)給出「要 / 不要(0 or 1)」。邏輯迴歸就是把任意數字壓縮到 0~1 之間的機率。
核心機制:使用 Sigmoid 函數將線性輸出轉換為 0~1 的機率值。
Sigmoid(z) = 1 / (1 + e^(-z))
z 很大 → Sigmoid ≈ 1(幾乎確定是正類)
z 很小 → Sigmoid ≈ 0(幾乎確定是負類)
z = 0 → Sigmoid = 0.5(五五波)
適用場景:二元分類(垃圾郵件/正常郵件、良性/惡性腫瘤)
2. 支援向量機(Support Vector Machine,SVM)
類比:在兩群人中間畫一條路,讓這條路盡可能寬,兩側留最大空白——這樣即使新來的人站歪一點,也不會走錯邊。SVM 找的就是「最寬的分界路」。
核心機制:
- 最大化邊距(Maximize Margin):找到離兩類資料最遠的超平面(Hyperplane)
- 支援向量(Support Vectors):離邊界最近的幾個資料點,決定邊界位置
- 核技巧(Kernel Trick):將非線性可分的資料投影到高維空間,再切一刀
● ● ● ← 支援向量 ●
● ↑ ●
│ margin(邊距)
○ ↓ ○
○ ○ ○ ← 支援向量 ○
適用場景:小資料集、高維度特徵(文字分類、基因資料分析)
3. 卷積神經網路(Convolutional Neural Network,CNN)
類比:你認識一張臉,不是靠整張臉同時判斷,而是先看「眼睛形狀 → 鼻子位置 → 嘴巴輪廓」,再綜合判斷。CNN 就是模仿這種「局部特徵累積」的過程。
核心三層結構:
- 卷積層(Convolution Layer):用濾波器(Filter)掃描圖片,提取局部特徵(邊緣、紋理)
- 池化層(Pooling Layer):壓縮特徵圖,保留最重要的資訊,減少計算量
- 全連接層(Fully-Connected Layer):整合所有特徵,輸出最終分類結果
原始圖片 → [卷積層] → [池化層] → [卷積層] → [池化層] → [全連接層] → 分類結果
(貓臉) 特徵提取 降維壓縮 更深特徵 再壓縮 整合判斷 「貓 92%」
適用場景:影像分類、物件偵測、醫學影像診斷
4. 遞迴神經網路 / 長短期記憶(RNN / LSTM)
類比:讀小說時,你記得「主角在第三章受了傷」,這影響你理解「第十章主角為什麼走路怪怪的」。一般神經網路每次都從頭開始,但 RNN/LSTM 有「記憶」,能記住序列的前後關係。
核心機制:
- RNN(Recurrent Neural Network):每個時間步的輸出會傳回下一個時間步
- LSTM(Long Short-Term Memory):加入**閘門單元(Gate Units)**解決 RNN 的梯度消失問題
LSTM 三個閘門:
| 閘門 | 功能 | 類比 |
|---|---|---|
| 遺忘閘(Forget Gate) | 決定哪些舊記憶要丟掉 | 忘掉不重要的舊事 |
| 輸入閘(Input Gate) | 決定哪些新資訊要記住 | 把重要新事記下來 |
| 輸出閘(Output Gate) | 決定輸出哪些記憶 | 在對的時機說出來 |
適用場景:時間序列預測、語音辨識、機器翻譯(現已多被 Transformer 取代)
5. BERT(Bidirectional Encoder Representations from Transformers)
類比:讀一篇文章時,你不只向前讀,也會回頭確認前文。BERT 同時看一個詞的「左邊鄰居」和「右邊鄰居」,理解它在整句話中的真實意思。
核心機制:
- 遮罩語言模型(Masked Language Model,MLM):訓練時隨機遮住 15% 的詞,讓模型猜測被遮住的詞
- 雙向(Bidirectional):同時利用左右兩側的上下文,理解更深層的語意
輸入:「我喜歡吃 [MASK] 披薩」
BERT同時看:「我喜歡吃」← → 「披薩」
輸出:預測 [MASK] = 「義大利」
適用場景:情感分析、問答系統、文本分類、命名實體識別(NER)
考試重點:BERT 是編碼器(Encoder)架構,擅長理解任務;GPT 是解碼器(Decoder)架構,擅長生成任務。
2.4 鑑別式 AI 的四大特性
| 特性 | 說明 | 與生成式 AI 比較 |
|---|---|---|
| 需要標記資料 | 訓練時每筆資料都需要正確答案(標籤) | 生成式 AI 可用無標籤資料 |
| 訓練相對穩定 | 有明確的損失函數目標,收斂較可預期 | 生成式 AI(如 GAN)訓練不穩定 |
| 可解釋性較高 | 決策邊界可視化,較易解釋判斷原因 | 生成式 AI 的潛在空間難以解釋 |
| 計算成本較低 | 不需要生成高維資料,計算資源需求少 | 生成式 AI 需要大量 GPU 資源 |
2.5 主要應用場景
- 影像辨識(Image Recognition):工廠瑕疵檢測、人臉識別、自動駕駛行人偵測
- 自然語言處理情感分析(NLP Sentiment Analysis):電商評論正負面判斷、社群媒體輿情監測
- 醫療診斷(Medical Diagnosis):X 光片腫瘤偵測、皮膚癌分類、眼底病變篩查
- 詐欺偵測(Fraud Detection):信用卡異常交易識別、保險理賠造假判斷
三、關鍵名詞中英對照
| 中文 | 英文 | 說明 |
|---|---|---|
| 鑑別式 AI | Discriminative AI | 學習分類邊界的模型 |
| 條件機率 | Conditional Probability P(Y|X) | 給定輸入 X 下,輸出 Y 的機率 |
| 決策邊界 | Decision Boundary | 分隔不同類別的超平面或曲線 |
| 邏輯迴歸 | Logistic Regression | 用 Sigmoid 輸出機率的線性分類器 |
| Sigmoid 函數 | Sigmoid Function | 將任意值壓縮到 (0,1) 的激活函數 |
| 支援向量機 | Support Vector Machine (SVM) | 最大化邊距的分類器 |
| 邊距 | Margin | SVM 中兩類資料到決策邊界的距離 |
| 核技巧 | Kernel Trick | 將資料投影到高維空間的技術 |
| 卷積神經網路 | Convolutional Neural Network (CNN) | 處理影像的深度學習架構 |
| 卷積層 | Convolution Layer | 提取局部空間特徵的層 |
| 池化層 | Pooling Layer | 降低特徵圖空間維度的層 |
| 遞迴神經網路 | Recurrent Neural Network (RNN) | 處理序列資料的神經網路 |
| 長短期記憶 | Long Short-Term Memory (LSTM) | 解決梯度消失的 RNN 變體 |
| 閘門單元 | Gate Units | LSTM 中控制資訊流動的機制 |
| BERT | Bidirectional Encoder Representations from Transformers | Google 雙向語言模型 |
| 遮罩語言模型 | Masked Language Model (MLM) | BERT 的預訓練任務 |
| 情感分析 | Sentiment Analysis | 判斷文本正負面情感的 NLP 任務 |
| 詐欺偵測 | Fraud Detection | 識別異常行為的分類任務 |
四、考試重點提示
考試重點:鑑別式 AI 學習 P(Y|X),生成式 AI 學習 P(X),這是兩者的根本數學差異,高頻考點。
考試重點:CNN 的三層結構「卷積 → 池化 → 全連接」需要記住,常以選擇題形式考架構順序。
考試重點:SVM 的核心概念是「最大化邊距(Maximize Margin)」,支援向量是離邊界最近的資料點。
考試重點:BERT 是雙向 Encoder,用於理解任務;GPT 是單向 Decoder,用於生成任務——這對比常出現在比較題。
考試重點:鑑別式 AI 的四大特性:需要標記資料、訓練穩定、可解釋性高、計算成本低。
Q1. 鑑別式 AI 在數學上學習的是哪種機率?
- A. 聯合機率 P(X, Y)
- B. 先驗機率 P(Y)
- C. 條件機率 P(Y|X)
- D. 邊際機率 P(X)
Q2. 下列哪個模型使用 Sigmoid 函數將輸出壓縮到 0~1 之間的機率值?
- A. SVM
- B. CNN
- C. 邏輯迴歸(Logistic Regression)
- D. LSTM
Q3. SVM(支援向量機)的核心訓練目標是什麼?
- A. 最小化訓練資料的損失函數
- B. 最大化決策邊界的邊距(Margin)
- C. 最大化訓練資料的條件熵
- D. 最小化模型參數的數量
Q4. CNN(卷積神經網路)處理圖片時,三個主要層的正確順序是?
- A. 全連接層 → 池化層 → 卷積層
- B. 池化層 → 卷積層 → 全連接層
- C. 卷積層 → 全連接層 → 池化層
- D. 卷積層 → 池化層 → 全連接層
Q5. 關於 BERT,下列敘述何者正確?
- A. BERT 是單向模型,只看左側上下文
- B. BERT 採用解碼器(Decoder)架構,擅長文字生成
- C. BERT 使用遮罩語言模型(MLM)進行預訓練,是雙向編碼器架構
- D. BERT 主要用於影像分類任務
解答與解析
| 題號 | 答案 | 解析 |
|---|---|---|
| Q1 | C | 鑑別式 AI 直接學習「給定輸入特徵 X 的情況下,標籤 Y 的條件機率 P(Y|X)」。P(X) 是生成式 AI 學習的目標;P(X,Y) 是聯合機率;P(Y) 是未考慮輸入的先驗機率。 |
| Q2 | C | 邏輯迴歸使用 Sigmoid 函數 1/(1+e^(-z)) 將線性組合結果轉換為 0 到 1 之間的機率。SVM 輸出的是決策值而非機率;CNN 輸出層通常用 Softmax;LSTM 輸出是隱藏狀態向量。 |
| Q3 | B | SVM 的核心目標是找到一個超平面,使兩類資料到該超平面的邊距(Margin)最大化,這樣對新資料有更好的泛化能力。選 A 是一般神經網路的目標,選 C、D 都不是 SVM 的定義。 |
| Q4 | D | CNN 的標準架構是:卷積層(提取局部特徵)→ 池化層(降維壓縮)→ 全連接層(整合分類)。這個順序可能重複多次(多個卷積+池化),最後才接全連接層輸出。 |
| Q5 | C | BERT(Bidirectional Encoder Representations from Transformers)是雙向編碼器,預訓練任務是遮罩語言模型(MLM),同時利用左右兩側上下文,擅長理解類任務如情感分析、問答系統。GPT 才是解碼器架構用於生成。 |