一、學習目標
讀完這篇,你會知道:
- 監督式學習有哪些主要模型?各自適合什麼場景?
- 非監督式學習的模型有哪幾種?
- CNN、RNN、Transformer 的差別是什麼?
- 強化學習的代表算法有哪些?
- 評估模型好壞的指標有哪些?怎麼選?
二、核心內容
2-1|監督式學習模型
線性回歸(Linear Regression)
白話解釋:找一條最能「穿過」所有資料點的直線,用這條線來預測數值。
生活比喻:你觀察到「唸書時數」和「考試成績」的關係,發現多唸 1 小時大約多 5 分——這就是線性回歸找到的規律。
成績
100 | ✦
90 | ✦ ✦
80 | ✦ ✦ ─────────────── ← 迴歸線
70 | ✦
60 |
└─────────────────────────
0 2 4 6 8 唸書時數
- 輸出:連續數值(房價、氣溫、銷售額)
- 優點:簡單、可解釋、訓練快
- 缺點:無法處理非線性關係
考試重點:線性回歸 = 回歸問題 = 輸出連續數值。評估指標用 MSE / RMSE。
邏輯回歸(Logistic Regression)
名字有「回歸」,但其實是分類模型。它把線性回歸的輸出經過 Sigmoid 函數壓縮到 0~1 之間,代表「機率」。
生活比喻:醫生根據血糖值、年齡等特徵,計算「這位病人有多大機率得糖尿病(0~100%)」,超過 50% 就判定陽性。
- 輸出:機率值(0~1)→ 二元分類(是/否)
- Sigmoid 函數:把任何數字轉換為 0 到 1 之間的機率
- 應用:垃圾郵件分類、疾病診斷、信用風險評估
考試陷阱:邏輯回歸(Logistic Regression)是分類模型,不是回歸模型,名字容易誤導。
支援向量機(SVM, Support Vector Machine)
白話解釋:在兩群資料之間找出「間距最大的分隔邊界」,讓兩群盡量離這條線越遠越好。
生活比喻:把蘋果和橘子放在桌上,你要畫一條線把它們分開——SVM 不只要畫「能分開的線」,而是要找到「讓兩邊離線最遠的那條線」(最大邊距,Maximum Margin)。
○ ○
╔══════════╗
✦ ✦ ║ 最大邊距 ║ ○ ○ ○
╚══════════╝
✦ ↑
支援向量(Support Vectors)
- 核心概念:最大化邊距(Margin),邊界上的資料點稱為支援向量(Support Vectors)
- 核技巧(Kernel Trick):用數學函數把線性不可分的資料投影到高維空間,變得可分
- 適合場景:小資料量、高維資料(文字分類)
| SVM 核函數 | 適用情境 |
|---|---|
| 線性核(Linear Kernel) | 資料本來就線性可分 |
| RBF 核(Radial Basis Function) | 最常用,適合非線性問題 |
| 多項式核(Polynomial Kernel) | 特定幾何形狀的邊界 |
考試重點:SVM 的關鍵詞 = 最大邊距(Maximum Margin)、支援向量(Support Vectors)、核技巧(Kernel Trick)。
決策樹(Decision Tree)與隨機森林(Random Forest)
決策樹白話解釋:把預測過程變成一連串「是非題」,像一棵樹一樣一路分叉到答案。
生活比喻:醫生問診的流程——「有發燒嗎?有。咳嗽嗎?有。接觸過確診者嗎?有。→ 建議篩檢」。
[有沒有發燒?]
/ \
是 否
↓ ↓
[有沒有咳嗽?] → 可能是其他問題
/ \
是 否
↓ ↓
[建議篩檢] [觀察症狀]
- 優點:結果直觀、可解釋
- 缺點:容易過擬合,對資料變動敏感
隨機森林(Random Forest):建立很多棵決策樹,讓它們投票決定最終答案——這就是**集成學習(Ensemble Learning)**的概念。
生活比喻:不要只問一位醫生,而是請 100 位醫生各自診斷,最後少數服從多數。
| 比較 | 決策樹 | 隨機森林 |
|---|---|---|
| 訓練時間 | 快 | 較慢 |
| 準確率 | 中等 | 高 |
| 過擬合風險 | 高 | 低 |
| 可解釋性 | 高 | 低 |
考試重點:隨機森林 = 多棵決策樹的集成 = 投票機制 = 降低過擬合。
K 最近鄰(KNN, K-Nearest Neighbors)
白話解釋:預測一個新資料時,看它周圍最近的 K 個鄰居屬於哪一類,少數服從多數。
生活比喻:你搬到新城市,想知道附近的治安好不好——就看你家周圍 5 個鄰居(K=5)是什麼樣的人。
- 優點:概念簡單、無需訓練階段
- 缺點:預測時需要比對所有資料,速度慢;K 值要靠經驗選
考試重點:KNN 是「懶惰學習(Lazy Learning)」,訓練時什麼都不做,把工作全留到預測時。
梯度提升(Gradient Boosting):XGBoost / LightGBM
白話解釋:先訓練一個弱模型,然後下一個模型專門去「修正」前一個的錯誤,一棒接一棒,最後所有模型的預測加總起來。
生活比喻:接力賽跑,每位跑者都從前一棒停下來的地方繼續跑,而且每棒都跑得更精準。
| 模型 | 特色 | 應用場景 |
|---|---|---|
| XGBoost | 最準確,在競賽中常奪冠 | 結構化資料競賽(Kaggle) |
| LightGBM | 速度更快,記憶體更省 | 大規模工業應用 |
| CatBoost | 自動處理類別特徵 | 電商、金融 |
考試重點:XGBoost / LightGBM = 梯度提升決策樹(GBDT),是結構化資料(表格資料)的頂尖模型。
2-2|非監督式學習模型
K-Means 分群
白話解釋:先隨機放 K 個「中心點」,然後把每個資料點分給最近的中心點,再重新計算中心,反覆直到穩定。
生活比喻:要把全台灣的 7-11 分成 3 個配送區域,從隨機選 3 個倉庫位置開始,把附近門市分給它,然後重新算出最佳倉庫位置,重複直到不再改變。
初始: 收斂後:
✦ ○ ✦ ✦ ✦ ○ ○
✦★ ○ △ ✦ ✦★ ○★○
✦ ○ △△ ✦ ○ △△
★△ ★△△
(★ = 隨機中心點) (★ = 最終中心點)
- K 要事先設定(這是最大的限制)
- 評估分群好壞:組內距離越小越好、組間距離越大越好
考試重點:K-Means 需要事先決定 K 值;它對**異常值(Outlier)**很敏感。
DBSCAN(密度分群)
白話解釋:根據資料點的「密度」來分群,不需要事先設定 K 值,還能自動識別異常值(噪音點)。
生活比喻:城市裡的人口分布——人口密集的地方自然形成「一個群」,偏遠的孤立房子就被標記為「噪音」。
| 比較 | K-Means | DBSCAN |
|---|---|---|
| 需設定 K 值 | 是 | 否 |
| 能處理非圓形分群 | 否 | 是 |
| 能識別異常值 | 否 | 是 |
| 適合不規則形狀 | 否 | 是 |
主成分分析(PCA, Principal Component Analysis)
白話解釋:把很多維度的資料「壓縮」成少數幾個最重要的維度,保留最多的資訊。
生活比喻:你有 100 道關於某個人的問題,但其中 80 道其實都在問「他有多外向」。PCA 把這 80 道問題壓縮成 1 個維度「外向性」,節省空間又不失去重要資訊。
- 應用:資料視覺化(把高維資料投影到 2D 或 3D)、降低運算量、去除冗餘特徵
考試重點:PCA = 降維(Dimensionality Reduction)= 非監督式學習。不是分類也不是分群。
自編碼器(Autoencoder)
白話解釋:把資料先「壓縮」成低維向量(Encoder),再從低維向量「還原」回原始資料(Decoder),目標是讓還原後的資料盡量接近原始。
生活比喻:把一本書先精簡成 3 頁摘要(壓縮),然後用這 3 頁摘要重寫一本書(還原)——中間那個 3 頁摘要就是「隱藏表示(Latent Representation)」。
原始資料 (784維)
│
▼ Encoder(壓縮)
隱藏表示 (32維) ← 這就是「特徵向量」
│
▼ Decoder(還原)
重建資料 (784維) ≈ 原始資料
- 應用:異常偵測、圖片壓縮、生成模型的基礎
2-3|深度學習模型
人工神經網路(ANN, Artificial Neural Network)
白話解釋:模仿大腦神經元結構,由多層節點(神經元)組成,資料從輸入層流向輸出層,每層都做計算。
生活比喻:公司裡的決策流程——基層員工(輸入層)收集資訊,中層主管(隱藏層)分析整合,CEO(輸出層)做出最終決策。
輸入層 隱藏層1 隱藏層2 輸出層
[特徵1] ─┐
[特徵2] ─┤→ [節點] ─┐
[特徵3] ─┘ [節點] ─┤→ [節點] ─┐→ [輸出]
┌→ [節點] ─┘ [節點] ─┘
[特徵4] ─┘
- 激活函數(Activation Function):讓神經網路能學習非線性關係。常見:ReLU、Sigmoid、Tanh
- 反向傳播(Backpropagation):透過計算梯度,把誤差從輸出層往回傳,更新每一層的權重
考試重點:深度學習 = 多層 ANN(隱藏層超過 2 層);ReLU 是目前最常用的激活函數(計算快、不容易梯度消失)。
卷積神經網路(CNN, Convolutional Neural Network)
白話解釋:專門處理圖片的神經網路,用「濾鏡」掃描圖片,自動學習邊緣、形狀、紋理等特徵。
生活比喻:你看照片認臉時,眼睛會先掃描「輪廓」→「五官位置」→「整體臉型」,CNN 做的事情一模一樣——分層逐步提取特徵。
輸入圖片 卷積層(特徵提取) 池化層(縮小) 全連接層(分類)
┌────────┐
│ 貓的 │ → [邊緣偵測濾鏡] → [縮小] → [耳朵?眼睛?] → "貓"
│ 照片 │ [形狀偵測濾鏡] → [縮小] → [臉型辨識] → 機率:99%
└────────┘
| 層次 | 名稱 | 作用 |
|---|---|---|
| 卷積層 | Convolutional Layer | 用濾鏡(Filter/Kernel)掃描提取特徵 |
| 激活層 | Activation (ReLU) | 引入非線性 |
| 池化層 | Pooling Layer | 縮小特徵圖,降低計算量(Max Pooling 取最大值) |
| 全連接層 | Fully Connected Layer | 最後幾層,把特徵整合輸出分類結果 |
- 代表架構:AlexNet(2012)、VGG、ResNet、EfficientNet
- 應用:圖片分類、物體偵測、醫療影像分析、自動駕駛視覺
考試重點:CNN 的核心是卷積(Convolution)和池化(Pooling);它是電腦視覺(Computer Vision)的主流架構。
循環神經網路(RNN / LSTM)
白話解釋:處理「有順序的資料」(時間序列、文字),能記住前面看過的內容,影響後面的判斷。
生活比喻:讀一篇文章,你不是單獨理解每個字,而是帶著前面句子的記憶理解每一個新字。RNN 就是有「記憶」的神經網路。
RNN 的問題——梯度消失(Vanishing Gradient):序列太長時,前面的記憶會「消失」,就像讀到第 100 頁時已經忘了第 1 頁說了什麼。
LSTM(Long Short-Term Memory) 的解決方案:加入「記憶細胞(Cell State)」和三個「門(Gate)」——
| 門的名稱 | 功能 | 生活比喻 |
|---|---|---|
| 遺忘門(Forget Gate) | 決定要忘記哪些舊記憶 | 讀新章節時,忘掉不相關的細節 |
| 輸入門(Input Gate) | 決定要記住哪些新資訊 | 記下重要的新情節 |
| 輸出門(Output Gate) | 決定輸出哪些記憶 | 答題時只調用相關記憶 |
- 應用:時間序列預測、語音辨識、機器翻譯、股票預測
考試重點:RNN 有梯度消失問題 → LSTM 透過門機制解決。LSTM 是序列資料處理的重要模型。
Transformer 與注意力機制
白話解釋:不像 RNN 按順序讀資料,Transformer 能「同時看所有位置」,並計算每個位置對其他位置的重要程度(注意力分數)。
生活比喻:讀「銀行倒閉了」這句話,要判斷「銀行」是金融機構還是河岸,你會同時看整句話的所有字,而不是只看前一個字。這就是**自注意力機制(Self-Attention)**的威力。
"我 愛 台灣"
↕ ↕ ↕
每個字都跟所有其他字計算「相關程度(注意力分數)」
我 愛 台灣
我 1.0 0.8 0.3
愛 0.8 1.0 0.9
台灣 0.3 0.9 1.0
↑
「愛」和「台灣」的相關性很高
| 特點 | RNN | Transformer |
|---|---|---|
| 處理方式 | 逐步(Sequential) | 平行(Parallel) |
| 長距離依賴 | 難(梯度消失) | 容易(直接計算注意力) |
| 訓練速度 | 慢 | 快(可 GPU 平行化) |
| 代表模型 | LSTM | BERT、GPT |
- BERT(Bidirectional Encoder Representations from Transformers):Google 開發,擅長理解(雙向讀入文字)
- GPT(Generative Pre-trained Transformer):OpenAI 開發,擅長生成(從左到右生成文字)
考試重點:Transformer 的核心是自注意力機制(Self-Attention);BERT 和 GPT 都以 Transformer 為基礎架構。BERT = 編碼器(理解),GPT = 解碼器(生成)。
2-4|強化學習模型
| 模型 | 說明 | 應用 |
|---|---|---|
| Q-Learning | 學習每個「狀態-行動」對的價值(Q值),選擇Q值最高的行動 | 簡單遊戲、格子世界 |
| DQN(Deep Q-Network) | Q-Learning + 深度神經網路,用 NN 近似 Q 值函數 | Atari 遊戲(DeepMind) |
| PPO(Proximal Policy Optimization) | 直接學習「策略(Policy)」,限制每次更新幅度,訓練穩定 | ChatGPT 的 RLHF 訓練、機器人控制 |
考試重點:ChatGPT 使用的 RLHF(Reinforcement Learning from Human Feedback) 就是利用 PPO 演算法,讓模型根據人類偏好回饋來學習。
2-5|模型評估指標
這是 iPAS 必考的一大塊,各指標的定義和適用場景都要清楚。
混淆矩陣(Confusion Matrix):分類問題的基礎評估工具。
預測結果
預測正 | 預測負
┌─────────────┼─────────────┐
實際 實際正 │ TP(真陽性) │ FN(偽陰性) │
結果 ├─────────────┼─────────────┤
實際負 │ FP(偽陽性) │ TN(真陰性) │
└─────────────┴─────────────┘
TP = 預測是,實際也是(正確)
TN = 預測否,實際也否(正確)
FP = 預測是,實際卻否(誤報)← Type I Error
FN = 預測否,實際卻是(漏報)← Type II Error
分類指標:
| 指標 | 公式 | 白話說明 | 適合場景 |
|---|---|---|---|
| 準確率(Accuracy) | (TP+TN) / 全部 | 整體答對的比例 | 類別平衡時 |
| 精確率(Precision) | TP / (TP+FP) | 我說「是」的裡面,真的有多少是 | 不想誤報(如垃圾郵件) |
| 召回率(Recall) | TP / (TP+FN) | 真正的「是」裡面,我找到了多少 | 不想漏報(如癌症診斷) |
| F1 分數(F1-Score) | 2×P×R / (P+R) | Precision 和 Recall 的調和平均 | 兩者都想兼顧 |
生活比喻(以癌症篩檢為例):
- Precision:我判定 100 人有癌症,其中有幾個真的有?(不想讓健康的人白白手術)
- Recall:全部真正有癌症的人,我找到了幾個?(不想漏掉任何一個患者)
考試重點:癌症診斷、詐騙偵測重視 Recall(寧可誤報,不能漏報);垃圾郵件過濾重視 Precision(寧可漏判,不能把重要郵件判為垃圾)。
ROC 曲線與 AUC:
- ROC 曲線:以「真陽性率(Recall)」為 Y 軸、「偽陽性率(FPR)」為 X 軸畫出的曲線
- AUC(Area Under Curve):ROC 曲線下的面積,介於 0.5~1.0 之間
- AUC = 1.0:完美模型
- AUC = 0.5:跟隨機猜測一樣爛
- AUC > 0.9:優秀;AUC > 0.8:良好
回歸指標:
| 指標 | 英文 | 說明 |
|---|---|---|
| 均方誤差 | MSE | 誤差平方的平均,對大誤差懲罰較重 |
| 均方根誤差 | RMSE | MSE 開根號,單位與原始資料相同,更直觀 |
| 平均絕對誤差 | MAE | 誤差絕對值的平均,對異常值不敏感 |
| R 平方 | R² | 模型解釋了多少變異量,越接近 1 越好 |
考試重點:RMSE 單位與原資料相同(例如預測房價,RMSE 單位是萬元),比 MSE 更容易解釋。
三、關鍵名詞中英對照
| 中文 | 英文 | 一句話解釋 |
|---|---|---|
| 線性回歸 | Linear Regression | 找最佳直線,預測連續數值 |
| 邏輯回歸 | Logistic Regression | 分類模型,用 Sigmoid 輸出機率 |
| 支援向量機 | SVM (Support Vector Machine) | 找最大邊距的分隔超平面 |
| 決策樹 | Decision Tree | 用一連串是非問題做決策的樹狀模型 |
| 隨機森林 | Random Forest | 多棵決策樹投票的集成學習模型 |
| 梯度提升 | Gradient Boosting | 弱模型一棒接一棒修正錯誤的集成方法 |
| K 最近鄰 | KNN (K-Nearest Neighbors) | 看最近 K 個鄰居的標籤來預測 |
| K-Means | K-Means Clustering | 無監督分群,需事先設定 K 值 |
| 主成分分析 | PCA (Principal Component Analysis) | 降維技術,保留最重要的變異特徵 |
| 自編碼器 | Autoencoder | 壓縮再還原,學習資料的隱藏表示 |
| 卷積神經網路 | CNN (Convolutional Neural Network) | 圖像處理的主力,用卷積濾鏡提取特徵 |
| 循環神經網路 | RNN (Recurrent Neural Network) | 有記憶的神經網路,處理序列資料 |
| 長短期記憶 | LSTM (Long Short-Term Memory) | 改良 RNN,透過門機制記住長期依賴 |
| 注意力機制 | Attention Mechanism | 計算序列中每個位置的相關程度 |
| Transformer | Transformer | 基於自注意力的並行架構,BERT/GPT 的基礎 |
| 混淆矩陣 | Confusion Matrix | 分類結果的 2×2 真假陽陰性統計表 |
| 精確率 | Precision | 預測為正的裡面,實際為正的比例 |
| 召回率 | Recall | 實際為正的裡面,被正確找到的比例 |
| F1 分數 | F1-Score | Precision 和 Recall 的調和平均 |
| AUC | Area Under Curve | ROC 曲線下面積,衡量分類器整體能力 |
四、考試重點提示
必背清單:
- 邏輯回歸 = 分類模型(不是回歸!)
- SVM = 最大邊距(Maximum Margin)+ 核技巧(Kernel Trick)
- 隨機森林 = 決策樹 + 集成學習(Ensemble Learning)
- CNN = 卷積層 + 池化層 = 圖像處理首選
- LSTM 解決 RNN 的梯度消失問題
- Transformer = 自注意力機制 = BERT / GPT 的基礎
- BERT = 編碼器 = 理解;GPT = 解碼器 = 生成
- Precision vs Recall:癌症診斷看 Recall,垃圾郵件看 Precision
- AUC = 0.5 表示模型跟隨機猜一樣;越接近 1 越好
- ChatGPT 訓練用到 PPO(RLHF)
易混淆比較:
| 常搞混的 | 差別在哪 |
|---|---|
| 線性回歸 vs 邏輯回歸 | 線性→數值輸出,邏輯→機率→分類 |
| 決策樹 vs 隨機森林 | 隨機森林是多棵決策樹集成,準確率更高、過擬合更少 |
| RNN vs LSTM | LSTM 有門機制,能記住長期依賴,解決梯度消失 |
| BERT vs GPT | BERT 雙向理解(編碼器),GPT 單向生成(解碼器) |
| Precision vs Recall | Precision 看預測正確率,Recall 看覆蓋率(漏網之魚) |
| MSE vs RMSE | RMSE = MSE 開根號,單位與原資料相同,更直觀 |
| K-Means vs DBSCAN | K-Means 需設 K 值、假設圓形群,DBSCAN 自動分群、可偵測異常 |
Q1. 支援向量機(SVM)的核心目標是什麼?
- (A) 找到讓損失函數最小的神經網路權重
- (B) 找到讓兩類資料間邊距最大的分隔超平面
- (C) 找到讓資料點距中心最近的 K 個群組
- (D) 找到讓決策樹深度最小的分裂方式
Q2. Transformer 相較於 RNN 最大的優勢是什麼?
- (A) 使用更多的池化層,特徵提取效果更好
- (B) 利用卷積操作直接提取序列特徵
- (C) 能夠平行處理整個序列,並直接計算任意兩位置的相關性
- (D) 透過遺忘門和輸入門有效保留長期記憶
Q3. 一間醫院要建立癌症篩檢模型,最重要的評估指標是哪個?為什麼?
- (A) Precision(精確率),因為不想讓健康的人接受不必要的治療
- (B) Recall(召回率),因為不能漏掉任何一位真正的患者
- (C) Accuracy(準確率),因為整體正確率最重要
- (D) AUC,因為它是最通用的指標
Q4. 下列哪個說法關於邏輯回歸是正確的?
- (A) 邏輯回歸是一種回歸模型,輸出連續數值
- (B) 邏輯回歸使用 ReLU 函數作為激活函數
- (C) 邏輯回歸是一種分類模型,使用 Sigmoid 函數輸出機率
- (D) 邏輯回歸需要大量資料才能運作,不適合小資料集
Q5. ChatGPT 的訓練過程中使用了 RLHF,其中的 RL 對應的是哪個強化學習演算法?
- (A) Q-Learning
- (B) DQN
- (C) PPO(Proximal Policy Optimization)
- (D) K-Means
解答與解析
| 題號 | 答案 | 解析 |
|---|---|---|
| Q1 | (B) | SVM 的核心概念就是「最大邊距(Maximum Margin)」——在兩類資料之間找到使邊距最大的分隔超平面,邊界上的資料點稱為支援向量(Support Vectors)。 |
| Q2 | (C) | Transformer 的自注意力機制(Self-Attention)可以平行計算整個序列中任意兩個位置的相關程度,解決了 RNN 必須逐步處理的速度瓶頸。選項 (D) 描述的是 LSTM 的門機制。 |
| Q3 | (B) | 癌症篩檢最怕「漏報(False Negative)」——把真正的患者判為健康,造成延誤治療的嚴重後果。Recall = TP/(TP+FN),衡量的正是「真正的患者被找到了多少比例」。 |
| Q4 | (C) | 邏輯回歸(Logistic Regression)雖然名字有「回歸」,但它是分類模型,使用 Sigmoid 函數將輸出壓縮到 0~1 之間,代表機率,最後根據門檻值(通常 0.5)決定類別。 |
| Q5 | (C) | ChatGPT 的 RLHF(Reinforcement Learning from Human Feedback)使用 PPO 演算法。PPO 是一種策略梯度方法,透過限制每次策略更新的幅度來保持訓練穩定性,特別適合語言模型的微調。 |