ANGELA JIAN
LOADING
回到課程總覽
第 11 篇 L11302 機器學習

常見機器學習模型大全:從線性回歸到 Transformer

Angela Jian
Angela Jian 簡琬庭
iPAS AI 應用規劃師 / AI Product Builder

一、學習目標

讀完這篇,你會知道:

  1. 監督式學習有哪些主要模型?各自適合什麼場景?
  2. 非監督式學習的模型有哪幾種?
  3. CNN、RNN、Transformer 的差別是什麼?
  4. 強化學習的代表算法有哪些?
  5. 評估模型好壞的指標有哪些?怎麼選?

二、核心內容

2-1|監督式學習模型

線性回歸(Linear Regression)

白話解釋:找一條最能「穿過」所有資料點的直線,用這條線來預測數值。

生活比喻:你觀察到「唸書時數」和「考試成績」的關係,發現多唸 1 小時大約多 5 分——這就是線性回歸找到的規律。

成績
 100 |                         ✦
  90 |              ✦    ✦
  80 |    ✦  ✦ ─────────────── ← 迴歸線
  70 | ✦
  60 |
     └─────────────────────────
     0    2    4    6    8    唸書時數
  • 輸出:連續數值(房價、氣溫、銷售額)
  • 優點:簡單、可解釋、訓練快
  • 缺點:無法處理非線性關係

考試重點:線性回歸 = 回歸問題 = 輸出連續數值。評估指標用 MSE / RMSE。


邏輯回歸(Logistic Regression)

名字有「回歸」,但其實是分類模型。它把線性回歸的輸出經過 Sigmoid 函數壓縮到 0~1 之間,代表「機率」。

生活比喻:醫生根據血糖值、年齡等特徵,計算「這位病人有多大機率得糖尿病(0~100%)」,超過 50% 就判定陽性。

  • 輸出:機率值(0~1)→ 二元分類(是/否)
  • Sigmoid 函數:把任何數字轉換為 0 到 1 之間的機率
  • 應用:垃圾郵件分類、疾病診斷、信用風險評估

考試陷阱:邏輯回歸(Logistic Regression)是分類模型,不是回歸模型,名字容易誤導。


支援向量機(SVM, Support Vector Machine)

白話解釋:在兩群資料之間找出「間距最大的分隔邊界」,讓兩群盡量離這條線越遠越好。

生活比喻:把蘋果和橘子放在桌上,你要畫一條線把它們分開——SVM 不只要畫「能分開的線」,而是要找到「讓兩邊離線最遠的那條線」(最大邊距,Maximum Margin)。

                    ○ ○
               ╔══════════╗
         ✦ ✦  ║  最大邊距  ║  ○ ○ ○
              ╚══════════╝
        ✦          ↑
               支援向量(Support Vectors)
  • 核心概念:最大化邊距(Margin),邊界上的資料點稱為支援向量(Support Vectors)
  • 核技巧(Kernel Trick):用數學函數把線性不可分的資料投影到高維空間,變得可分
  • 適合場景:小資料量、高維資料(文字分類)
SVM 核函數適用情境
線性核(Linear Kernel)資料本來就線性可分
RBF 核(Radial Basis Function)最常用,適合非線性問題
多項式核(Polynomial Kernel)特定幾何形狀的邊界

考試重點:SVM 的關鍵詞 = 最大邊距(Maximum Margin)支援向量(Support Vectors)核技巧(Kernel Trick)


決策樹(Decision Tree)與隨機森林(Random Forest)

決策樹白話解釋:把預測過程變成一連串「是非題」,像一棵樹一樣一路分叉到答案。

生活比喻:醫生問診的流程——「有發燒嗎?有。咳嗽嗎?有。接觸過確診者嗎?有。→ 建議篩檢」。

                   [有沒有發燒?]
                    /          \
                  是              否
                  ↓               ↓
          [有沒有咳嗽?]    → 可能是其他問題
           /        \
         是           否
         ↓             ↓
    [建議篩檢]     [觀察症狀]
  • 優點:結果直觀、可解釋
  • 缺點:容易過擬合,對資料變動敏感

隨機森林(Random Forest):建立很多棵決策樹,讓它們投票決定最終答案——這就是**集成學習(Ensemble Learning)**的概念。

生活比喻:不要只問一位醫生,而是請 100 位醫生各自診斷,最後少數服從多數。

比較決策樹隨機森林
訓練時間較慢
準確率中等
過擬合風險
可解釋性

考試重點:隨機森林 = 多棵決策樹的集成 = 投票機制 = 降低過擬合。


K 最近鄰(KNN, K-Nearest Neighbors)

白話解釋:預測一個新資料時,看它周圍最近的 K 個鄰居屬於哪一類,少數服從多數。

生活比喻:你搬到新城市,想知道附近的治安好不好——就看你家周圍 5 個鄰居(K=5)是什麼樣的人。

  • 優點:概念簡單、無需訓練階段
  • 缺點:預測時需要比對所有資料,速度慢;K 值要靠經驗選

考試重點:KNN 是「懶惰學習(Lazy Learning)」,訓練時什麼都不做,把工作全留到預測時。


梯度提升(Gradient Boosting):XGBoost / LightGBM

白話解釋:先訓練一個弱模型,然後下一個模型專門去「修正」前一個的錯誤,一棒接一棒,最後所有模型的預測加總起來。

生活比喻:接力賽跑,每位跑者都從前一棒停下來的地方繼續跑,而且每棒都跑得更精準。

模型特色應用場景
XGBoost最準確,在競賽中常奪冠結構化資料競賽(Kaggle)
LightGBM速度更快,記憶體更省大規模工業應用
CatBoost自動處理類別特徵電商、金融

考試重點:XGBoost / LightGBM = 梯度提升決策樹(GBDT),是結構化資料(表格資料)的頂尖模型。


2-2|非監督式學習模型

K-Means 分群

白話解釋:先隨機放 K 個「中心點」,然後把每個資料點分給最近的中心點,再重新計算中心,反覆直到穩定。

生活比喻:要把全台灣的 7-11 分成 3 個配送區域,從隨機選 3 個倉庫位置開始,把附近門市分給它,然後重新算出最佳倉庫位置,重複直到不再改變。

初始:                 收斂後:
  ✦  ○  ✦             ✦ ✦   ○ ○
  ✦★  ○  △           ✦ ✦★  ○★○
  ✦  ○  △△            ✦    ○  △△
       ★△                   ★△△
(★ = 隨機中心點)        (★ = 最終中心點)
  • K 要事先設定(這是最大的限制)
  • 評估分群好壞:組內距離越小越好、組間距離越大越好

考試重點:K-Means 需要事先決定 K 值;它對**異常值(Outlier)**很敏感。


DBSCAN(密度分群)

白話解釋:根據資料點的「密度」來分群,不需要事先設定 K 值,還能自動識別異常值(噪音點)。

生活比喻:城市裡的人口分布——人口密集的地方自然形成「一個群」,偏遠的孤立房子就被標記為「噪音」。

比較K-MeansDBSCAN
需設定 K 值
能處理非圓形分群
能識別異常值
適合不規則形狀

主成分分析(PCA, Principal Component Analysis)

白話解釋:把很多維度的資料「壓縮」成少數幾個最重要的維度,保留最多的資訊。

生活比喻:你有 100 道關於某個人的問題,但其中 80 道其實都在問「他有多外向」。PCA 把這 80 道問題壓縮成 1 個維度「外向性」,節省空間又不失去重要資訊。

  • 應用:資料視覺化(把高維資料投影到 2D 或 3D)、降低運算量、去除冗餘特徵

考試重點:PCA = 降維(Dimensionality Reduction)= 非監督式學習。不是分類也不是分群。


自編碼器(Autoencoder)

白話解釋:把資料先「壓縮」成低維向量(Encoder),再從低維向量「還原」回原始資料(Decoder),目標是讓還原後的資料盡量接近原始。

生活比喻:把一本書先精簡成 3 頁摘要(壓縮),然後用這 3 頁摘要重寫一本書(還原)——中間那個 3 頁摘要就是「隱藏表示(Latent Representation)」。

原始資料 (784維)

    ▼ Encoder(壓縮)
隱藏表示 (32維) ← 這就是「特徵向量」

    ▼ Decoder(還原)
重建資料 (784維) ≈ 原始資料
  • 應用:異常偵測、圖片壓縮、生成模型的基礎

2-3|深度學習模型

人工神經網路(ANN, Artificial Neural Network)

白話解釋:模仿大腦神經元結構,由多層節點(神經元)組成,資料從輸入層流向輸出層,每層都做計算。

生活比喻:公司裡的決策流程——基層員工(輸入層)收集資訊,中層主管(隱藏層)分析整合,CEO(輸出層)做出最終決策。

輸入層          隱藏層1         隱藏層2         輸出層
[特徵1] ─┐
[特徵2] ─┤→ [節點] ─┐
[特徵3] ─┘   [節點] ─┤→ [節點] ─┐→ [輸出]
         ┌→  [節點] ─┘    [節點] ─┘
[特徵4] ─┘
  • 激活函數(Activation Function):讓神經網路能學習非線性關係。常見:ReLU、Sigmoid、Tanh
  • 反向傳播(Backpropagation):透過計算梯度,把誤差從輸出層往回傳,更新每一層的權重

考試重點:深度學習 = 多層 ANN(隱藏層超過 2 層);ReLU 是目前最常用的激活函數(計算快、不容易梯度消失)。


卷積神經網路(CNN, Convolutional Neural Network)

白話解釋:專門處理圖片的神經網路,用「濾鏡」掃描圖片,自動學習邊緣、形狀、紋理等特徵。

生活比喻:你看照片認臉時,眼睛會先掃描「輪廓」→「五官位置」→「整體臉型」,CNN 做的事情一模一樣——分層逐步提取特徵。

輸入圖片       卷積層(特徵提取)    池化層(縮小)   全連接層(分類)
┌────────┐
│ 貓的   │ → [邊緣偵測濾鏡] → [縮小] → [耳朵?眼睛?] → "貓"
│ 照片   │   [形狀偵測濾鏡] → [縮小] → [臉型辨識]    → 機率:99%
└────────┘
層次名稱作用
卷積層Convolutional Layer用濾鏡(Filter/Kernel)掃描提取特徵
激活層Activation (ReLU)引入非線性
池化層Pooling Layer縮小特徵圖,降低計算量(Max Pooling 取最大值)
全連接層Fully Connected Layer最後幾層,把特徵整合輸出分類結果
  • 代表架構:AlexNet(2012)、VGG、ResNet、EfficientNet
  • 應用:圖片分類、物體偵測、醫療影像分析、自動駕駛視覺

考試重點:CNN 的核心是卷積(Convolution)池化(Pooling);它是電腦視覺(Computer Vision)的主流架構。


循環神經網路(RNN / LSTM)

白話解釋:處理「有順序的資料」(時間序列、文字),能記住前面看過的內容,影響後面的判斷。

生活比喻:讀一篇文章,你不是單獨理解每個字,而是帶著前面句子的記憶理解每一個新字。RNN 就是有「記憶」的神經網路。

RNN 的問題——梯度消失(Vanishing Gradient):序列太長時,前面的記憶會「消失」,就像讀到第 100 頁時已經忘了第 1 頁說了什麼。

LSTM(Long Short-Term Memory) 的解決方案:加入「記憶細胞(Cell State)」和三個「門(Gate)」——

門的名稱功能生活比喻
遺忘門(Forget Gate)決定要忘記哪些舊記憶讀新章節時,忘掉不相關的細節
輸入門(Input Gate)決定要記住哪些新資訊記下重要的新情節
輸出門(Output Gate)決定輸出哪些記憶答題時只調用相關記憶
  • 應用:時間序列預測、語音辨識、機器翻譯、股票預測

考試重點:RNN 有梯度消失問題 → LSTM 透過門機制解決。LSTM 是序列資料處理的重要模型。


Transformer 與注意力機制

白話解釋:不像 RNN 按順序讀資料,Transformer 能「同時看所有位置」,並計算每個位置對其他位置的重要程度(注意力分數)。

生活比喻:讀「銀行倒閉了」這句話,要判斷「銀行」是金融機構還是河岸,你會同時看整句話的所有字,而不是只看前一個字。這就是**自注意力機制(Self-Attention)**的威力。

"我   愛   台灣"
  ↕    ↕    ↕
  每個字都跟所有其他字計算「相關程度(注意力分數)」

    我  愛  台灣
我  1.0 0.8 0.3
愛  0.8 1.0 0.9
台灣 0.3 0.9 1.0

    「愛」和「台灣」的相關性很高
特點RNNTransformer
處理方式逐步(Sequential)平行(Parallel)
長距離依賴難(梯度消失)容易(直接計算注意力)
訓練速度快(可 GPU 平行化)
代表模型LSTMBERT、GPT
  • BERT(Bidirectional Encoder Representations from Transformers):Google 開發,擅長理解(雙向讀入文字)
  • GPT(Generative Pre-trained Transformer):OpenAI 開發,擅長生成(從左到右生成文字)

考試重點:Transformer 的核心是自注意力機制(Self-Attention);BERT 和 GPT 都以 Transformer 為基礎架構。BERT = 編碼器(理解),GPT = 解碼器(生成)。


2-4|強化學習模型

模型說明應用
Q-Learning學習每個「狀態-行動」對的價值(Q值),選擇Q值最高的行動簡單遊戲、格子世界
DQN(Deep Q-Network)Q-Learning + 深度神經網路,用 NN 近似 Q 值函數Atari 遊戲(DeepMind)
PPO(Proximal Policy Optimization)直接學習「策略(Policy)」,限制每次更新幅度,訓練穩定ChatGPT 的 RLHF 訓練、機器人控制

考試重點:ChatGPT 使用的 RLHF(Reinforcement Learning from Human Feedback) 就是利用 PPO 演算法,讓模型根據人類偏好回饋來學習。


2-5|模型評估指標

這是 iPAS 必考的一大塊,各指標的定義和適用場景都要清楚。

混淆矩陣(Confusion Matrix):分類問題的基礎評估工具。

                        預測結果
                    預測正  |  預測負
              ┌─────────────┼─────────────┐
  實際  實際正 │  TP(真陽性) │  FN(偽陰性) │
  結果         ├─────────────┼─────────────┤
        實際負 │  FP(偽陽性) │  TN(真陰性) │
              └─────────────┴─────────────┘

TP = 預測是,實際也是(正確)
TN = 預測否,實際也否(正確)
FP = 預測是,實際卻否(誤報)← Type I Error
FN = 預測否,實際卻是(漏報)← Type II Error

分類指標

指標公式白話說明適合場景
準確率(Accuracy)(TP+TN) / 全部整體答對的比例類別平衡時
精確率(Precision)TP / (TP+FP)我說「是」的裡面,真的有多少是不想誤報(如垃圾郵件)
召回率(Recall)TP / (TP+FN)真正的「是」裡面,我找到了多少不想漏報(如癌症診斷)
F1 分數(F1-Score)2×P×R / (P+R)Precision 和 Recall 的調和平均兩者都想兼顧

生活比喻(以癌症篩檢為例):

  • Precision:我判定 100 人有癌症,其中有幾個真的有?(不想讓健康的人白白手術)
  • Recall:全部真正有癌症的人,我找到了幾個?(不想漏掉任何一個患者)

考試重點:癌症診斷、詐騙偵測重視 Recall(寧可誤報,不能漏報);垃圾郵件過濾重視 Precision(寧可漏判,不能把重要郵件判為垃圾)。

ROC 曲線與 AUC

  • ROC 曲線:以「真陽性率(Recall)」為 Y 軸、「偽陽性率(FPR)」為 X 軸畫出的曲線
  • AUC(Area Under Curve):ROC 曲線下的面積,介於 0.5~1.0 之間
    • AUC = 1.0:完美模型
    • AUC = 0.5:跟隨機猜測一樣爛
    • AUC > 0.9:優秀;AUC > 0.8:良好

回歸指標

指標英文說明
均方誤差MSE誤差平方的平均,對大誤差懲罰較重
均方根誤差RMSEMSE 開根號,單位與原始資料相同,更直觀
平均絕對誤差MAE誤差絕對值的平均,對異常值不敏感
R 平方模型解釋了多少變異量,越接近 1 越好

考試重點:RMSE 單位與原資料相同(例如預測房價,RMSE 單位是萬元),比 MSE 更容易解釋。


三、關鍵名詞中英對照

中文英文一句話解釋
線性回歸Linear Regression找最佳直線,預測連續數值
邏輯回歸Logistic Regression分類模型,用 Sigmoid 輸出機率
支援向量機SVM (Support Vector Machine)找最大邊距的分隔超平面
決策樹Decision Tree用一連串是非問題做決策的樹狀模型
隨機森林Random Forest多棵決策樹投票的集成學習模型
梯度提升Gradient Boosting弱模型一棒接一棒修正錯誤的集成方法
K 最近鄰KNN (K-Nearest Neighbors)看最近 K 個鄰居的標籤來預測
K-MeansK-Means Clustering無監督分群,需事先設定 K 值
主成分分析PCA (Principal Component Analysis)降維技術,保留最重要的變異特徵
自編碼器Autoencoder壓縮再還原,學習資料的隱藏表示
卷積神經網路CNN (Convolutional Neural Network)圖像處理的主力,用卷積濾鏡提取特徵
循環神經網路RNN (Recurrent Neural Network)有記憶的神經網路,處理序列資料
長短期記憶LSTM (Long Short-Term Memory)改良 RNN,透過門機制記住長期依賴
注意力機制Attention Mechanism計算序列中每個位置的相關程度
TransformerTransformer基於自注意力的並行架構,BERT/GPT 的基礎
混淆矩陣Confusion Matrix分類結果的 2×2 真假陽陰性統計表
精確率Precision預測為正的裡面,實際為正的比例
召回率Recall實際為正的裡面,被正確找到的比例
F1 分數F1-ScorePrecision 和 Recall 的調和平均
AUCArea Under CurveROC 曲線下面積,衡量分類器整體能力

四、考試重點提示

必背清單

  1. 邏輯回歸 = 分類模型(不是回歸!)
  2. SVM = 最大邊距(Maximum Margin)+ 核技巧(Kernel Trick)
  3. 隨機森林 = 決策樹 + 集成學習(Ensemble Learning)
  4. CNN = 卷積層 + 池化層 = 圖像處理首選
  5. LSTM 解決 RNN 的梯度消失問題
  6. Transformer = 自注意力機制 = BERT / GPT 的基礎
  7. BERT = 編碼器 = 理解;GPT = 解碼器 = 生成
  8. Precision vs Recall:癌症診斷看 Recall,垃圾郵件看 Precision
  9. AUC = 0.5 表示模型跟隨機猜一樣;越接近 1 越好
  10. ChatGPT 訓練用到 PPO(RLHF)

易混淆比較

常搞混的差別在哪
線性回歸 vs 邏輯回歸線性→數值輸出,邏輯→機率→分類
決策樹 vs 隨機森林隨機森林是多棵決策樹集成,準確率更高、過擬合更少
RNN vs LSTMLSTM 有門機制,能記住長期依賴,解決梯度消失
BERT vs GPTBERT 雙向理解(編碼器),GPT 單向生成(解碼器)
Precision vs RecallPrecision 看預測正確率,Recall 看覆蓋率(漏網之魚)
MSE vs RMSERMSE = MSE 開根號,單位與原資料相同,更直觀
K-Means vs DBSCANK-Means 需設 K 值、假設圓形群,DBSCAN 自動分群、可偵測異常
隨堂小測驗

Q1. 支援向量機(SVM)的核心目標是什麼?

  • (A) 找到讓損失函數最小的神經網路權重
  • (B) 找到讓兩類資料間邊距最大的分隔超平面
  • (C) 找到讓資料點距中心最近的 K 個群組
  • (D) 找到讓決策樹深度最小的分裂方式

Q2. Transformer 相較於 RNN 最大的優勢是什麼?

  • (A) 使用更多的池化層,特徵提取效果更好
  • (B) 利用卷積操作直接提取序列特徵
  • (C) 能夠平行處理整個序列,並直接計算任意兩位置的相關性
  • (D) 透過遺忘門和輸入門有效保留長期記憶

Q3. 一間醫院要建立癌症篩檢模型,最重要的評估指標是哪個?為什麼?

  • (A) Precision(精確率),因為不想讓健康的人接受不必要的治療
  • (B) Recall(召回率),因為不能漏掉任何一位真正的患者
  • (C) Accuracy(準確率),因為整體正確率最重要
  • (D) AUC,因為它是最通用的指標

Q4. 下列哪個說法關於邏輯回歸是正確的?

  • (A) 邏輯回歸是一種回歸模型,輸出連續數值
  • (B) 邏輯回歸使用 ReLU 函數作為激活函數
  • (C) 邏輯回歸是一種分類模型,使用 Sigmoid 函數輸出機率
  • (D) 邏輯回歸需要大量資料才能運作,不適合小資料集

Q5. ChatGPT 的訓練過程中使用了 RLHF,其中的 RL 對應的是哪個強化學習演算法?

  • (A) Q-Learning
  • (B) DQN
  • (C) PPO(Proximal Policy Optimization)
  • (D) K-Means

解答與解析

題號答案解析
Q1(B)SVM 的核心概念就是「最大邊距(Maximum Margin)」——在兩類資料之間找到使邊距最大的分隔超平面,邊界上的資料點稱為支援向量(Support Vectors)。
Q2(C)Transformer 的自注意力機制(Self-Attention)可以平行計算整個序列中任意兩個位置的相關程度,解決了 RNN 必須逐步處理的速度瓶頸。選項 (D) 描述的是 LSTM 的門機制。
Q3(B)癌症篩檢最怕「漏報(False Negative)」——把真正的患者判為健康,造成延誤治療的嚴重後果。Recall = TP/(TP+FN),衡量的正是「真正的患者被找到了多少比例」。
Q4(C)邏輯回歸(Logistic Regression)雖然名字有「回歸」,但它是分類模型,使用 Sigmoid 函數將輸出壓縮到 0~1 之間,代表機率,最後根據門檻值(通常 0.5)決定類別。
Q5(C)ChatGPT 的 RLHF(Reinforcement Learning from Human Feedback)使用 PPO 演算法。PPO 是一種策略梯度方法,透過限制每次策略更新的幅度來保持訓練穩定性,特別適合語言模型的微調。