常見機器學習模型大全：從線性回歸到 Transformer

Q: 常見機器學習模型大全？從線性回歸到 Transformer？

線性回歸、SVM、決策樹、隨機森林、CNN、RNN、Transformer——每個模型用白話解釋。

一、學習目標

讀完這篇，你會知道：

監督式學習有哪些主要模型？各自適合什麼場景？
非監督式學習的模型有哪幾種？
CNN、RNN、Transformer 的差別是什麼？
強化學習的代表算法有哪些？
評估模型好壞的指標有哪些？怎麼選？

二、核心內容

2-1｜監督式學習模型

線性回歸（Linear Regression）

白話解釋：找一條最能「穿過」所有資料點的直線，用這條線來預測數值。

生活比喻：你觀察到「唸書時數」和「考試成績」的關係，發現多唸 1 小時大約多 5 分，這就是線性回歸找到的規律。

輸出：連續數值（房價、氣溫、銷售額）
優點：簡單、可解釋、訓練快
缺點：無法處理非線性關係

考試重點：線性回歸 = 回歸問題 = 輸出連續數值。評估指標用 MSE / RMSE。

邏輯回歸（Logistic Regression）

名字有「回歸」，但其實是分類模型。它把線性回歸的輸出經過 Sigmoid 函數壓縮到 0~1 之間，代表「機率」。

生活比喻：醫生根據血糖值、年齡等特徵，計算「這位病人有多大機率得糖尿病（0~100%）」，超過 50% 就判定陽性。

輸出：機率值（0~1）→ 二元分類（是/否）
Sigmoid 函數：把任何數字轉換為 0 到 1 之間的機率
應用：垃圾郵件分類、疾病診斷、信用風險評估

考試陷阱：邏輯回歸（Logistic Regression）是分類模型，不是回歸模型，名字容易誤導。

支援向量機（SVM, Support Vector Machine）

白話解釋：在兩群資料之間找出「間距最大的分隔邊界」，讓兩群盡量離這條線越遠越好。

生活比喻：把蘋果和橘子放在桌上，你要畫一條線把它們分開，SVM 不只要畫「能分開的線」，而是要找到「讓兩邊離線最遠的那條線」（最大邊距，Maximum Margin）。

核心概念：最大化邊距（Margin），邊界上的資料點稱為支援向量（Support Vectors）
核技巧（Kernel Trick）：用數學函數把線性不可分的資料投影到高維空間，變得可分
適合場景：小資料量、高維資料（文字分類）

SVM 核函數	適用情境
線性核（Linear Kernel）	資料本來就線性可分
RBF 核（Radial Basis Function）	最常用，適合非線性問題
多項式核（Polynomial Kernel）	特定幾何形狀的邊界

考試重點：SVM 的關鍵詞 = 最大邊距（Maximum Margin）、支援向量（Support Vectors）、核技巧（Kernel Trick）。

決策樹（Decision Tree）與隨機森林（Random Forest）

決策樹白話解釋：把預測過程變成一連串「是非題」，像一棵樹一樣一路分叉到答案。

生活比喻：醫生問診的流程，「有發燒嗎？有。咳嗽嗎？有。接觸過確診者嗎？有。→ 建議篩檢」。

                   [有沒有發燒？]
                    /          \
                  是              否
                  ↓               ↓
          [有沒有咳嗽？]    → 可能是其他問題
           /        \
         是           否
         ↓             ↓
    [建議篩檢]     [觀察症狀]

優點：結果直觀、可解釋
缺點：容易過擬合，對資料變動敏感

隨機森林（Random Forest）：建立很多棵決策樹，讓它們投票決定最終答案，這就是集成學習（Ensemble Learning）的概念。

生活比喻：不要只問一位醫生，而是請 100 位醫生各自診斷，最後少數服從多數。

比較	決策樹	隨機森林
訓練時間	快	較慢
準確率	中等	高
過擬合風險	高	低
可解釋性	高	低

考試重點：隨機森林 = 多棵決策樹的集成 = 投票機制 = 降低過擬合。

K 最近鄰（KNN, K-Nearest Neighbors）

白話解釋：預測一個新資料時，看它周圍最近的 K 個鄰居屬於哪一類，少數服從多數。

生活比喻：你搬到新城市，想知道附近的治安好不好，就看你家周圍 5 個鄰居（K=5）是什麼樣的人。

優點：概念簡單、無需訓練階段
缺點：預測時需要比對所有資料，速度慢；K 值要靠經驗選

考試重點：KNN 是「懶惰學習（Lazy Learning）」，訓練時什麼都不做，把工作全留到預測時。

梯度提升（Gradient Boosting）：XGBoost / LightGBM

白話解釋：先訓練一個弱模型，然後下一個模型專門去「修正」前一個的錯誤，一棒接一棒，最後所有模型的預測加總起來。

生活比喻：接力賽跑，每位跑者都從前一棒停下來的地方繼續跑，而且每棒都跑得更精準。

模型	特色	應用場景
XGBoost	最準確，在競賽中常奪冠	結構化資料競賽（Kaggle）
LightGBM	速度更快，記憶體更省	大規模工業應用
CatBoost	自動處理類別特徵	電商、金融

考試重點：XGBoost / LightGBM = 梯度提升決策樹（GBDT），是結構化資料（表格資料）的頂尖模型。

2-2｜非監督式學習模型

K-Means 分群

白話解釋：先隨機放 K 個「中心點」，然後把每個資料點分給最近的中心點，再重新計算中心，反覆直到穩定。

生活比喻：要把全台灣的 7-11 分成 3 個配送區域，從隨機選 3 個倉庫位置開始，把附近門市分給它，然後重新算出最佳倉庫位置，重複直到不再改變。

初始：                 收斂後：
  ✦  ○  ✦             ✦ ✦   ○ ○
  ✦★  ○  △           ✦ ✦★  ○★○
  ✦  ○  △△            ✦    ○  △△
       ★△                   ★△△
（★ = 隨機中心點）        （★ = 最終中心點）

K 要事先設定（這是最大的限制）
評估分群好壞：組內距離越小越好、組間距離越大越好

考試重點：K-Means 需要事先決定 K 值；它對異常值（Outlier）很敏感。

DBSCAN（密度分群）

白話解釋：根據資料點的「密度」來分群，不需要事先設定 K 值，還能自動識別異常值（噪音點）。

生活比喻：城市裡的人口分布，人口密集的地方自然形成「一個群」，偏遠的孤立房子就被標記為「噪音」。

比較	K-Means	DBSCAN
需設定 K 值	是	否
能處理非圓形分群	否	是
能識別異常值	否	是
適合不規則形狀	否	是

主成分分析（PCA, Principal Component Analysis）

白話解釋：把很多維度的資料「壓縮」成少數幾個最重要的維度，保留最多的資訊。

生活比喻：你有 100 道關於某個人的問題，但其中 80 道其實都在問「他有多外向」。PCA 把這 80 道問題壓縮成 1 個維度「外向性」，節省空間又不失去重要資訊。

應用：資料視覺化（把高維資料投影到 2D 或 3D）、降低運算量、去除冗餘特徵

考試重點：PCA = 降維（Dimensionality Reduction）= 非監督式學習。不是分類也不是分群。

自編碼器（Autoencoder）

白話解釋：把資料先「壓縮」成低維向量（Encoder），再從低維向量「還原」回原始資料（Decoder），目標是讓還原後的資料盡量接近原始。

生活比喻：把一本書先精簡成 3 頁摘要（壓縮），然後用這 3 頁摘要重寫一本書（還原），中間那個 3 頁摘要就是「隱藏表示（Latent Representation）」。

應用：異常偵測、圖片壓縮、生成模型的基礎

2-3｜深度學習模型

人工神經網路（ANN, Artificial Neural Network）

白話解釋：模仿大腦神經元結構，由多層節點（神經元）組成，資料從輸入層流向輸出層，每層都做計算。

生活比喻：公司裡的決策流程，基層員工（輸入層）收集資訊，中層主管（隱藏層）分析整合，CEO（輸出層）做出最終決策。

激活函數（Activation Function）：讓神經網路能學習非線性關係。常見：ReLU、Sigmoid、Tanh
反向傳播（Backpropagation）：透過計算梯度，把誤差從輸出層往回傳，更新每一層的權重

考試重點：深度學習 = 多層 ANN（隱藏層超過 2 層）；ReLU 是目前最常用的激活函數（計算快、不容易梯度消失）。

卷積神經網路（CNN, Convolutional Neural Network）

白話解釋：專門處理圖片的神經網路，用「濾鏡」掃描圖片，自動學習邊緣、形狀、紋理等特徵。

生活比喻：你看照片認臉時，眼睛會先掃描「輪廓」→「五官位置」→「整體臉型」，CNN 做的事情一模一樣，分層逐步提取特徵。

層次	名稱	作用
卷積層	Convolutional Layer	用濾鏡（Filter/Kernel）掃描提取特徵
激活層	Activation (ReLU)	引入非線性
池化層	Pooling Layer	縮小特徵圖，降低計算量（Max Pooling 取最大值）
全連接層	Fully Connected Layer	最後幾層，把特徵整合輸出分類結果

代表架構：AlexNet（2012）、VGG、ResNet、EfficientNet
應用：圖片分類、物體偵測、醫療影像分析、自動駕駛視覺

考試重點：CNN 的核心是卷積（Convolution）和池化（Pooling）；它是電腦視覺（Computer Vision）的主流架構。

循環神經網路（RNN / LSTM）

白話解釋：處理「有順序的資料」（時間序列、文字），能記住前面看過的內容，影響後面的判斷。

生活比喻：讀一篇文章，你不是單獨理解每個字，而是帶著前面句子的記憶理解每一個新字。RNN 就是有「記憶」的神經網路。

RNN 的問題，梯度消失（Vanishing Gradient）：序列太長時，前面的記憶會「消失」，就像讀到第 100 頁時已經忘了第 1 頁說了什麼。

LSTM（Long Short-Term Memory） 的解決方案：加入「記憶細胞（Cell State）」和三個「門（Gate）」，

門的名稱	功能	生活比喻
遺忘門（Forget Gate）	決定要忘記哪些舊記憶	讀新章節時，忘掉不相關的細節
輸入門（Input Gate）	決定要記住哪些新資訊	記下重要的新情節
輸出門（Output Gate）	決定輸出哪些記憶	答題時只調用相關記憶

應用：時間序列預測、語音辨識、機器翻譯、股票預測

考試重點：RNN 有梯度消失問題 → LSTM 透過門機制解決。LSTM 是序列資料處理的重要模型。

Transformer 與注意力機制

白話解釋：不像 RNN 按順序讀資料，Transformer 能「同時看所有位置」，並計算每個位置對其他位置的重要程度（注意力分數）。

生活比喻：讀「銀行倒閉了」這句話，要判斷「銀行」是金融機構還是河岸，你會同時看整句話的所有字，而不是只看前一個字。這就是自注意力機制（Self-Attention）的威力。

"我   愛   台灣"
  ↕    ↕    ↕
  每個字都跟所有其他字計算「相關程度（注意力分數）」

    我  愛  台灣
我  1.0 0.8 0.3
愛  0.8 1.0 0.9
台灣 0.3 0.9 1.0
         ↑
    「愛」和「台灣」的相關性很高

特點	RNN	Transformer
處理方式	逐步（Sequential）	平行（Parallel）
長距離依賴	難（梯度消失）	容易（直接計算注意力）
訓練速度	慢	快（可 GPU 平行化）
代表模型	LSTM	BERT、GPT

BERT（Bidirectional Encoder Representations from Transformers）：Google 開發，擅長理解（雙向讀入文字）
GPT（Generative Pre-trained Transformer）：OpenAI 開發，擅長生成（從左到右生成文字）

考試重點：Transformer 的核心是自注意力機制（Self-Attention）；BERT 和 GPT 都以 Transformer 為基礎架構。BERT = 編碼器（理解），GPT = 解碼器（生成）。

2-4｜強化學習模型

模型	說明	應用
Q-Learning	學習每個「狀態-行動」對的價值（Q值），選擇Q值最高的行動	簡單遊戲、格子世界
DQN（Deep Q-Network）	Q-Learning + 深度神經網路，用 NN 近似 Q 值函數	Atari 遊戲（DeepMind）
PPO（Proximal Policy Optimization）	直接學習「策略（Policy）」，限制每次更新幅度，訓練穩定	ChatGPT 的 RLHF 訓練、機器人控制

考試重點：ChatGPT 使用的 RLHF（Reinforcement Learning from Human Feedback） 就是利用 PPO 演算法，讓模型根據人類偏好回饋來學習。

2-5｜模型評估指標

這是 iPAS 必考的一大塊，各指標的定義和適用場景都要清楚。

混淆矩陣（Confusion Matrix）：分類問題的基礎評估工具。

分類指標：

指標	公式	白話說明	適合場景
準確率（Accuracy）	(TP+TN) / 全部	整體答對的比例	類別平衡時
精確率（Precision）	TP / (TP+FP)	我說「是」的裡面，真的有多少是	不想誤報（如垃圾郵件）
召回率（Recall）	TP / (TP+FN)	真正的「是」裡面，我找到了多少	不想漏報（如癌症診斷）
F1 分數（F1-Score）	2×P×R / (P+R)	Precision 和 Recall 的調和平均	兩者都想兼顧

生活比喻（以癌症篩檢為例）：

Precision：我判定 100 人有癌症，其中有幾個真的有？（不想讓健康的人白白手術）
Recall：全部真正有癌症的人，我找到了幾個？（不想漏掉任何一個患者）

考試重點：癌症診斷、詐騙偵測重視 Recall（寧可誤報，不能漏報）；垃圾郵件過濾重視 Precision（寧可漏判，不能把重要郵件判為垃圾）。

ROC 曲線與 AUC：

ROC 曲線：以「真陽性率（Recall）」為 Y 軸、「偽陽性率（FPR）」為 X 軸畫出的曲線
AUC（Area Under Curve）：ROC 曲線下的面積，介於 0.5~1.0 之間

- AUC = 1.0：完美模型

- AUC = 0.5：跟隨機猜測一樣爛

- AUC > 0.9：優秀；AUC > 0.8：良好

回歸指標：

指標	英文	說明
均方誤差	MSE	誤差平方的平均，對大誤差懲罰較重
均方根誤差	RMSE	MSE 開根號，單位與原始資料相同，更直觀
平均絕對誤差	MAE	誤差絕對值的平均，對異常值不敏感
R 平方	R²	模型解釋了多少變異量，越接近 1 越好

考試重點：RMSE 單位與原資料相同（例如預測房價，RMSE 單位是萬元），比 MSE 更容易解釋。

三、關鍵名詞中英對照

中文	英文	一句話解釋
線性回歸	Linear Regression	找最佳直線，預測連續數值
邏輯回歸	Logistic Regression	分類模型，用 Sigmoid 輸出機率
支援向量機	SVM (Support Vector Machine)	找最大邊距的分隔超平面
決策樹	Decision Tree	用一連串是非問題做決策的樹狀模型
隨機森林	Random Forest	多棵決策樹投票的集成學習模型
梯度提升	Gradient Boosting	弱模型一棒接一棒修正錯誤的集成方法
K 最近鄰	KNN (K-Nearest Neighbors)	看最近 K 個鄰居的標籤來預測
K-Means	K-Means Clustering	無監督分群，需事先設定 K 值
主成分分析	PCA (Principal Component Analysis)	降維技術，保留最重要的變異特徵
自編碼器	Autoencoder	壓縮再還原，學習資料的隱藏表示
卷積神經網路	CNN (Convolutional Neural Network)	圖像處理的主力，用卷積濾鏡提取特徵
循環神經網路	RNN (Recurrent Neural Network)	有記憶的神經網路，處理序列資料
長短期記憶	LSTM (Long Short-Term Memory)	改良 RNN，透過門機制記住長期依賴
注意力機制	Attention Mechanism	計算序列中每個位置的相關程度
Transformer	Transformer	基於自注意力的並行架構，BERT/GPT 的基礎
混淆矩陣	Confusion Matrix	分類結果的 2×2 真假陽陰性統計表
精確率	Precision	預測為正的裡面，實際為正的比例
召回率	Recall	實際為正的裡面，被正確找到的比例
F1 分數	F1-Score	Precision 和 Recall 的調和平均
AUC	Area Under Curve	ROC 曲線下面積，衡量分類器整體能力

四、考試重點提示

必背清單：

邏輯回歸 = 分類模型（不是回歸！）
SVM = 最大邊距（Maximum Margin）+ 核技巧（Kernel Trick）
隨機森林 = 決策樹 + 集成學習（Ensemble Learning）
CNN = 卷積層 + 池化層 = 圖像處理首選
LSTM 解決 RNN 的梯度消失問題
Transformer = 自注意力機制 = BERT / GPT 的基礎
BERT = 編碼器 = 理解；GPT = 解碼器 = 生成
Precision vs Recall：癌症診斷看 Recall，垃圾郵件看 Precision
AUC = 0.5 表示模型跟隨機猜一樣；越接近 1 越好
ChatGPT 訓練用到 PPO（RLHF）

易混淆比較：

常搞混的	差別在哪
線性回歸 vs 邏輯回歸	線性→數值輸出，邏輯→機率→分類
決策樹 vs 隨機森林	隨機森林是多棵決策樹集成，準確率更高、過擬合更少
RNN vs LSTM	LSTM 有門機制，能記住長期依賴，解決梯度消失
BERT vs GPT	BERT 雙向理解（編碼器），GPT 單向生成（解碼器）
Precision vs Recall	Precision 看預測正確率，Recall 看覆蓋率（漏網之魚）
MSE vs RMSE	RMSE = MSE 開根號，單位與原資料相同，更直觀
K-Means vs DBSCAN	K-Means 需設 K 值、假設圓形群，DBSCAN 自動分群、可偵測異常

Q1. 支援向量機（SVM）的核心目標是什麼？

(A) 找到讓損失函數最小的神經網路權重
(B) 找到讓兩類資料間邊距最大的分隔超平面
(C) 找到讓資料點距中心最近的 K 個群組
(D) 找到讓決策樹深度最小的分裂方式

Q2. Transformer 相較於 RNN 最大的優勢是什麼？

(A) 使用更多的池化層，特徵提取效果更好
(B) 利用卷積操作直接提取序列特徵
(C) 能夠平行處理整個序列，並直接計算任意兩位置的相關性
(D) 透過遺忘門和輸入門有效保留長期記憶

Q3. 一間醫院要建立癌症篩檢模型，最重要的評估指標是哪個？為什麼？

(A) Precision（精確率），因為不想讓健康的人接受不必要的治療
(B) Recall（召回率），因為不能漏掉任何一位真正的患者
(C) Accuracy（準確率），因為整體正確率最重要
(D) AUC，因為它是最通用的指標

Q4. 下列哪個說法關於邏輯回歸是正確的？

(A) 邏輯回歸是一種回歸模型，輸出連續數值
(B) 邏輯回歸使用 ReLU 函數作為激活函數
(C) 邏輯回歸是一種分類模型，使用 Sigmoid 函數輸出機率
(D) 邏輯回歸需要大量資料才能運作，不適合小資料集

Q5. ChatGPT 的訓練過程中使用了 RLHF，其中的 RL 對應的是哪個強化學習演算法？

(A) Q-Learning
(B) DQN
(C) PPO（Proximal Policy Optimization）
(D) K-Means

解答與解析

題號	答案	解析
Q1	(B)	SVM 的核心概念就是「最大邊距（Maximum Margin）」，在兩類資料之間找到使邊距最大的分隔超平面，邊界上的資料點稱為支援向量（Support Vectors）。
Q2	(C)	Transformer 的自注意力機制（Self-Attention）可以平行計算整個序列中任意兩個位置的相關程度，解決了 RNN 必須逐步處理的速度瓶頸。選項 (D) 描述的是 LSTM 的門機制。
Q3	(B)	癌症篩檢最怕「漏報（False Negative）」，把真正的患者判為健康，造成延誤治療的嚴重後果。Recall = TP/(TP+FN)，衡量的正是「真正的患者被找到了多少比例」。
Q4	(C)	邏輯回歸（Logistic Regression）雖然名字有「回歸」，但它是分類模型，使用 Sigmoid 函數將輸出壓縮到 0~1 之間，代表機率，最後根據門檻值（通常 0.5）決定類別。
Q5	(C)	ChatGPT 的 RLHF（Reinforcement Learning from Human Feedback）使用 PPO 演算法。PPO 是一種策略梯度方法，透過限制每次策略更新的幅度來保持訓練穩定性，特別適合語言模型的微調。