ANGELA JIAN
LOADING
回到課程總覽
第 10 篇 L11301 機器學習

機器學習基本原理:讓電腦自己從資料中學會規律

Angela Jian
Angela Jian 簡琬庭
iPAS AI 應用規劃師 / AI Product Builder

一、學習目標

讀完這篇,你會知道:

  1. 機器學習的定義是什麼?Arthur Samuel 說了什麼?
  2. ML 的完整工作流程長怎樣?(資料 → 模型 → 預測 → 回饋)
  3. 四種學習類型各有什麼差異?(監督、非監督、半監督、強化)
  4. 損失函數、優化器是什麼?為什麼要有它們?
  5. 什麼是過擬合?怎麼防止它?

二、核心內容

2-1|機器學習是什麼?

Arthur Samuel(1959)的定義:讓電腦在沒有被明確程式化的情況下,自己從經驗中學習(“learn without being explicitly programmed”)。

用一個生活比喻來說:

傳統寫程式,像是媽媽給你一本食譜,你照著步驟做菜; 機器學習,像是讓你吃遍 10,000 道菜,然後你自己「學」會怎麼做出好吃的菜。

電腦「學習」的對象是資料,學習的結果是規律(pattern),學習的目的是對新資料做出預測

考試重點:Arthur Samuel = 1959 年 = 機器學習一詞的起源;核心概念是「資料 + 學習 → 規律」。


2-2|ML 工作流程:從資料到預測

整個機器學習的運作可以想像成「廚師培訓系統」:

┌────────────────────────────────────────────────────────────────┐
│                   機器學習工作流程                               │
│                                                                │
│  [原始資料]                                                     │
│      │                                                         │
│      ▼                                                         │
│  [資料前處理]  ← 清洗、標準化、特徵工程                           │
│      │                                                         │
│      ▼                                                         │
│  [發現規律]   ← 模型訓練(Training)                             │
│      │                                                         │
│      ▼                                                         │
│  [建立模型]   ← 驗證集調整(Validation)                         │
│      │                                                         │
│      ▼                                                         │
│  [對新資料預測] ← 測試集評估(Testing)                          │
│      │                                                         │
│      ▼                                                         │
│  [回饋與調整]  ← 優化器更新參數,循環改進                         │
│                                                                │
└────────────────────────────────────────────────────────────────┘

每個階段的白話解釋:

階段在做什麼生活比喻
資料收集蒐集大量有用的例子收集 10,000 道菜的食材清單和評價
特徵工程挑選對預測最有用的資料欄位決定「鹽巴用量」比「餐廳地址」更重要
模型訓練讓模型反覆看資料、調整內部參數廚師反覆練習,從錯誤中改進
驗證用沒見過的資料測試模型表現讓評審吃廚師做的菜,給分
預測對新資料給出答案廚師面對從沒見過的食材,也能做菜
回饋調整根據錯誤更新模型評審說「太鹹了」,廚師下次少放鹽

考試重點:ML 流程必備三個資料集——訓練集(Training set)驗證集(Validation set)測試集(Test set),各自用途不同。


2-3|四種學習類型

這是 iPAS 考試中最高頻的考點,一定要背熟。

用學生學習方式來類比

學習類型英文有沒有標籤目的生活比喻
監督式學習Supervised Learning有標籤(答案)分類、回歸老師出有答案的考卷,學生照著學
非監督式學習Unsupervised Learning沒有標籤分群、降維把一堆衣服丟給你,自己整理分類
半監督式學習Semi-supervised Learning少量有標籤 + 大量無標籤節省標記成本只有幾張有標籤的照片,靠其他照片輔助學習
強化式學習Reinforcement Learning沒有標籤,靠獎懲遊戲、自動駕駛教狗坐下,坐好了給零食,坐錯了不給

監督式學習(Supervised Learning)

資料有「正確答案(label)」,模型學習輸入與輸出之間的對應關係。

  • 分類(Classification):輸出是類別。例:這封郵件是不是垃圾郵件?(是/否)
  • 回歸(Regression):輸出是數值。例:這間房子應該賣多少錢?(150 萬、200 萬…)
監督式學習:
[貓的照片, 標籤="貓"] ─┐
[狗的照片, 標籤="狗"] ─┤→ 模型學習 → 給新照片,能說出「這是貓」
[鳥的照片, 標籤="鳥"] ─┘

非監督式學習(Unsupervised Learning)

資料沒有標籤,讓模型自己發現隱藏的結構。

  • 分群(Clustering):把相似的資料自動歸成一組。例:把 10,000 位客戶分成「高消費」「低消費」「偶爾購物」三群。
  • 降維(Dimensionality Reduction):把高維資料壓縮成低維,保留核心特徵。例:把一個人的 100 個行為特徵壓縮成 2 個主要維度。

考試陷阱:非監督式學習「分群」的結果沒有固定名稱,電腦只會說「第 1 群、第 2 群」,而不會說「這群是高消費客戶」——命名還是要人類來。

半監督式學習(Semi-supervised Learning)

現實中標記資料費時費力,所以結合少量有標籤資料和大量無標籤資料一起訓練。

生活比喻:只有 100 張照片有人標「貓」或「狗」,但還有 90,000 張沒標。半監督學習可以讓這 90,000 張也發揮作用。

強化式學習(Reinforcement Learning)

模型(稱為 Agent,智能體)在環境中採取行動,根據結果得到獎勵(Reward)懲罰(Penalty),目標是最大化累積獎勵。

強化式學習循環:

  Agent(模型)

      │ 採取行動(Action)

  環境(Environment)

      │ 回饋:狀態(State)+ 獎勵(Reward)

  Agent 更新策略

      └── 循環直到學會最佳策略(Policy)

代表應用:AlphaGo(圍棋)、Tesla 自動駕駛遊戲 AI

考試重點:強化學習的四個關鍵詞——Agent(智能體)、Environment(環境)、Reward(獎勵)、Policy(策略)


2-4|特徵工程(Feature Engineering)

特徵工程是「決定用哪些資料欄位來訓練模型」的過程,是機器學習中最重要也最耗人力的步驟。

生活比喻:要預測一個人會不會買保險,你要決定用「年齡、收入、家庭狀況」這些特徵,還是把「名字」也放進去?(名字通常沒用)

技術說明
特徵選擇(Feature Selection)去掉沒用的欄位(刪掉「名字」)
特徵縮放(Feature Scaling)讓不同單位的數字變成可比較的(年齡 0-100 vs 收入 0-10,000,000,要標準化)
特徵提取(Feature Extraction)從原始資料創造新特徵(從「出生年份」創造「年齡」)
One-Hot 編碼把類別資料變成數字(「台北、台中、高雄」→ [1,0,0], [0,1,0], [0,0,1])

考試重點:特徵工程品質直接決定模型好壞。業界名言:「Garbage in, garbage out(垃圾進,垃圾出)」。


2-5|損失函數(Loss Function)與優化器(Optimizer)

損失函數:衡量模型預測錯了多少的「評分標準」,分數越小越好。

生活比喻:考試交卷,老師批改後告訴你錯幾分——這個「錯誤分數」就是損失函數的輸出。

損失函數英文適用場景公式白話
均方誤差MSE(Mean Squared Error)回歸問題把每個預測誤差平方後取平均
交叉熵Cross Entropy分類問題測量預測機率分佈與真實分佈的差距
平均絕對誤差MAE(Mean Absolute Error)回歸(對異常值不敏感)把每個預測誤差的絕對值取平均

優化器(Optimizer):用損失函數的結果,決定「怎麼調整模型參數」以減少錯誤。

生活比喻:知道考試錯了哪裡之後,你要「怎麼改進複習方式」——這就是優化器在做的事。

優化器英文特色
隨機梯度下降SGD(Stochastic Gradient Descent)最基本,每次用一小批資料更新參數
AdamAdaptive Moment Estimation自動調整學習率,最常用,效果穩定
RMSPropRoot Mean Square Prop適合 RNN 等序列模型

考試重點MSE 用於回歸,Cross Entropy 用於分類;Adam 是目前最常用的優化器


2-6|過擬合(Overfitting)與正規化(Regularization)

過擬合:模型把訓練資料「背得太熟」,遇到新資料反而失靈。

生活比喻:學生把考古題的每一題都背了標準答案,但換一種問法就答不出來——這就是過擬合,模型「背答案」而不是「懂原理」。

                高      ┌────────────────────────────┐
                        │  訓練集準確率 ────────────→  │ 過擬合區域
                準      │                              │
                確      │  驗證集準確率 ──→ 下降了!    │
                率      │                              │
                        └────────────────────────────┘
                低      少                 多
                              訓練次數(Epochs)

欠擬合(Underfitting):模型太簡單,連訓練資料都學不好。比喻:讀書讀太少,連基本題都答不對。

防止過擬合的方法——正規化(Regularization)

方法說明生活比喻
Dropout訓練時隨機關掉一些神經元每次練習故意少用幾根手指,讓每根手指都有機會強化
L1 正規化(Lasso)懲罰多餘特徵,傾向讓不重要的參數歸零複習時強迫自己只用最核心的重點
L2 正規化(Ridge)懲罰過大的參數,讓所有參數都縮小複習時不要把某個知識點背得太極端,保持平衡
早停法(Early Stopping)當驗證集表現開始下降就停止訓練考試前一天不要再複習了,會越背越亂
資料增強(Data Augmentation)增加訓練資料量(旋轉圖片、加雜訊等)多做不同類型的考題練習

考試重點:過擬合的症狀 = 訓練集準確率高,驗證集/測試集準確率低。Dropout 是深度學習最常用的防過擬合技術。


2-7|淺層模型 vs 深度學習

比較項目淺層模型(Shallow ML)深度學習(Deep Learning)
代表算法線性回歸、SVM、決策樹、隨機森林CNN、RNN、Transformer
資料需求資料量少也能用需要大量資料(通常萬筆以上)
特徵工程需要人工設計特徵自動從原始資料學習特徵
計算資源CPU 就夠通常需要 GPU
可解釋性高(決策樹可以看清楚邏輯)低(黑盒子)
適合場景結構化資料(表格、數字)非結構化資料(圖片、語音、文字)

考試重點:深度學習不一定比淺層模型好,要看資料量和任務類型。資料量少 → 用傳統 ML;資料量大、非結構化 → 用深度學習


三、關鍵名詞中英對照

中文英文一句話解釋
機器學習Machine Learning (ML)讓電腦從資料中自己學習規律的技術
監督式學習Supervised Learning資料有標籤,學習輸入對應輸出
非監督式學習Unsupervised Learning資料沒標籤,自動發現結構或分群
半監督式學習Semi-supervised Learning少量有標籤 + 大量無標籤資料混合訓練
強化式學習Reinforcement Learning靠獎懲機制讓 Agent 學習最佳策略
分類Classification預測資料屬於哪個類別
回歸Regression預測一個連續數值
分群Clustering把相似資料自動歸組
降維Dimensionality Reduction把高維資料壓縮成低維
損失函數Loss Function衡量模型預測錯誤程度的標準
均方誤差MSE (Mean Squared Error)回歸問題的損失函數
交叉熵Cross Entropy分類問題的損失函數
優化器Optimizer根據損失函數調整模型參數的演算法
過擬合Overfitting模型把訓練資料背太熟,泛化能力差
欠擬合Underfitting模型太簡單,連訓練資料都學不好
正規化Regularization防止過擬合的各種技術
DropoutDropout訓練時隨機關掉神經元,防止過擬合
特徵工程Feature Engineering選擇與處理輸入資料特徵的過程
智能體Agent強化學習中做決策的主體
獎勵Reward強化學習中的回饋信號

四、考試重點提示

必背清單

  1. Arthur Samuel(1959)= 機器學習定義的起源
  2. 四種學習類型:監督(有標籤)、非監督(無標籤)、半監督(混合)、強化(獎懲)
  3. 監督學習分兩種:分類(輸出類別)、回歸(輸出數值)
  4. 強化學習四要素:Agent、Environment、Reward、Policy
  5. MSE → 回歸;Cross Entropy → 分類
  6. Adam 是目前最常用的優化器
  7. 過擬合症狀:訓練集準確率高,測試集準確率低
  8. Dropout / L1 / L2 / Early Stopping = 防過擬合方法

易混淆比較

常搞混的差別在哪
分類 vs 回歸分類輸出是「類別」(貓/狗),回歸輸出是「數字」(房價)
分群 vs 分類分群沒有預先定義的類別(無監督),分類有(有監督)
過擬合 vs 欠擬合過擬合太複雜,欠擬合太簡單
L1 vs L2 正規化L1 會讓參數歸零(特徵選擇),L2 讓參數縮小但不為零
訓練集 vs 驗證集 vs 測試集訓練集學習、驗證集調參數、測試集最終評估(只用一次)
隨堂小測驗

Q1. Arthur Samuel 在 1959 年提出機器學習的定義,其核心概念是?

  • (A) 讓電腦根據人類明確撰寫的規則來執行任務
  • (B) 讓電腦在沒有被明確程式化的情況下,從資料中自動學習
  • (C) 讓電腦模仿人類的自我意識與情感
  • (D) 讓電腦透過量子運算加速推論

Q2. 一家電商想把 100 萬名會員依消費行為自動分成幾個族群,應該使用哪種學習類型?

  • (A) 監督式學習
  • (B) 強化式學習
  • (C) 非監督式學習
  • (D) 半監督式學習

Q3. 強化式學習(Reinforcement Learning)中,Agent 學習的依據是什麼?

  • (A) 大量有標籤的訓練資料
  • (B) 環境給予的獎勵與懲罰信號
  • (C) 人類專家設計的規則庫
  • (D) 其他 Agent 的行為模仿

Q4. 某模型在訓練集準確率達 99%,但在測試集只有 62%,最可能發生了什麼問題?

  • (A) 欠擬合(Underfitting)
  • (B) 過擬合(Overfitting)
  • (C) 學習率設定太低
  • (D) 訓練資料不足

Q5. 下列哪個損失函數最適合用於「預測明天氣溫」這類回歸問題?

  • (A) Cross Entropy(交叉熵)
  • (B) Softmax Loss
  • (C) MSE(均方誤差)
  • (D) Hinge Loss

解答與解析

題號答案解析
Q1(B)Arthur Samuel 的核心定義就是「without being explicitly programmed」,強調機器自動從資料中學習,而非靠人工撰寫規則。
Q2(C)把會員「自動分群」是 Clustering(分群),屬於非監督式學習——因為事先沒有「正確答案」告訴模型這個人應該屬於哪一群。
Q3(B)強化學習的核心機制是 Reward(獎勵),Agent 透過嘗試不同行動,根據環境回饋的獎懲信號調整策略,AlphaGo 就是典型例子。
Q4(B)訓練集極高、測試集極低 = 過擬合的標準症狀。模型把訓練資料「背起來了」,但沒有真正學會泛化規律。解法包括 Dropout、Early Stopping、增加訓練資料。
Q5(C)氣溫預測是回歸問題(輸出連續數值),MSE(均方誤差)是回歸問題最常用的損失函數。Cross Entropy 用於分類問題。