一、學習目標
讀完本文,你將能夠:
- 區分描述統計 (Descriptive Statistics)、推論統計 (Inferential Statistics)、分群與關聯分析的用途與適用時機
- 說明平均數、中位數、標準差、偏態等核心統計量的意義
- 根據資料類型和分析目的,選擇正確的視覺化圖表
- 解釋 SHAP、LIME、Grad-CAM 等 AI 特有可解釋性視覺化工具的原理
- 辨別 matplotlib、Tableau、Power BI 等常見視覺化工具的適用場景
二、核心內容
2.1 描述統計:替資料做「健康檢查」
描述統計 (Descriptive Statistics) 就像幫資料做健康檢查——告訴你這批資料「長什麼樣子」,但不做任何推論或預測。
集中趨勢 (Central Tendency):資料的「重心」在哪?
| 統計量 | 算法 | 優點 | 缺點 | 適用情境 |
|---|---|---|---|---|
| 平均數 (Mean) | 總和 ÷ 個數 | 利用所有資料 | 對極端值敏感 | 對稱分布、無極端值 |
| 中位數 (Median) | 排序後的中間值 | 不受極端值影響 | 忽略部分資訊 | 薪資、房價等偏態資料 |
| 眾數 (Mode) | 出現最多次的值 | 適合類別資料 | 可能有多個或沒有 | 選舉投票、最熱銷商品 |
生活比喻:班上同學薪資調查,若馬斯克也在班上,平均薪資會高得離譜,但中位數才能反映「大多數人」的真實狀況。這就是為什麼談薪資水準時,通常用中位數。
離散程度 (Dispersion):資料「分散還是集中」?
就像兩個班級的平均分數都是 70 分,但一個班每個人都在 65-75 之間,另一個班從 10 分到 100 分都有——平均相同,差異極大。
| 統計量 | 說明 | 公式概念 | 特點 |
|---|---|---|---|
| 標準差 (Standard Deviation, SD) | 資料與平均數的平均距離 | √(各點偏差的平方平均) | 最常用,與原始資料同單位 |
| 變異係數 (CV, Coefficient of Variation) | 標準差 ÷ 平均數 × 100% | 相對離散程度 | 可比較不同單位的資料分散度 |
| 全距 (Range) | 最大值 - 最小值 | 最簡單 | 極易受極端值影響 |
| 四分位距 (IQR) | Q3 - Q1 | 中間 50% 的範圍 | 對極端值穩健,箱形圖的基礎 |
分布形狀:偏態與峰態
想像把資料畫成直方圖後的「山形」:
-
偏態 (Skewness):山頭偏左還是偏右?
- 正偏態 (Right Skewed):尾巴往右拖,如薪資分布——大多數人薪資不高,少數富豪拉高了右尾
- 負偏態 (Left Skewed):尾巴往左拖,如考試成績(滿分時)——大多數人拿高分,少數人拉低了左尾
- 正偏態時:平均數 > 中位數 > 眾數
-
峰態 (Kurtosis):山頭是尖的還是平的?
- 高峰態 (Leptokurtic):分布集中,中間高聳,尾部有極端值
- 低峰態 (Platykurtic):分布平坦,資料較分散
- 常態分布的峰態值定義為 0(或 3,視計算方式而定)
考試重點:正偏態(右偏)時,平均數 > 中位數 > 眾數。薪資、房價是典型正偏態資料。
2.2 推論統計:從樣本推論母體
推論統計 (Inferential Statistics) 就像「品酒師嚐一口就能判斷整桶酒的品質」——從有限的樣本 (Sample) 推斷整體母體 (Population) 的特性,並量化這個推斷有多可靠。
T 檢定 (T-test):比較兩組平均數有無顯著差異
情境:新藥組和安慰劑組,治療效果的平均分數有差嗎?還是只是抽樣誤差?
- 獨立樣本 T 檢定:比較兩個不同群體(男生 vs. 女生的平均成績)
- 配對樣本 T 檢定:比較同一群人的前後差異(服藥前 vs. 服藥後)
- p 值 (p-value):若 p < 0.05,代表在 95% 信心水準下,差異具有統計顯著性 (Statistical Significance)
生活比喻:拋硬幣 10 次出現 7 次正面,這是偏的硬幣還是正常機率波動?T 檢定就是幫你回答「這個差異是真實的還是運氣」的問題。
卡方檢定 (Chi-Square Test):檢驗類別變數的獨立性
情境:「性別」和「購買某商品的決定」有關係嗎?還是獨立無關?
卡方檢定比較「實際觀測次數」和「若兩變數完全獨立時的預期次數」之間的差距。差距越大,越可能有關聯。
皮爾森相關係數 (Pearson Correlation Coefficient, r)
情境:冰淇淋銷售量和溺水死亡人數有相關嗎?(答案:有,但不是因果關係,是因為都跟夏天有關!)
- r 值範圍:-1 到 +1
- r = +1:完全正相關(一個增加,另一個也增加)
- r = 0:無線性相關
- r = -1:完全負相關(一個增加,另一個減少)
- |r| > 0.7:強相關;0.3 < |r| < 0.7:中度相關;|r| < 0.3:弱相關
考試重點:「相關不等於因果 (Correlation ≠ Causation)」是統計學最重要的觀念之一。冰淇淋和溺水的例子常出現在考題中。
線性迴歸 (Linear Regression)
情境:根據房子的坪數,預測售價。
線性迴歸找一條「最佳擬合直線 y = β₀ + β₁x」,使所有資料點到直線的距離總和最小(最小平方法)。
- 簡單線性迴歸:一個自變數預測一個因變數
- 多元線性迴歸:多個自變數預測一個因變數
- R²(決定係數):模型能解釋多少比例的變異,R² = 0.85 代表模型解釋了 85% 的變異
2.3 分群與關聯分析
K-Means 分群
想像把散落在地板上的糖果,按顏色分成幾堆——K-Means 就是讓電腦自動做這件事。
演算法流程:
1. 隨機放置 K 個「群心 (Centroid)」
2. 每個資料點歸入最近的群心
3. 重新計算每群的群心(取平均位置)
4. 重複步驟 2-3,直到群心不再移動
- 優點:簡單、快速、好理解
- 缺點:需要事先指定 K 值;對初始位置敏感;只能找「圓形」的群
DBSCAN(密度基礎分群)
K-Means 不擅長找「奇形怪狀」的群,DBSCAN 則用密度來定義群:密集的地方是一群,稀疏的地方是「雜訊點」。
就像在地圖上找城市聚落——人口密集處算一個城市,荒野中的零星住戶算雜訊。
DBSCAN 的優勢:不需要指定群數、可處理任意形狀的群、能識別離群點 (Outlier)。
Apriori 關聯規則分析(購物籃分析)
最著名案例:超市發現「買啤酒的人通常也買尿布 (Beer & Diapers)」——因為年輕爸爸被老婆派去買尿布,順手買了啤酒。超市於是把啤酒和尿布擺在隔壁,銷售大增。
關聯規則的核心指標:
| 指標 | 意義 | 例子 |
|---|---|---|
| 支持度 (Support) | 同時買 A 和 B 的交易佔比 | 1000 筆交易中,100 筆同時有啤酒和尿布 → 10% |
| 信賴度 (Confidence) | 買 A 的人中,也買 B 的比例 | 買啤酒的人中,60% 也買了尿布 → 60% |
| 提升度 (Lift) | 規則比隨機好多少倍 | Lift > 1 表示有正向關聯 |
考試重點:K-Means 需預先指定 K 值,DBSCAN 不需要。Apriori 的三個核心指標:支持度、信賴度、提升度。
2.4 12 種核心圖表:什麼情況用什麼圖?
選圖的思考框架:「我要展示什麼關係?我的資料是什麼類型?」
資料關係類型
├── 趨勢 / 時序 → 折線圖
├── 比較 (類別間) → 長條圖
├── 分布 (單變數) → 直方圖 / 箱形圖
├── 相關 (兩連續變數) → 散佈圖
├── 比例 / 組成 → 圓餅圖 (慎用)
├── 矩陣相關 → 熱力圖
└── 多維比較 → 雷達圖 / 泡泡圖
| 圖表類型 | 英文名稱 | 最適用情境 | 常見誤用 |
|---|---|---|---|
| 折線圖 | Line Chart | 時間序列資料、趨勢變化 | 用在無序類別資料 |
| 長條圖 | Bar Chart | 比較不同類別的數值大小 | 類別太多時難以閱讀 |
| 直方圖 | Histogram | 單一連續變數的分布形狀 | 和長條圖混淆(直方圖無間隔) |
| 散佈圖 | Scatter Plot | 兩個連續變數的相關性 | 資料點太多時重疊看不清 |
| 熱力圖 | Heatmap | 矩陣資料、相關係數矩陣、混淆矩陣 | 顏色選擇不當導致誤讀 |
| 箱形圖 | Box Plot | 比較多組資料的分布與離群值 | 只看中位數,忽略四分位距意義 |
| 雷達圖 | Radar Chart | 單一對象在多個維度的表現 | 維度超過 8 個時難以閱讀 |
| 泡泡圖 | Bubble Chart | 三個變數同時呈現(x, y, 泡泡大小) | 泡泡大小差異太小時失去意義 |
| 決策樹圖 | Decision Tree | 呈現模型決策邏輯 | 樹太深時版面混亂 |
| 網絡圖 | Network Graph | 關係網絡、社群連結、知識圖譜 | 節點太多時成「義大利麵」 |
| PCA 散佈圖 | PCA Plot | 高維資料降維後的群聚分布 | 忽略解釋各軸代表的意義 |
| 混淆矩陣 | Confusion Matrix | 分類模型的預測正確性 | 不含準確率標示時難以解讀 |
直方圖 vs. 長條圖——最常被混淆的一對:
- 直方圖:X 軸是連續數值(年齡、身高),柱子相連,用來看分布
- 長條圖:X 軸是類別(城市、品牌),柱子有間隔,用來比較
考試重點:散佈圖用來看相關性;折線圖用來看趨勢;直方圖用來看分布;熱力圖用來看矩陣型資料。這四種圖的使用場景辨別常出現在考題。
2.5 AI 特有視覺化方法:讓黑盒子透明化
傳統統計圖表看的是「資料」,AI 特有視覺化看的是「模型在想什麼」——這個領域叫做可解釋 AI (XAI, Explainable AI)。
特徵重要性圖 (Feature Importance Plot)
就像老師出考卷,告訴你哪些章節佔分最重。特徵重要性圖顯示模型在做預測時,哪些輸入變數影響最大。
- 樹狀模型(如隨機森林)可直接計算每個特徵對分割的貢獻
- 通常用水平長條圖呈現,由上到下依重要性排序
SHAP (SHapley Additive exPlanations)
SHAP 來自賽局理論,概念是:每個「球員(特徵)」對最終「比賽結果(預測值)」貢獻了多少?
- SHAP 值為正:這個特徵讓預測值「往上推」
- SHAP 值為負:這個特徵讓預測值「往下拉」
- 可解釋每一筆個別預測(而不只是整體),是目前最受推崇的可解釋性方法
LIME (Local Interpretable Model-agnostic Explanations)
LIME 的概念是:就算整個地球是圓的,你站的那一小塊地面是平的。
對於任何一筆預測,LIME 在該資料點附近產生很多「相似的假資料」,用一個簡單的線性模型(平的)來近似複雜模型(圓的)的局部行為。
- Model-agnostic:適用於任何模型,不限於特定架構
- 缺點:不同隨機種子可能產生不一致的解釋
CAM / Grad-CAM(類別激活圖)
應用場景:電腦視覺模型。
想知道「CNN 看一張貓的照片時,到底在看哪裡?」Grad-CAM 用梯度資訊,生成一張熱力圖疊加在原圖上,高亮顯示模型最關注的區域。
輸入圖片 → CNN 模型 → 預測「貓」
↓
Grad-CAM 反推梯度
↓
生成熱力圖(紅色 = 最受關注)
↓
疊加在原圖 → 看到模型在看「貓耳朵和眼睛」
注意力圖 (Attention Map)
用於 Transformer 架構(如 BERT、GPT)。
當翻譯「銀行」這個詞時,模型同時「注意」句子中的哪些其他詞?注意力圖用矩陣熱力圖呈現這些注意力權重。
查詢句:「我去銀行存錢」
Attention Map 可能顯示:
「銀行」← 強烈關注 →「存錢」(金融機構意思)
而非「河岸」(地理意思)
訓練歷程圖 (Training History Plot)
就像學生的學習曲線——訓練時間越長,成績是否持續進步?
Loss
| 訓練損失
| \
| \___________ ← 理想:持續下降趨於穩定
|
| 驗證損失
| \____/‾‾‾ ← 過擬合:驗證損失在某點後上升
+---------------------- Epochs
關鍵觀察:
- 訓練損失持續下降但驗證損失上升 → 過擬合 (Overfitting),需要正則化或早停
- 兩條線都高居不下 → 欠擬合 (Underfitting),模型太簡單
考試重點:SHAP 基於賽局理論,可解釋個別預測;LIME 是模型無關的局部近似;Grad-CAM 用熱力圖顯示 CNN 的視覺關注區域;注意力圖用於 Transformer 模型。
2.6 常見視覺化工具比較
| 工具 | 類型 | 主要使用者 | 優點 | 缺點 |
|---|---|---|---|---|
| matplotlib | Python 函式庫 | 資料科學家、研究人員 | 彈性最高、幾乎什麼都能畫 | 語法較繁瑣,美觀需費心 |
| seaborn | Python 函式庫(基於 matplotlib) | 資料科學家 | 統計圖表美觀、程式碼簡潔 | 客製化彈性低於 matplotlib |
| Plotly | Python/JS 函式庫 | 需要互動式圖表者 | 互動性強、支援網頁嵌入 | 檔案體積較大 |
| Tableau | 商業 BI 工具 | 商業分析師、管理者 | 拖拉操作、美觀、快速 | 費用高昂、客製化受限 |
| Power BI | 商業 BI 工具(微軟) | 企業用戶(特別是 Office 生態) | 與 Excel/Azure 整合佳 | 進階功能需付費 |
選擇邏輯:
- 探索性資料分析 (EDA) → seaborn 或 matplotlib
- 互動式 Web 儀表板 → Plotly 或 Tableau
- 企業定期報表 → Power BI 或 Tableau
- AI 模型可解釋性視覺化 → SHAP 套件 + matplotlib
三、關鍵名詞中英對照
| 中文 | 英文 | 說明 |
|---|---|---|
| 描述統計 | Descriptive Statistics | 描述資料特性,不做推論 |
| 推論統計 | Inferential Statistics | 從樣本推斷母體 |
| 平均數 | Mean | 資料總和除以個數 |
| 中位數 | Median | 排序後的中間值 |
| 眾數 | Mode | 出現最多次的值 |
| 標準差 | Standard Deviation (SD) | 資料偏離平均的平均程度 |
| 變異係數 | Coefficient of Variation (CV) | 標準差÷平均數,相對離散度 |
| 偏態 | Skewness | 分布的不對稱程度 |
| 峰態 | Kurtosis | 分布的尖峰程度 |
| T 檢定 | T-test | 比較兩組平均數差異 |
| 卡方檢定 | Chi-Square Test | 檢驗類別變數獨立性 |
| 皮爾森相關係數 | Pearson Correlation Coefficient | 量化線性相關強度,-1 到 1 |
| 線性迴歸 | Linear Regression | 用直線預測連續因變數 |
| 決定係數 | R-squared (R²) | 模型解釋變異的比例 |
| 統計顯著性 | Statistical Significance | 結果不太可能由隨機誤差造成 |
| p 值 | p-value | 在虛無假設下觀察到此結果的機率 |
| K-Means | K-Means Clustering | 基於距離的分群演算法 |
| DBSCAN | Density-Based Spatial Clustering | 基於密度的分群演算法 |
| 關聯規則 | Association Rules | 挖掘項目間共同出現的規律 |
| 支持度 | Support | 規則涵蓋的交易比例 |
| 信賴度 | Confidence | 規則的條件機率 |
| 提升度 | Lift | 規則優於隨機的倍數 |
| 熱力圖 | Heatmap | 用顏色呈現矩陣資料 |
| 箱形圖 | Box Plot | 呈現五數概括與離群值 |
| 可解釋 AI | XAI (Explainable AI) | 使 AI 決策可被人理解的技術 |
| 特徵重要性 | Feature Importance | 各特徵對模型預測的貢獻度 |
| SHAP 值 | SHAP Values | 基於賽局理論的特徵貢獻量化 |
| LIME | Local Interpretable Model-agnostic Explanations | 局部近似可解釋方法 |
| 梯度加權類別激活圖 | Grad-CAM | 用梯度生成 CNN 視覺關注熱力圖 |
| 注意力圖 | Attention Map | Transformer 模型的注意力權重視覺化 |
| 過擬合 | Overfitting | 模型對訓練資料過度擬合,泛化差 |
| 欠擬合 | Underfitting | 模型太簡單,連訓練資料都無法擬合 |
四、考試重點提示
考試重點:以下是 iPAS AI 證照考試中本章節最常出現的考點,請務必熟記。
-
平均數 vs. 中位數的選擇:資料有極端值(如薪資、房價)時用中位數;對稱分布無極端值時用平均數。正偏態時:平均數 > 中位數 > 眾數。
-
相關不等於因果:皮爾森相關係數只能說明線性關係的強度,不能說明因果。冰淇淋和溺水的案例是考試常客。
-
K-Means vs. DBSCAN:K-Means 需預先指定 K(群數),DBSCAN 不需要且能處理任意形狀的群與離群點。
-
Apriori 三指標:支持度(出現頻率)、信賴度(條件機率)、提升度(比隨機好多少)。
-
圖表選擇四大基本型:趨勢用折線圖、比較用長條圖、分布用直方圖/箱形圖、相關用散佈圖。直方圖與長條圖的差別(連續 vs. 類別,柱子相連 vs. 有間隔)也常考。
-
AI 可解釋性工具配對:
- SHAP → 賽局理論、量化個別特徵貢獻
- LIME → 模型無關、局部線性近似
- Grad-CAM → CNN 影像模型、熱力圖
- Attention Map → Transformer 架構
-
訓練歷程圖判讀:訓練損失下降但驗證損失上升 = 過擬合;兩者都高 = 欠擬合。
第 1 題:一份全國薪資調查顯示,平均薪資為 68,000 元,中位數薪資為 42,000 元。根據此資訊,這份薪資資料最可能呈現何種分布特性?
A. 負偏態(左偏)分布,少數低薪者拉低了平均數 B. 正偏態(右偏)分布,少數高薪者拉高了平均數 C. 完全對稱的常態分布 D. 雙峰分布(Bimodal Distribution)
第 2 題:研究人員發現「每天喝珍珠奶茶的杯數」與「期末考成績」的皮爾森相關係數 r = -0.65,下列解讀何者最正確?
A. 喝珍珠奶茶「導致」成績變差,應立即禁止 B. 兩者有中度負相關,但不能據此斷定因果關係 C. r = -0.65 代表弱相關,這個關係可以忽略 D. r 為負值代表資料蒐集有誤,應重新調查
第 3 題:電商平台想找出「經常被一起購買的商品組合」以優化推薦系統,最適合使用哪種分析方法?
A. K-Means 分群分析 B. T 檢定 C. Apriori 關聯規則分析 D. 線性迴歸
第 4 題:一位 AI 工程師想了解他的圖像分類模型「做出判斷時到底在看圖片的哪個位置」,應使用哪種視覺化工具?
A. SHAP 值分析 B. Grad-CAM(梯度加權類別激活圖) C. LIME D. 皮爾森相關係數矩陣
第 5 題:下列哪組說明正確描述了「直方圖 (Histogram)」與「長條圖 (Bar Chart)」的差異?
A. 直方圖用於類別資料比較,長條圖用於連續資料分布 B. 兩者完全相同,只是名稱不同 C. 直方圖用於呈現連續資料的分布形狀,柱子相連;長條圖用於比較類別資料,柱子之間有間隔 D. 直方圖只能用於時間序列資料,長條圖則無此限制
解答與解析
| 題號 | 答案 | 解析 |
|---|---|---|
| 1 | B | 平均數(68,000)遠大於中位數(42,000),這是正偏態(右偏)分布的典型特徵。少數高薪者(極端值)將平均數向上拉,但大多數人的薪資其實落在較低的中位數附近。正偏態的規律:平均數 > 中位數 > 眾數。薪資分布是教科書級的正偏態案例。 |
| 2 | B | r = -0.65 屬於「中度負相關」( |
| 3 | C | Apriori 關聯規則分析(購物籃分析)專門用來挖掘項目之間的共同出現規律,用支持度、信賴度、提升度量化關聯強度。K-Means 是分群(找相似的顧客,不是相似的商品組合);T 檢定是比較平均數差異;線性迴歸是預測連續數值。 |
| 4 | B | Grad-CAM(Gradient-weighted Class Activation Mapping)是專為 CNN(卷積神經網路)設計的視覺化工具,透過反推梯度生成熱力圖,高亮顯示模型在做分類時最關注的影像區域。SHAP 和 LIME 適用於特徵數值型資料的解釋;皮爾森相關係數是統計工具,完全不用於模型可解釋性。 |
| 5 | C | 直方圖(Histogram)的 X 軸是連續數值(如年齡 0-10, 10-20, 20-30…),柱子相連代表連續區間;長條圖(Bar Chart)的 X 軸是離散類別(如城市名稱、商品類別),柱子之間有間隔代表類別之間沒有連續關係。兩者最常被混淆,直方圖看分布,長條圖做比較。 |