統計分析與資料視覺化：讓數據說話的方法 — iPAS AI 應用規劃師證照教學

Q: 統計分析與資料視覺化？讓數據說話的方法？

描述統計、推論統計、分群分析有什麼差別？12 種圖表怎麼選？AI 特有視覺化方法一覽。

一、學習目標

讀完本文，你將能夠：

區分描述統計 (Descriptive Statistics)、推論統計 (Inferential Statistics)、分群與關聯分析的用途與適用時機
說明平均數、中位數、標準差、偏態等核心統計量的意義
根據資料類型和分析目的，選擇正確的視覺化圖表
解釋 SHAP、LIME、Grad-CAM 等 AI 特有可解釋性視覺化工具的原理
辨別 matplotlib、Tableau、Power BI 等常見視覺化工具的適用場景

二、核心內容

2.1 描述統計：替資料做「健康檢查」

描述統計 (Descriptive Statistics) 就像幫資料做健康檢查，告訴你這批資料「長什麼樣子」，但不做任何推論或預測。

集中趨勢 (Central Tendency)：資料的「重心」在哪？

統計量	算法	優點	缺點	適用情境
平均數 (Mean)	總和 ÷ 個數	利用所有資料	對極端值敏感	對稱分布、無極端值
中位數 (Median)	排序後的中間值	不受極端值影響	忽略部分資訊	薪資、房價等偏態資料
眾數 (Mode)	出現最多次的值	適合類別資料	可能有多個或沒有	選舉投票、最熱銷商品

生活比喻：班上同學薪資調查，若馬斯克也在班上，平均薪資會高得離譜，但中位數才能反映「大多數人」的真實狀況。這就是為什麼談薪資水準時，通常用中位數。

離散程度 (Dispersion)：資料「分散還是集中」？

就像兩個班級的平均分數都是 70 分，但一個班每個人都在 65-75 之間，另一個班從 10 分到 100 分都有，平均相同，差異極大。

統計量	說明	公式概念	特點
標準差 (Standard Deviation, SD)	資料與平均數的平均距離	√(各點偏差的平方平均)	最常用，與原始資料同單位
變異係數 (CV, Coefficient of Variation)	標準差 ÷ 平均數 × 100%	相對離散程度	可比較不同單位的資料分散度
全距 (Range)	最大值 - 最小值	最簡單	極易受極端值影響
四分位距 (IQR)	Q3 - Q1	中間 50% 的範圍	對極端值穩健，箱形圖的基礎

分布形狀：偏態與峰態

想像把資料畫成直方圖後的「山形」：

偏態 (Skewness)：山頭偏左還是偏右？

- 正偏態 (Right Skewed)：尾巴往右拖，如薪資分布，大多數人薪資不高，少數富豪拉高了右尾

- 負偏態 (Left Skewed)：尾巴往左拖，如考試成績（滿分時），大多數人拿高分，少數人拉低了左尾

- 正偏態時：平均數 > 中位數 > 眾數

峰態 (Kurtosis)：山頭是尖的還是平的？

- 高峰態 (Leptokurtic)：分布集中，中間高聳，尾部有極端值

- 低峰態 (Platykurtic)：分布平坦，資料較分散

- 常態分布的峰態值定義為 0（或 3，視計算方式而定）

考試重點：正偏態（右偏）時，平均數 > 中位數 > 眾數。薪資、房價是典型正偏態資料。

2.2 推論統計：從樣本推論母體

推論統計 (Inferential Statistics) 就像「品酒師嚐一口就能判斷整桶酒的品質」，從有限的樣本 (Sample) 推斷整體母體 (Population) 的特性，並量化這個推斷有多可靠。

T 檢定 (T-test)：比較兩組平均數有無顯著差異

情境：新藥組和安慰劑組，治療效果的平均分數有差嗎？還是只是抽樣誤差？

獨立樣本 T 檢定：比較兩個不同群體（男生 vs. 女生的平均成績）
配對樣本 T 檢定：比較同一群人的前後差異（服藥前 vs. 服藥後）
p 值 (p-value)：若 p < 0.05，代表在 95% 信心水準下，差異具有統計顯著性 (Statistical Significance)

生活比喻：拋硬幣 10 次出現 7 次正面，這是偏的硬幣還是正常機率波動？T 檢定就是幫你回答「這個差異是真實的還是運氣」的問題。

卡方檢定 (Chi-Square Test)：檢驗類別變數的獨立性

情境：「性別」和「購買某商品的決定」有關係嗎？還是獨立無關？

卡方檢定比較「實際觀測次數」和「若兩變數完全獨立時的預期次數」之間的差距。差距越大，越可能有關聯。

皮爾森相關係數 (Pearson Correlation Coefficient, r)

情境：冰淇淋銷售量和溺水死亡人數有相關嗎？（答案：有，但不是因果關係，是因為都跟夏天有關！）

r 值範圍：-1 到 +1
r = +1：完全正相關（一個增加，另一個也增加）
r = 0：無線性相關
r = -1：完全負相關（一個增加，另一個減少）
|r| > 0.7：強相關；0.3 < |r| < 0.7：中度相關；|r| < 0.3：弱相關

考試重點：「相關不等於因果 (Correlation ≠ Causation)」是統計學最重要的觀念之一。冰淇淋和溺水的例子常出現在考題中。

線性迴歸 (Linear Regression)

情境：根據房子的坪數，預測售價。

線性迴歸找一條「最佳擬合直線 y = β₀ + β₁x」，使所有資料點到直線的距離總和最小（最小平方法）。

簡單線性迴歸：一個自變數預測一個因變數
多元線性迴歸：多個自變數預測一個因變數
R²（決定係數）：模型能解釋多少比例的變異，R² = 0.85 代表模型解釋了 85% 的變異

2.3 分群與關聯分析

K-Means 分群

想像把散落在地板上的糖果，按顏色分成幾堆，K-Means 就是讓電腦自動做這件事。

演算法流程：

1. 隨機放置 K 個「群心 (Centroid)」
2. 每個資料點歸入最近的群心
3. 重新計算每群的群心（取平均位置）
4. 重複步驟 2-3，直到群心不再移動

優點：簡單、快速、好理解
缺點：需要事先指定 K 值；對初始位置敏感；只能找「圓形」的群

DBSCAN（密度基礎分群）

K-Means 不擅長找「奇形怪狀」的群，DBSCAN 則用密度來定義群：密集的地方是一群，稀疏的地方是「雜訊點」。

就像在地圖上找城市聚落，人口密集處算一個城市，荒野中的零星住戶算雜訊。

DBSCAN 的優勢：不需要指定群數、可處理任意形狀的群、能識別離群點 (Outlier)。

Apriori 關聯規則分析（購物籃分析）

最著名案例：超市發現「買啤酒的人通常也買尿布 (Beer & Diapers)」，因為年輕爸爸被老婆派去買尿布，順手買了啤酒。超市於是把啤酒和尿布擺在隔壁，銷售大增。

關聯規則的核心指標：

指標	意義	例子
支持度 (Support)	同時買 A 和 B 的交易佔比	1000 筆交易中，100 筆同時有啤酒和尿布 → 10%
信賴度 (Confidence)	買 A 的人中，也買 B 的比例	買啤酒的人中，60% 也買了尿布 → 60%
提升度 (Lift)	規則比隨機好多少倍	Lift > 1 表示有正向關聯

考試重點：K-Means 需預先指定 K 值，DBSCAN 不需要。Apriori 的三個核心指標：支持度、信賴度、提升度。

2.4 12 種核心圖表：什麼情況用什麼圖？

選圖的思考框架：「我要展示什麼關係？我的資料是什麼類型？」

圖表類型	英文名稱	最適用情境	常見誤用
折線圖	Line Chart	時間序列資料、趨勢變化	用在無序類別資料
長條圖	Bar Chart	比較不同類別的數值大小	類別太多時難以閱讀
直方圖	Histogram	單一連續變數的分布形狀	和長條圖混淆（直方圖無間隔）
散佈圖	Scatter Plot	兩個連續變數的相關性	資料點太多時重疊看不清
熱力圖	Heatmap	矩陣資料、相關係數矩陣、混淆矩陣	顏色選擇不當導致誤讀
箱形圖	Box Plot	比較多組資料的分布與離群值	只看中位數，忽略四分位距意義
雷達圖	Radar Chart	單一對象在多個維度的表現	維度超過 8 個時難以閱讀
泡泡圖	Bubble Chart	三個變數同時呈現（x, y, 泡泡大小）	泡泡大小差異太小時失去意義
決策樹圖	Decision Tree	呈現模型決策邏輯	樹太深時版面混亂
網絡圖	Network Graph	關係網絡、社群連結、知識圖譜	節點太多時成「義大利麵」
PCA 散佈圖	PCA Plot	高維資料降維後的群聚分布	忽略解釋各軸代表的意義
混淆矩陣	Confusion Matrix	分類模型的預測正確性	不含準確率標示時難以解讀

直方圖 vs. 長條圖，最常被混淆的一對：

直方圖：X 軸是連續數值（年齡、身高），柱子相連，用來看分布
長條圖：X 軸是類別（城市、品牌），柱子有間隔，用來比較

考試重點：散佈圖用來看相關性；折線圖用來看趨勢；直方圖用來看分布；熱力圖用來看矩陣型資料。這四種圖的使用場景辨別常出現在考題。

2.5 AI 特有視覺化方法：讓黑盒子透明化

傳統統計圖表看的是「資料」，AI 特有視覺化看的是「模型在想什麼」，這個領域叫做可解釋 AI (XAI, Explainable AI)。

特徵重要性圖 (Feature Importance Plot)

就像老師出考卷，告訴你哪些章節佔分最重。特徵重要性圖顯示模型在做預測時，哪些輸入變數影響最大。

樹狀模型（如隨機森林）可直接計算每個特徵對分割的貢獻
通常用水平長條圖呈現，由上到下依重要性排序

SHAP (SHapley Additive exPlanations)

SHAP 來自賽局理論，概念是：每個「球員（特徵）」對最終「比賽結果（預測值）」貢獻了多少？

SHAP 值為正：這個特徵讓預測值「往上推」
SHAP 值為負：這個特徵讓預測值「往下拉」
可解釋每一筆個別預測（而不只是整體），是目前最受推崇的可解釋性方法

LIME (Local Interpretable Model-agnostic Explanations)

LIME 的概念是：就算整個地球是圓的，你站的那一小塊地面是平的。

對於任何一筆預測，LIME 在該資料點附近產生很多「相似的假資料」，用一個簡單的線性模型（平的）來近似複雜模型（圓的）的局部行為。

Model-agnostic：適用於任何模型，不限於特定架構
缺點：不同隨機種子可能產生不一致的解釋

CAM / Grad-CAM（類別激活圖）

應用場景：電腦視覺模型。

想知道「CNN 看一張貓的照片時，到底在看哪裡？」Grad-CAM 用梯度資訊，生成一張熱力圖疊加在原圖上，高亮顯示模型最關注的區域。

輸入圖片 → CNN 模型 → 預測「貓」
   ↓
Grad-CAM 反推梯度
   ↓
生成熱力圖（紅色 = 最受關注）
   ↓
疊加在原圖 → 看到模型在看「貓耳朵和眼睛」

注意力圖 (Attention Map)

用於 Transformer 架構（如 BERT、GPT）。

當翻譯「銀行」這個詞時，模型同時「注意」句子中的哪些其他詞？注意力圖用矩陣熱力圖呈現這些注意力權重。

查詢句：「我去銀行存錢」
Attention Map 可能顯示：
  「銀行」← 強烈關注 →「存錢」（金融機構意思）
  而非「河岸」（地理意思）

訓練歷程圖 (Training History Plot)

就像學生的學習曲線，訓練時間越長，成績是否持續進步？

Loss
  |  訓練損失
  |    \
  |     \___________  ← 理想：持續下降趨於穩定
  |
  |     驗證損失
  |        \____/‾‾‾  ← 過擬合：驗證損失在某點後上升
  +---------------------- Epochs

關鍵觀察：

訓練損失持續下降但驗證損失上升 → 過擬合 (Overfitting)，需要正則化或早停
兩條線都高居不下 → 欠擬合 (Underfitting)，模型太簡單

考試重點：SHAP 基於賽局理論，可解釋個別預測；LIME 是模型無關的局部近似；Grad-CAM 用熱力圖顯示 CNN 的視覺關注區域；注意力圖用於 Transformer 模型。

2.6 常見視覺化工具比較

工具	類型	主要使用者	優點	缺點
matplotlib	Python 函式庫	資料科學家、研究人員	彈性最高、幾乎什麼都能畫	語法較繁瑣，美觀需費心
seaborn	Python 函式庫（基於 matplotlib）	資料科學家	統計圖表美觀、程式碼簡潔	客製化彈性低於 matplotlib
Plotly	Python/JS 函式庫	需要互動式圖表者	互動性強、支援網頁嵌入	檔案體積較大
Tableau	商業 BI 工具	商業分析師、管理者	拖拉操作、美觀、快速	費用高昂、客製化受限
Power BI	商業 BI 工具（微軟）	企業用戶（特別是 Office 生態）	與 Excel/Azure 整合佳	進階功能需付費

選擇邏輯：

探索性資料分析 (EDA) → seaborn 或 matplotlib
互動式 Web 儀表板 → Plotly 或 Tableau
企業定期報表 → Power BI 或 Tableau
AI 模型可解釋性視覺化 → SHAP 套件 + matplotlib

三、關鍵名詞中英對照

中文	英文	說明
描述統計	Descriptive Statistics	描述資料特性，不做推論
推論統計	Inferential Statistics	從樣本推斷母體
平均數	Mean	資料總和除以個數
中位數	Median	排序後的中間值
眾數	Mode	出現最多次的值
標準差	Standard Deviation (SD)	資料偏離平均的平均程度
變異係數	Coefficient of Variation (CV)	標準差÷平均數，相對離散度
偏態	Skewness	分布的不對稱程度
峰態	Kurtosis	分布的尖峰程度
T 檢定	T-test	比較兩組平均數差異
卡方檢定	Chi-Square Test	檢驗類別變數獨立性
皮爾森相關係數	Pearson Correlation Coefficient	量化線性相關強度，-1 到 1
線性迴歸	Linear Regression	用直線預測連續因變數
決定係數	R-squared (R²)	模型解釋變異的比例
統計顯著性	Statistical Significance	結果不太可能由隨機誤差造成
p 值	p-value	在虛無假設下觀察到此結果的機率
K-Means	K-Means Clustering	基於距離的分群演算法
DBSCAN	Density-Based Spatial Clustering	基於密度的分群演算法
關聯規則	Association Rules	挖掘項目間共同出現的規律
支持度	Support	規則涵蓋的交易比例
信賴度	Confidence	規則的條件機率
提升度	Lift	規則優於隨機的倍數
熱力圖	Heatmap	用顏色呈現矩陣資料
箱形圖	Box Plot	呈現五數概括與離群值
可解釋 AI	XAI (Explainable AI)	使 AI 決策可被人理解的技術
特徵重要性	Feature Importance	各特徵對模型預測的貢獻度
SHAP 值	SHAP Values	基於賽局理論的特徵貢獻量化
LIME	Local Interpretable Model-agnostic Explanations	局部近似可解釋方法
梯度加權類別激活圖	Grad-CAM	用梯度生成 CNN 視覺關注熱力圖
注意力圖	Attention Map	Transformer 模型的注意力權重視覺化
過擬合	Overfitting	模型對訓練資料過度擬合，泛化差
欠擬合	Underfitting	模型太簡單，連訓練資料都無法擬合

四、考試重點提示

考試重點：以下是 iPAS AI 證照考試中本章節最常出現的考點，請務必熟記。

平均數 vs. 中位數的選擇：資料有極端值（如薪資、房價）時用中位數；對稱分布無極端值時用平均數。正偏態時：平均數 > 中位數 > 眾數。
相關不等於因果：皮爾森相關係數只能說明線性關係的強度，不能說明因果。冰淇淋和溺水的案例是考試常客。
K-Means vs. DBSCAN：K-Means 需預先指定 K（群數），DBSCAN 不需要且能處理任意形狀的群與離群點。
Apriori 三指標：支持度（出現頻率）、信賴度（條件機率）、提升度（比隨機好多少）。
圖表選擇四大基本型：趨勢用折線圖、比較用長條圖、分布用直方圖/箱形圖、相關用散佈圖。直方圖與長條圖的差別（連續 vs. 類別，柱子相連 vs. 有間隔）也常考。
AI 可解釋性工具配對：

- SHAP → 賽局理論、量化個別特徵貢獻

- LIME → 模型無關、局部線性近似

- Grad-CAM → CNN 影像模型、熱力圖

- Attention Map → Transformer 架構

訓練歷程圖判讀：訓練損失下降但驗證損失上升 = 過擬合；兩者都高 = 欠擬合。

第 1 題：一份全國薪資調查顯示，平均薪資為 68,000 元，中位數薪資為 42,000 元。根據此資訊，這份薪資資料最可能呈現何種分布特性？

A. 負偏態（左偏）分布，少數低薪者拉低了平均數

B. 正偏態（右偏）分布，少數高薪者拉高了平均數

C. 完全對稱的常態分布

D. 雙峰分布（Bimodal Distribution）

第 2 題：研究人員發現「每天喝珍珠奶茶的杯數」與「期末考成績」的皮爾森相關係數 r = -0.65，下列解讀何者最正確？

A. 喝珍珠奶茶「導致」成績變差，應立即禁止

B. 兩者有中度負相關，但不能據此斷定因果關係

C. r = -0.65 代表弱相關，這個關係可以忽略

D. r 為負值代表資料蒐集有誤，應重新調查

第 3 題：電商平台想找出「經常被一起購買的商品組合」以優化推薦系統，最適合使用哪種分析方法？

A. K-Means 分群分析

B. T 檢定

C. Apriori 關聯規則分析

D. 線性迴歸

第 4 題：一位 AI 工程師想了解他的圖像分類模型「做出判斷時到底在看圖片的哪個位置」，應使用哪種視覺化工具？

A. SHAP 值分析

B. Grad-CAM（梯度加權類別激活圖）

C. LIME

D. 皮爾森相關係數矩陣

第 5 題：下列哪組說明正確描述了「直方圖 (Histogram)」與「長條圖 (Bar Chart)」的差異？

A. 直方圖用於類別資料比較，長條圖用於連續資料分布

B. 兩者完全相同，只是名稱不同

C. 直方圖用於呈現連續資料的分布形狀，柱子相連；長條圖用於比較類別資料，柱子之間有間隔

D. 直方圖只能用於時間序列資料，長條圖則無此限制

解答與解析

題號	答案	解析
1	B	平均數（68,000）遠大於中位數（42,000），這是正偏態（右偏）分布的典型特徵。少數高薪者（極端值）將平均數向上拉，但大多數人的薪資其實落在較低的中位數附近。正偏態的規律：平均數 > 中位數 > 眾數。薪資分布是教科書級的正偏態案例。
2	B	r = -0.65 屬於「中度負相關」（	r	在 0.5-0.7 之間通常認為是中度相關）。負號代表當喝奶茶增加時，成績傾向於下降，但「相關不等於因果」，可能是因為愛喝奶茶的學生同時也花更多時間在社交活動，而非奶茶本身影響成績。不能說「導致」，因為沒有控制其他變數。
3	C	Apriori 關聯規則分析（購物籃分析）專門用來挖掘項目之間的共同出現規律，用支持度、信賴度、提升度量化關聯強度。K-Means 是分群（找相似的顧客，不是相似的商品組合）；T 檢定是比較平均數差異；線性迴歸是預測連續數值。
4	B	Grad-CAM（Gradient-weighted Class Activation Mapping）是專為 CNN（卷積神經網路）設計的視覺化工具，透過反推梯度生成熱力圖，高亮顯示模型在做分類時最關注的影像區域。SHAP 和 LIME 適用於特徵數值型資料的解釋；皮爾森相關係數是統計工具，完全不用於模型可解釋性。
5	C	直方圖（Histogram）的 X 軸是連續數值（如年齡 0-10, 10-20, 20-30...），柱子相連代表連續區間；長條圖（Bar Chart）的 X 軸是離散類別（如城市名稱、商品類別），柱子之間有間隔代表類別之間沒有連續關係。兩者最常被混淆，直方圖看分布，長條圖做比較。