ANGELA JIAN
LOADING
回到課程總覽
第 9 篇 L11202 資料處理與分析

統計分析與資料視覺化:讓數據說話的方法

Angela Jian
Angela Jian 簡琬庭
iPAS AI 應用規劃師 / AI Product Builder

一、學習目標

讀完本文,你將能夠:

  1. 區分描述統計 (Descriptive Statistics)、推論統計 (Inferential Statistics)、分群與關聯分析的用途與適用時機
  2. 說明平均數、中位數、標準差、偏態等核心統計量的意義
  3. 根據資料類型和分析目的,選擇正確的視覺化圖表
  4. 解釋 SHAP、LIME、Grad-CAM 等 AI 特有可解釋性視覺化工具的原理
  5. 辨別 matplotlib、Tableau、Power BI 等常見視覺化工具的適用場景

二、核心內容

2.1 描述統計:替資料做「健康檢查」

描述統計 (Descriptive Statistics) 就像幫資料做健康檢查——告訴你這批資料「長什麼樣子」,但不做任何推論或預測。

集中趨勢 (Central Tendency):資料的「重心」在哪?

統計量算法優點缺點適用情境
平均數 (Mean)總和 ÷ 個數利用所有資料對極端值敏感對稱分布、無極端值
中位數 (Median)排序後的中間值不受極端值影響忽略部分資訊薪資、房價等偏態資料
眾數 (Mode)出現最多次的值適合類別資料可能有多個或沒有選舉投票、最熱銷商品

生活比喻:班上同學薪資調查,若馬斯克也在班上,平均薪資會高得離譜,但中位數才能反映「大多數人」的真實狀況。這就是為什麼談薪資水準時,通常用中位數。

離散程度 (Dispersion):資料「分散還是集中」?

就像兩個班級的平均分數都是 70 分,但一個班每個人都在 65-75 之間,另一個班從 10 分到 100 分都有——平均相同,差異極大。

統計量說明公式概念特點
標準差 (Standard Deviation, SD)資料與平均數的平均距離√(各點偏差的平方平均)最常用,與原始資料同單位
變異係數 (CV, Coefficient of Variation)標準差 ÷ 平均數 × 100%相對離散程度可比較不同單位的資料分散度
全距 (Range)最大值 - 最小值最簡單極易受極端值影響
四分位距 (IQR)Q3 - Q1中間 50% 的範圍對極端值穩健,箱形圖的基礎

分布形狀:偏態與峰態

想像把資料畫成直方圖後的「山形」:

  • 偏態 (Skewness):山頭偏左還是偏右?

    • 正偏態 (Right Skewed):尾巴往右拖,如薪資分布——大多數人薪資不高,少數富豪拉高了右尾
    • 負偏態 (Left Skewed):尾巴往左拖,如考試成績(滿分時)——大多數人拿高分,少數人拉低了左尾
    • 正偏態時:平均數 > 中位數 > 眾數
  • 峰態 (Kurtosis):山頭是尖的還是平的?

    • 高峰態 (Leptokurtic):分布集中,中間高聳,尾部有極端值
    • 低峰態 (Platykurtic):分布平坦,資料較分散
    • 常態分布的峰態值定義為 0(或 3,視計算方式而定)

考試重點:正偏態(右偏)時,平均數 > 中位數 > 眾數。薪資、房價是典型正偏態資料。


2.2 推論統計:從樣本推論母體

推論統計 (Inferential Statistics) 就像「品酒師嚐一口就能判斷整桶酒的品質」——從有限的樣本 (Sample) 推斷整體母體 (Population) 的特性,並量化這個推斷有多可靠。

T 檢定 (T-test):比較兩組平均數有無顯著差異

情境:新藥組和安慰劑組,治療效果的平均分數有差嗎?還是只是抽樣誤差?

  • 獨立樣本 T 檢定:比較兩個不同群體(男生 vs. 女生的平均成績)
  • 配對樣本 T 檢定:比較同一群人的前後差異(服藥前 vs. 服藥後)
  • p 值 (p-value):若 p < 0.05,代表在 95% 信心水準下,差異具有統計顯著性 (Statistical Significance)

生活比喻:拋硬幣 10 次出現 7 次正面,這是偏的硬幣還是正常機率波動?T 檢定就是幫你回答「這個差異是真實的還是運氣」的問題。

卡方檢定 (Chi-Square Test):檢驗類別變數的獨立性

情境:「性別」和「購買某商品的決定」有關係嗎?還是獨立無關?

卡方檢定比較「實際觀測次數」和「若兩變數完全獨立時的預期次數」之間的差距。差距越大,越可能有關聯。

皮爾森相關係數 (Pearson Correlation Coefficient, r)

情境:冰淇淋銷售量和溺水死亡人數有相關嗎?(答案:有,但不是因果關係,是因為都跟夏天有關!)

  • r 值範圍:-1 到 +1
  • r = +1:完全正相關(一個增加,另一個也增加)
  • r = 0:無線性相關
  • r = -1:完全負相關(一個增加,另一個減少)
  • |r| > 0.7:強相關;0.3 < |r| < 0.7:中度相關;|r| < 0.3:弱相關

考試重點:「相關不等於因果 (Correlation ≠ Causation)」是統計學最重要的觀念之一。冰淇淋和溺水的例子常出現在考題中。

線性迴歸 (Linear Regression)

情境:根據房子的坪數,預測售價。

線性迴歸找一條「最佳擬合直線 y = β₀ + β₁x」,使所有資料點到直線的距離總和最小(最小平方法)。

  • 簡單線性迴歸:一個自變數預測一個因變數
  • 多元線性迴歸:多個自變數預測一個因變數
  • R²(決定係數):模型能解釋多少比例的變異,R² = 0.85 代表模型解釋了 85% 的變異

2.3 分群與關聯分析

K-Means 分群

想像把散落在地板上的糖果,按顏色分成幾堆——K-Means 就是讓電腦自動做這件事。

演算法流程

1. 隨機放置 K 個「群心 (Centroid)」
2. 每個資料點歸入最近的群心
3. 重新計算每群的群心(取平均位置)
4. 重複步驟 2-3,直到群心不再移動
  • 優點:簡單、快速、好理解
  • 缺點:需要事先指定 K 值;對初始位置敏感;只能找「圓形」的群

DBSCAN(密度基礎分群)

K-Means 不擅長找「奇形怪狀」的群,DBSCAN 則用密度來定義群:密集的地方是一群,稀疏的地方是「雜訊點」。

就像在地圖上找城市聚落——人口密集處算一個城市,荒野中的零星住戶算雜訊。

DBSCAN 的優勢:不需要指定群數、可處理任意形狀的群、能識別離群點 (Outlier)。

Apriori 關聯規則分析(購物籃分析)

最著名案例:超市發現「買啤酒的人通常也買尿布 (Beer & Diapers)」——因為年輕爸爸被老婆派去買尿布,順手買了啤酒。超市於是把啤酒和尿布擺在隔壁,銷售大增。

關聯規則的核心指標:

指標意義例子
支持度 (Support)同時買 A 和 B 的交易佔比1000 筆交易中,100 筆同時有啤酒和尿布 → 10%
信賴度 (Confidence)買 A 的人中,也買 B 的比例買啤酒的人中,60% 也買了尿布 → 60%
提升度 (Lift)規則比隨機好多少倍Lift > 1 表示有正向關聯

考試重點:K-Means 需預先指定 K 值,DBSCAN 不需要。Apriori 的三個核心指標:支持度、信賴度、提升度。


2.4 12 種核心圖表:什麼情況用什麼圖?

選圖的思考框架:「我要展示什麼關係?我的資料是什麼類型?」

資料關係類型
├── 趨勢 / 時序 → 折線圖
├── 比較 (類別間) → 長條圖
├── 分布 (單變數) → 直方圖 / 箱形圖
├── 相關 (兩連續變數) → 散佈圖
├── 比例 / 組成 → 圓餅圖 (慎用)
├── 矩陣相關 → 熱力圖
└── 多維比較 → 雷達圖 / 泡泡圖
圖表類型英文名稱最適用情境常見誤用
折線圖Line Chart時間序列資料、趨勢變化用在無序類別資料
長條圖Bar Chart比較不同類別的數值大小類別太多時難以閱讀
直方圖Histogram單一連續變數的分布形狀和長條圖混淆(直方圖無間隔)
散佈圖Scatter Plot兩個連續變數的相關性資料點太多時重疊看不清
熱力圖Heatmap矩陣資料、相關係數矩陣、混淆矩陣顏色選擇不當導致誤讀
箱形圖Box Plot比較多組資料的分布與離群值只看中位數,忽略四分位距意義
雷達圖Radar Chart單一對象在多個維度的表現維度超過 8 個時難以閱讀
泡泡圖Bubble Chart三個變數同時呈現(x, y, 泡泡大小)泡泡大小差異太小時失去意義
決策樹圖Decision Tree呈現模型決策邏輯樹太深時版面混亂
網絡圖Network Graph關係網絡、社群連結、知識圖譜節點太多時成「義大利麵」
PCA 散佈圖PCA Plot高維資料降維後的群聚分布忽略解釋各軸代表的意義
混淆矩陣Confusion Matrix分類模型的預測正確性不含準確率標示時難以解讀

直方圖 vs. 長條圖——最常被混淆的一對:

  • 直方圖:X 軸是連續數值(年齡、身高),柱子相連,用來看分布
  • 長條圖:X 軸是類別(城市、品牌),柱子有間隔,用來比較

考試重點:散佈圖用來看相關性;折線圖用來看趨勢;直方圖用來看分布;熱力圖用來看矩陣型資料。這四種圖的使用場景辨別常出現在考題。


2.5 AI 特有視覺化方法:讓黑盒子透明化

傳統統計圖表看的是「資料」,AI 特有視覺化看的是「模型在想什麼」——這個領域叫做可解釋 AI (XAI, Explainable AI)。

特徵重要性圖 (Feature Importance Plot)

就像老師出考卷,告訴你哪些章節佔分最重。特徵重要性圖顯示模型在做預測時,哪些輸入變數影響最大。

  • 樹狀模型(如隨機森林)可直接計算每個特徵對分割的貢獻
  • 通常用水平長條圖呈現,由上到下依重要性排序

SHAP (SHapley Additive exPlanations)

SHAP 來自賽局理論,概念是:每個「球員(特徵)」對最終「比賽結果(預測值)」貢獻了多少?

  • SHAP 值為正:這個特徵讓預測值「往上推」
  • SHAP 值為負:這個特徵讓預測值「往下拉」
  • 可解釋每一筆個別預測(而不只是整體),是目前最受推崇的可解釋性方法

LIME (Local Interpretable Model-agnostic Explanations)

LIME 的概念是:就算整個地球是圓的,你站的那一小塊地面是平的。

對於任何一筆預測,LIME 在該資料點附近產生很多「相似的假資料」,用一個簡單的線性模型(平的)來近似複雜模型(圓的)的局部行為。

  • Model-agnostic:適用於任何模型,不限於特定架構
  • 缺點:不同隨機種子可能產生不一致的解釋

CAM / Grad-CAM(類別激活圖)

應用場景:電腦視覺模型。

想知道「CNN 看一張貓的照片時,到底在看哪裡?」Grad-CAM 用梯度資訊,生成一張熱力圖疊加在原圖上,高亮顯示模型最關注的區域。

輸入圖片 → CNN 模型 → 預測「貓」

Grad-CAM 反推梯度

生成熱力圖(紅色 = 最受關注)

疊加在原圖 → 看到模型在看「貓耳朵和眼睛」

注意力圖 (Attention Map)

用於 Transformer 架構(如 BERT、GPT)。

當翻譯「銀行」這個詞時,模型同時「注意」句子中的哪些其他詞?注意力圖用矩陣熱力圖呈現這些注意力權重。

查詢句:「我去銀行存錢」
Attention Map 可能顯示:
  「銀行」← 強烈關注 →「存錢」(金融機構意思)
  而非「河岸」(地理意思)

訓練歷程圖 (Training History Plot)

就像學生的學習曲線——訓練時間越長,成績是否持續進步?

Loss
  |  訓練損失
  |    \
  |     \___________  ← 理想:持續下降趨於穩定
  |
  |     驗證損失
  |        \____/‾‾‾  ← 過擬合:驗證損失在某點後上升
  +---------------------- Epochs

關鍵觀察:

  • 訓練損失持續下降但驗證損失上升 → 過擬合 (Overfitting),需要正則化或早停
  • 兩條線都高居不下 → 欠擬合 (Underfitting),模型太簡單

考試重點:SHAP 基於賽局理論,可解釋個別預測;LIME 是模型無關的局部近似;Grad-CAM 用熱力圖顯示 CNN 的視覺關注區域;注意力圖用於 Transformer 模型。


2.6 常見視覺化工具比較

工具類型主要使用者優點缺點
matplotlibPython 函式庫資料科學家、研究人員彈性最高、幾乎什麼都能畫語法較繁瑣,美觀需費心
seabornPython 函式庫(基於 matplotlib)資料科學家統計圖表美觀、程式碼簡潔客製化彈性低於 matplotlib
PlotlyPython/JS 函式庫需要互動式圖表者互動性強、支援網頁嵌入檔案體積較大
Tableau商業 BI 工具商業分析師、管理者拖拉操作、美觀、快速費用高昂、客製化受限
Power BI商業 BI 工具(微軟)企業用戶(特別是 Office 生態)與 Excel/Azure 整合佳進階功能需付費

選擇邏輯

  • 探索性資料分析 (EDA) → seabornmatplotlib
  • 互動式 Web 儀表板 → PlotlyTableau
  • 企業定期報表 → Power BITableau
  • AI 模型可解釋性視覺化 → SHAP 套件 + matplotlib

三、關鍵名詞中英對照

中文英文說明
描述統計Descriptive Statistics描述資料特性,不做推論
推論統計Inferential Statistics從樣本推斷母體
平均數Mean資料總和除以個數
中位數Median排序後的中間值
眾數Mode出現最多次的值
標準差Standard Deviation (SD)資料偏離平均的平均程度
變異係數Coefficient of Variation (CV)標準差÷平均數,相對離散度
偏態Skewness分布的不對稱程度
峰態Kurtosis分布的尖峰程度
T 檢定T-test比較兩組平均數差異
卡方檢定Chi-Square Test檢驗類別變數獨立性
皮爾森相關係數Pearson Correlation Coefficient量化線性相關強度,-1 到 1
線性迴歸Linear Regression用直線預測連續因變數
決定係數R-squared (R²)模型解釋變異的比例
統計顯著性Statistical Significance結果不太可能由隨機誤差造成
p 值p-value在虛無假設下觀察到此結果的機率
K-MeansK-Means Clustering基於距離的分群演算法
DBSCANDensity-Based Spatial Clustering基於密度的分群演算法
關聯規則Association Rules挖掘項目間共同出現的規律
支持度Support規則涵蓋的交易比例
信賴度Confidence規則的條件機率
提升度Lift規則優於隨機的倍數
熱力圖Heatmap用顏色呈現矩陣資料
箱形圖Box Plot呈現五數概括與離群值
可解釋 AIXAI (Explainable AI)使 AI 決策可被人理解的技術
特徵重要性Feature Importance各特徵對模型預測的貢獻度
SHAP 值SHAP Values基於賽局理論的特徵貢獻量化
LIMELocal Interpretable Model-agnostic Explanations局部近似可解釋方法
梯度加權類別激活圖Grad-CAM用梯度生成 CNN 視覺關注熱力圖
注意力圖Attention MapTransformer 模型的注意力權重視覺化
過擬合Overfitting模型對訓練資料過度擬合,泛化差
欠擬合Underfitting模型太簡單,連訓練資料都無法擬合

四、考試重點提示

考試重點:以下是 iPAS AI 證照考試中本章節最常出現的考點,請務必熟記。

  1. 平均數 vs. 中位數的選擇:資料有極端值(如薪資、房價)時用中位數;對稱分布無極端值時用平均數。正偏態時:平均數 > 中位數 > 眾數。

  2. 相關不等於因果:皮爾森相關係數只能說明線性關係的強度,不能說明因果。冰淇淋和溺水的案例是考試常客。

  3. K-Means vs. DBSCAN:K-Means 需預先指定 K(群數),DBSCAN 不需要且能處理任意形狀的群與離群點。

  4. Apriori 三指標:支持度(出現頻率)、信賴度(條件機率)、提升度(比隨機好多少)。

  5. 圖表選擇四大基本型:趨勢用折線圖、比較用長條圖、分布用直方圖/箱形圖、相關用散佈圖。直方圖與長條圖的差別(連續 vs. 類別,柱子相連 vs. 有間隔)也常考。

  6. AI 可解釋性工具配對

    • SHAP → 賽局理論、量化個別特徵貢獻
    • LIME → 模型無關、局部線性近似
    • Grad-CAM → CNN 影像模型、熱力圖
    • Attention Map → Transformer 架構
  7. 訓練歷程圖判讀:訓練損失下降但驗證損失上升 = 過擬合;兩者都高 = 欠擬合。


隨堂小測驗

第 1 題:一份全國薪資調查顯示,平均薪資為 68,000 元,中位數薪資為 42,000 元。根據此資訊,這份薪資資料最可能呈現何種分布特性?

A. 負偏態(左偏)分布,少數低薪者拉低了平均數 B. 正偏態(右偏)分布,少數高薪者拉高了平均數 C. 完全對稱的常態分布 D. 雙峰分布(Bimodal Distribution)


第 2 題:研究人員發現「每天喝珍珠奶茶的杯數」與「期末考成績」的皮爾森相關係數 r = -0.65,下列解讀何者最正確?

A. 喝珍珠奶茶「導致」成績變差,應立即禁止 B. 兩者有中度負相關,但不能據此斷定因果關係 C. r = -0.65 代表弱相關,這個關係可以忽略 D. r 為負值代表資料蒐集有誤,應重新調查


第 3 題:電商平台想找出「經常被一起購買的商品組合」以優化推薦系統,最適合使用哪種分析方法?

A. K-Means 分群分析 B. T 檢定 C. Apriori 關聯規則分析 D. 線性迴歸


第 4 題:一位 AI 工程師想了解他的圖像分類模型「做出判斷時到底在看圖片的哪個位置」,應使用哪種視覺化工具?

A. SHAP 值分析 B. Grad-CAM(梯度加權類別激活圖) C. LIME D. 皮爾森相關係數矩陣


第 5 題:下列哪組說明正確描述了「直方圖 (Histogram)」與「長條圖 (Bar Chart)」的差異?

A. 直方圖用於類別資料比較,長條圖用於連續資料分布 B. 兩者完全相同,只是名稱不同 C. 直方圖用於呈現連續資料的分布形狀,柱子相連;長條圖用於比較類別資料,柱子之間有間隔 D. 直方圖只能用於時間序列資料,長條圖則無此限制


解答與解析

題號答案解析
1B平均數(68,000)遠大於中位數(42,000),這是正偏態(右偏)分布的典型特徵。少數高薪者(極端值)將平均數向上拉,但大多數人的薪資其實落在較低的中位數附近。正偏態的規律:平均數 > 中位數 > 眾數。薪資分布是教科書級的正偏態案例。
2Br = -0.65 屬於「中度負相關」(
3CApriori 關聯規則分析(購物籃分析)專門用來挖掘項目之間的共同出現規律,用支持度、信賴度、提升度量化關聯強度。K-Means 是分群(找相似的顧客,不是相似的商品組合);T 檢定是比較平均數差異;線性迴歸是預測連續數值。
4BGrad-CAM(Gradient-weighted Class Activation Mapping)是專為 CNN(卷積神經網路)設計的視覺化工具,透過反推梯度生成熱力圖,高亮顯示模型在做分類時最關注的影像區域。SHAP 和 LIME 適用於特徵數值型資料的解釋;皮爾森相關係數是統計工具,完全不用於模型可解釋性。
5C直方圖(Histogram)的 X 軸是連續數值(如年齡 0-10, 10-20, 20-30…),柱子相連代表連續區間;長條圖(Bar Chart)的 X 軸是離散類別(如城市名稱、商品類別),柱子之間有間隔代表類別之間沒有連續關係。兩者最常被混淆,直方圖看分布,長條圖做比較。