一、學習目標
完成本課後,你將能夠:
- 描述資料分析的完整流程,從問題定義到結果詮釋
- 解釋探索式資料分析 (EDA) 的目的與常用技術
- 計算並解釋描述統計的核心指標(平均數、中位數、眾數、標準差)
- 識別相關分析的意義與限制
- 比較常見的資料視覺化工具,並說明其適用場景
- 列舉資料品質的五個維度,並說明對 AI 專案的影響
二、核心內容
2.1 資料分析完整流程
資料分析就像偵探辦案:從一個待解的謎題出發,收集線索(資料),整理線索(清理),仔細研究(EDA),建立推理(模型),最後向委託人報告結論(詮釋)。每個環節都不能省略。
資料分析標準流程
[1] 問題定義
Problem Definition
「我們想解決什麼問題?」
|
v
[2] 資料收集
Data Collection
「從哪裡取得需要的資料?」
|
v
[3] 資料清理
Data Cleaning
「處理缺失值、異常值、格式錯誤」
|
v
[4] 探索式分析
EDA (Exploratory Data Analysis)
「資料長什麼樣?有什麼規律?」
|
v
[5] 建模分析
Modeling & Analysis
「用統計或機器學習方法找答案」
|
v
[6] 結果詮釋
Interpretation & Communication
「把發現轉化為可行動的洞察」
考試重點:資料分析流程的順序是固定的,EDA 在資料清理「之後」、建模「之前」。EDA 的目的是了解資料的基本特性,而不是直接做預測。
2.2 探索式資料分析 (EDA)
EDA (Exploratory Data Analysis,探索式資料分析) 由統計學家 John Tukey 在 1977 年提出,核心精神是「先讓資料說話,再形成假設」。
比喻:EDA 就像第一次拜訪一個新城市。你不是直接去景點打卡,而是先漫步街道、觀察地形、感受氛圍,才能規劃出最適合自己的行程。
EDA 主要包含三大技術方向:
- 描述統計 (Descriptive Statistics):用數字摘要資料的基本特性
- 分布分析 (Distribution Analysis):了解資料的形狀與分散程度
- 相關分析 (Correlation Analysis):探索變數之間的關聯性
2.3 描述統計核心指標
集中趨勢 (Central Tendency)
| 指標 | 英文 | 計算方式 | 適用情境 | 生活比喻 |
|---|---|---|---|---|
| 平均數 | Mean | 所有值加總 ÷ 資料筆數 | 資料分布對稱、無極端值 | 全班考試的「平均分數」 |
| 中位數 | Median | 排序後位於正中間的值 | 有極端值時(如薪資) | 全班身高排隊後站中間的那個人 |
| 眾數 | Mode | 出現最多次的值 | 類別型資料、找最常見項目 | 班上最多人選的社團 |
考試重點:當資料中有「極端值 (Outlier)」時,中位數比平均數更能代表「典型」的情況。例如:一個班 9 個人月薪 3 萬,1 個人月薪 300 萬,平均月薪會虛高到 32.7 萬,但中位數仍為 3 萬,更接近真實狀況。
離散程度 (Dispersion)
| 指標 | 英文 | 說明 | 記憶技巧 |
|---|---|---|---|
| 變異數 | Variance | 每個值與平均數差距的平方平均 | 衡量「資料有多分散」 |
| 標準差 | Standard Deviation (Std) | 變異數的平方根,單位與原資料相同 | 越大代表資料越「亂」 |
| 全距 | Range | 最大值 − 最小值 | 最簡單的離散程度指標 |
| 四分位距 | IQR (Interquartile Range) | Q3 − Q1(中間 50% 的範圍) | 不受極端值影響的離散指標 |
比喻:標準差就像班級的「整齊度指標」。標準差小 = 大家分數都差不多(整齊劃一);標準差大 = 分數從 20 分到 100 分都有(參差不齊)。
2.4 分布分析
了解資料的分布形狀,才能選對統計方法和機器學習演算法。
常見分布形狀
分布形狀示意
正態分布 (Normal Distribution)
,像山丘,左右對稱
*
***
*****
*******
*********
─────────────
平均=中位數=眾數
右偏分布 (Right Skewed)
大多數值偏左,少數極大值拉長右尾
(如薪資分布、房價)
**
****
******
*********─────
─────────────────
左偏分布 (Left Skewed)
大多數值偏右,少數極小值拉長左尾
偏度 (Skewness):衡量分布的對稱性。正偏(右偏)= 右尾較長;負偏(左偏)= 左尾較長。 峰度 (Kurtosis):衡量分布的「尖峭程度」,即極端值出現的頻率。
2.5 相關分析
相關分析探索兩個變數之間是否存在線性關聯。
皮爾森相關係數 (Pearson Correlation Coefficient, r):
- 值域:-1 到 +1
- r = +1:完全正相關(一個增加,另一個也增加)
- r = 0:無線性相關
- r = -1:完全負相關(一個增加,另一個減少)
| r 的範圍 | 相關強度 |
|---|---|
| 0.8 ~ 1.0 | 強正相關 |
| 0.5 ~ 0.8 | 中等正相關 |
| 0.2 ~ 0.5 | 弱正相關 |
| -0.2 ~ 0.2 | 無明顯相關 |
| -0.5 ~ -0.2 | 弱負相關 |
| -1.0 ~ -0.5 | 中等至強負相關 |
考試重點:「相關不等於因果 (Correlation does not imply causation)」 是統計學的金科玉律。例如:冰淇淋銷量和溺水人數有正相關,但吃冰淇淋不會導致溺水,兩者都受「夏天」這個隱藏因素影響。
相關矩陣熱圖 (Correlation Heatmap):當變數很多時,用顏色深淺同時呈現所有變數對之間的相關係數,是 EDA 的常用視覺化工具。
2.6 資料視覺化工具
資料視覺化就像把複雜的食譜翻譯成圖文食譜——同樣的資訊,圖像讓人更快理解。
程式語言工具
| 工具 | 語言 | 特點 | 適用場景 |
|---|---|---|---|
| Matplotlib | Python | 最基礎的繪圖庫,高度客製化 | 靜態圖表、學術論文 |
| Seaborn | Python | 基於 Matplotlib,預設樣式美觀 | 統計圖表、EDA 快速探索 |
| Plotly | Python/R/JS | 互動式圖表,支援縮放、點選 | 互動式報告、Dashboard |
| ggplot2 | R | 以「圖形語法」為基礎,邏輯清晰 | R 語言的資料分析 |
商業 BI 工具
| 工具 | 開發商 | 特點 | 適用場景 |
|---|---|---|---|
| Tableau | Salesforce | 拖拉介面,視覺化效果專業 | 商業報表、非技術用戶 |
| Power BI | Microsoft | 與 Office 365 深度整合 | 企業環境、Excel 使用者 |
| Looker | 雲端原生,適合大數據 | GCP 生態、工程師導向 |
考試重點:Matplotlib 是 Python 生態中最底層的繪圖庫,Seaborn 建立在它之上。Plotly 的最大優勢是「互動性 (Interactivity)」。Tableau 和 Power BI 是商業 BI 工具,不需要寫程式碼。
2.7 常見分析方法
資料準備好之後,可以套用不同的分析方法,取決於問題的性質:
-
迴歸分析 (Regression):預測連續數值的結果。 比喻:根據房子的坪數、樓層、地段,預測「賣多少錢」。 範例演算法:線性迴歸 (Linear Regression)、隨機森林迴歸
-
分類分析 (Classification):預測樣本屬於哪個類別。 比喻:根據信用記錄,預測貸款申請者「會不會違約」(是/否)。 範例演算法:邏輯迴歸 (Logistic Regression)、決策樹、SVM
-
分群分析 (Clustering):在沒有標籤的情況下,找出資料中的自然分群。 比喻:把顧客依照消費行為自動分成幾個族群,再針對每群做行銷。 範例演算法:K-means、DBSCAN、階層式分群
-
時間序列分析 (Time Series Analysis):分析隨時間變化的資料,找出趨勢、季節性規律。 比喻:根據過去三年的月銷售額,預測下個月的業績。 範例演算法:ARIMA、Prophet、LSTM
考試重點:分類 (Classification) 預測的是「類別」(離散輸出);迴歸 (Regression) 預測的是「數值」(連續輸出)。這個區別常在選擇題中出現。
2.8 資料品質五大維度
資料品質不好,分析結果就不可信。就像用劣質食材,再高明的廚師也做不出好料理。
| 維度 | 英文 | 說明 | 檢測方式 |
|---|---|---|---|
| 正確性 | Accuracy | 資料值是否符合真實情況 | 與原始資料來源交叉驗證 |
| 完整性 | Completeness | 資料是否有缺失值、空白欄位 | 計算缺失率 (Missing Rate) |
| 一致性 | Consistency | 同一資料在不同來源是否相符 | 跨資料表比對,檢查邏輯矛盾 |
| 及時性 | Timeliness | 資料是否反映最新狀態 | 檢查資料更新頻率和時間戳記 |
| 有效性 | Validity | 資料是否符合規定格式和值域範圍 | 檢查資料型別、範圍約束、格式規則 |
考試重點:五大資料品質維度的英文要記住:Accuracy、Completeness、Consistency、Timeliness、Validity。其中「一致性 (Consistency)」指的是跨來源資料的矛盾問題,不是指資料本身「準不準」(那是正確性)。
2.9 AI 專案的資料分析實戰技巧
-
先做單變數 EDA,再做多變數分析:先了解每個特徵自己的分布,再看特徵之間的關係。
-
目標變數優先分析:AI 專案中,最先要了解的是你想預測的那個欄位(目標變數)的分布。如果目標變數嚴重不平衡,後續訓練會有大問題。
-
記錄每一步的發現:EDA 是探索過程,要隨時記下「這個異常是什麼?」「這個相關性意味著什麼?」,這些洞察對後續建模至關重要。
-
不要在資料清理前就做 EDA:應先處理明顯的格式錯誤,否則 EDA 的結果會被雜訊干擾。但也不要過早清理,因為 EDA 本身可以幫你發現需要清理的問題。
-
視覺化不是裝飾,是溝通工具:選擇圖表類型時以「對方能不能一眼看懂」為標準,而非「這張圖夠不夠炫」。
三、關鍵名詞中英對照
| 中文 | 英文 | 補充說明 |
|---|---|---|
| 探索式資料分析 | EDA (Exploratory Data Analysis) | John Tukey 1977 年提出 |
| 描述統計 | Descriptive Statistics | 用數字摘要資料特性 |
| 平均數 | Mean | 受極端值影響大 |
| 中位數 | Median | 受極端值影響小 |
| 眾數 | Mode | 出現最多次的值 |
| 標準差 | Standard Deviation (Std) | 衡量資料分散程度 |
| 四分位距 | IQR (Interquartile Range) | Q3 − Q1 |
| 偏度 | Skewness | 衡量分布對稱性 |
| 峰度 | Kurtosis | 衡量分布尖峭程度 |
| 皮爾森相關係數 | Pearson Correlation Coefficient | 衡量線性相關,值域 -1 到 +1 |
| 相關矩陣熱圖 | Correlation Heatmap | 多變數相關性的視覺化 |
| 迴歸分析 | Regression | 預測連續數值 |
| 分類分析 | Classification | 預測類別標籤 |
| 分群分析 | Clustering | 無監督的分組方法 |
| 時間序列分析 | Time Series Analysis | 分析隨時間變化的資料 |
| 正確性 | Accuracy | 資料品質維度之一 |
| 完整性 | Completeness | 資料品質維度之一 |
| 一致性 | Consistency | 資料品質維度之一 |
| 及時性 | Timeliness | 資料品質維度之一 |
| 有效性 | Validity | 資料品質維度之一 |
四、考試重點提示
考試重點:EDA 在資料分析流程中的位置是「資料清理之後、建模之前」。它的目的是「了解資料」,不是直接做預測。
考試重點:有極端值時,用中位數而非平均數代表集中趨勢。薪資、房價等現實資料通常呈右偏分布,中位數更有代表性。
考試重點:「相關不等於因果」是統計分析的核心限制。兩個變數有相關,可能是因為存在共同的「混淆變數 (Confounding Variable)」。
考試重點:分類 (Classification) = 預測類別(離散);迴歸 (Regression) = 預測數值(連續)。注意「邏輯迴歸 (Logistic Regression)」雖然名字有「迴歸」,但它實際上是做分類任務。
考試重點:五大資料品質維度英文縮寫可以用 ACTV + Timeliness 記憶:Accuracy、Completeness、Timeliness、Validity、(Consistency)。
1. 在資料分析的標準流程中,「探索式資料分析 (EDA)」應該在哪個步驟之後進行?
A. 問題定義之後,資料收集之前 B. 資料收集之後,資料清理之前 C. 資料清理之後,建模分析之前 D. 建模分析之後,結果詮釋之前
2. 某公司統計 100 位員工的月薪,其中 99 人月薪為 3 萬元,1 位執行長月薪為 300 萬元。下列哪個指標最能代表「一般員工的典型薪資」?
A. 平均數 (Mean) B. 中位數 (Median) C. 標準差 (Standard Deviation) D. 變異數 (Variance)
3. 研究發現「每天喝珍奶的次數」和「月薪」之間的皮爾森相關係數 r = 0.02。這個結果代表什麼?
A. 喝越多珍奶,月薪越高,應該多喝 B. 兩者之間幾乎沒有線性相關 C. 喝越多珍奶,月薪越低,因為是負相關 D. 樣本數不夠,無法計算相關係數
4. 以下哪一種分析方法,最適合用來解決「根據用戶的瀏覽行為,將用戶自動分成幾個族群」的問題?
A. 迴歸分析 (Regression) B. 分類分析 (Classification) C. 分群分析 (Clustering) D. 時間序列分析 (Time Series Analysis)
5. 資料品質的「一致性 (Consistency)」指的是什麼?
A. 資料值是否符合真實情況 B. 資料是否有缺失值或空白 C. 同一資料在不同來源或系統中是否相符、不矛盾 D. 資料是否反映最新狀態
解答與解析
| 題號 | 答案 | 解析 |
|---|---|---|
| 1 | C | EDA 的標準位置是資料清理「之後」、建模「之前」。先清理資料確保基本品質,再用 EDA 深入了解資料特性,為建模做準備。這個順序在考試中常以排序題形式出現。 |
| 2 | B | 執行長 300 萬的月薪是極端值,會大幅拉高平均數(計算結果約 32 萬,完全不代表真實狀況)。中位數不受極端值影響,排序後取中間值仍為 3 萬,才是「典型薪資」的正確呈現。 |
| 3 | B | r = 0.02 非常接近 0,代表兩個變數之間幾乎沒有線性相關。即使有相關,也不能推斷因果關係。選項 A 犯了「相關即因果」的錯誤,是統計思維的常見誤區。 |
| 4 | C | 題目中「自動分群」且「沒有預先定義的標籤」,這正是分群分析 (Clustering) 的應用場景,屬於非監督式學習。分類分析需要事先有標籤;迴歸預測數值;時間序列分析處理時間相關資料。 |
| 5 | C | 一致性 (Consistency) 定義為「同一資料在不同來源或系統中不相互矛盾」,例如同一個客戶在 CRM 系統中的生日是 1990/1/1,但在訂單系統中卻是 1980/1/1。選項 A 是正確性、B 是完整性、D 是及時性。 |