一、學習目標
完成本單元後,你將能夠:
- 說明資料品質為何決定 AI 模型的成敗
- 描述資料品質的五大維度並舉例說明衡量方法
- 定義 Data Governance(資料治理)及其組成框架
- 解釋資料目錄、資料血緣、主資料管理的用途
- 列舉主流資料品質工具與其適用場景
- 說明 GDPR 與台灣個資法對資料治理的具體要求
- 描述在組織中建立資料治理框架的實務步驟
二、核心內容
2-1 Garbage In, Garbage Out:資料為何決定 AI 成敗?
生活比喻:AI 模型就像一位廚師,再頂尖的廚藝也救不了劣質食材。你給它爛資料,它就端出爛菜餚。
AI 專案中有一個殘酷的現實:70% 的時間花在資料清理與準備,真正訓練模型的時間反而不到 30%。這個統計數字揭示了資料工作的核心重要性。
為什麼劣質資料會摧毀 AI 模型?
1. 偏誤傳遞(Bias Propagation) 若訓練資料本身有系統性偏誤(例如歷史上某族群的貸款申請被不公平地拒絕),模型會學到並放大這個偏誤,導致歧視性決策。
2. 噪音誤導(Noise Misdirection) 資料中的錯誤紀錄(如量測錯誤、手動輸入失誤)會讓模型學到錯誤的特徵與標籤關聯,降低預測準確度。
3. 分布偏移(Distribution Shift) 若訓練資料無法代表真實世界的分布(如只有特定季節的資料),模型在實際部署後效能會大幅下滑。
4. 缺失值問題(Missing Data) 未妥善處理的缺失值會導致特徵工程失效,或讓模型在推論時遇到未曾見過的情境而出錯。
真實案例:Amazon 的 AI 招募工具因為訓練資料以男性履歷為主,學會了系統性地降低女性應徵者的評分,最終被迫廢棄。這正是「垃圾進、垃圾出」的真實代價。
2-2 資料品質五大維度
生活比喻:評估資料品質就像驗貨——你要確認貨物(準確)、數量齊全(完整)、規格一致(一致)、在保鮮期內(即時)、符合標準(有效)。
資料品質可以從五個核心維度衡量,每個維度都有對應的測量方法:
| 維度 | 英文 | 定義 | 衡量方法 | 不良範例 |
|---|---|---|---|---|
| 準確性 | Accuracy | 資料是否正確反映現實 | 與黃金標準(Ground Truth)比對的誤差率 | 客戶電話號碼錯誤、感測器讀數漂移 |
| 完整性 | Completeness | 資料是否有缺失 | 缺失值比例(Null Rate) | 10% 的年齡欄位為空白 |
| 一致性 | Consistency | 不同資料源的相同資料是否矛盾 | 跨系統比對的衝突率 | A 系統顯示客戶住台北,B 系統顯示高雄 |
| 即時性 | Timeliness | 資料是否反映最新狀態 | 資料更新延遲時間 | 庫存系統 3 天後才更新實際出貨紀錄 |
| 有效性 | Validity | 資料是否符合定義的格式與範圍 | 格式/範圍規則的違反率 | 年齡欄位出現「-5」或「200」 |
衡量指標範例
完整性指標 = (非空值筆數 / 總筆數) × 100%
有效性指標 = (符合格式規則的筆數 / 總筆數) × 100%
一致性指標 = (跨系統一致的筆數 / 抽樣比對總筆數) × 100%
考試重點:五大維度英文名稱需背熟:Accuracy、Completeness、Consistency、Timeliness、Validity。常見考法是給定情境,要求判斷違反了哪個維度。
2-3 Data Governance 的定義與必要性
生活比喻:資料治理就像城市的交通法規——沒有法規,每個人各開各的,看似自由,實則混亂危險;有了法規,才能讓數百萬輛車安全有序地共享道路。
Data Governance(資料治理) 的正式定義是:
一套管理資料資產的政策(Policies)、流程(Processes)與標準(Standards),確保資料在整個組織內能被信任、安全地使用,並符合法規要求。
為什麼企業需要資料治理?
| 痛點 | 沒有治理的後果 |
|---|---|
| 資料孤島(Data Silo) | 各部門各存一份資料,互相矛盾,沒有「單一事實來源(Single Source of Truth)」 |
| 責任不清 | 資料出錯了不知道誰負責,修正無從下手 |
| 合規風險 | GDPR、個資法要求的資料使用記錄無法提供,面臨罰款 |
| AI 模型失信 | 訓練資料品質不明,模型上線後效能難以信任與解釋 |
2-4 Data Governance 框架五大組成
組成一:資料管理角色(Data Stewardship)
良好的資料治理必須明確定義誰負責什麼資料:
| 角色 | 英文 | 職責 |
|---|---|---|
| 資料擁有者 | Data Owner | 業務單位主管,對資料的策略使用負責 |
| 資料管理員 | Data Steward | 日常維護資料定義、品質與使用規則的執行者 |
| 資料工程師 | Data Engineer | 負責資料管道建置與技術實作 |
| 資料治理委員會 | Data Governance Council | 跨部門委員會,制定全組織資料政策 |
組成二:資料目錄與元資料管理(Data Catalog & Metadata Management)
生活比喻:資料目錄就像圖書館的索引系統——沒有它,你面對數千筆資料集不知從何找起;有了它,你能立刻找到需要的資料、了解它的來源與可信度。
元資料(Metadata) 是「描述資料的資料」,包含:
- 技術元資料:欄位名稱、資料型別、更新時間
- 業務元資料:資料的業務定義、擁有者、使用限制
- 操作元資料:最後存取時間、存取頻率、查詢效能
主流工具:
| 工具 | 提供者 | 特點 |
|---|---|---|
| Apache Atlas | Apache 開源 | 企業級元資料管理,與 Hadoop 生態深度整合 |
| Amundsen | Lyft 開源 | 資料發現平台,以搜尋為核心 UI |
| DataHub | LinkedIn 開源 | 現代化元資料圖譜,支援 REST API |
| Collibra | 商業軟體 | 企業級資料治理全套解決方案 |
組成三:資料血緣(Data Lineage)
Data Lineage(資料血緣) 追蹤一筆資料從創建到使用的完整旅程——就像食品的產地溯源系統,讓你知道餐桌上的牛肉來自哪個牧場、經過哪些加工程序。
原始資料來源(ERP 系統)
→ ETL 轉換(資料清理、格式標準化)
→ 資料倉儲(Data Warehouse)
→ 特徵工程(Feature Engineering)
→ 模型訓練資料集
→ AI 模型預測結果
資料血緣的核心價值:
- 錯誤追蹤:當模型輸出異常,能快速定位是哪個上游資料出了問題
- 影響分析:修改某個欄位前,能預見下游哪些模型與報表會受影響
- 合規舉證:向監管機構證明特定資料的來源合法、處理過程符合規範
組成四:存取控制與資安(Access Control & Security)
生活比喻:資料存取控制就像公司的門禁系統——不同的員工有不同的門禁權限,不是所有人都能進入機房或保險庫。
三層防護機制:
① 角色型存取控制(Role-Based Access Control, RBAC) 根據員工角色授予資料存取權限(例如:業務員只能看自己負責的客戶資料,不能看薪資資料)。
② 資料加密(Encryption)
- 靜態加密(Encryption at Rest):資料在儲存時加密
- 傳輸加密(Encryption in Transit):資料在網路傳輸時加密(HTTPS/TLS)
- 欄位層級加密:對特別敏感的欄位(如身分證號)進行額外加密
③ 稽核日誌(Audit Trail) 記錄所有資料存取行為(誰、在什麼時間、存取了什麼資料),作為合規舉證與異常偵測的基礎。
組成五:資料生命週期管理(Data Lifecycle Management)
每筆資料從誕生到消滅,都應有明確的政策管理:
建立(Creation)→ 儲存(Storage)→ 使用(Use)→ 封存(Archive)→ 刪除(Deletion)
| 階段 | 治理重點 |
|---|---|
| 建立 | 資料來源記錄、格式標準化 |
| 儲存 | 分類分級、備份策略、加密要求 |
| 使用 | 存取控制、使用目的限制 |
| 封存 | 長期保存政策、冷存儲轉移 |
| 刪除 | 刪除時間表、不可恢復的安全刪除 |
2-5 主資料管理(Master Data Management, MDM)
生活比喻:想像企業有五個部門,每個部門都有一份「客戶清單」,但五份清單上同一位客戶的名字、地址全都不一樣。MDM 就是建立那一份「官方版客戶清單」,讓所有部門以它為準。
MDM(Master Data Management) 是確保組織內關鍵業務實體(如客戶、產品、供應商)的主要資料只有「單一權威版本(Single Source of Truth)」的管理實踐。
MDM 核心實體:
- 客戶主資料(Customer MDM):客戶 ID、名稱、聯絡方式的唯一版本
- 產品主資料(Product MDM):產品代碼、規格、分類的統一標準
- 地理主資料(Location MDM):地址、行政區的標準化格式
對 AI 的意義: 若訓練資料中同一位客戶有三個不同的 ID,模型可能把它們視為三個人,導致特徵計算錯誤與預測失準。MDM 讓資料在進入 AI 管道前就具備一致性。
2-6 資料品質工具
| 工具 | 類型 | 核心功能 |
|---|---|---|
| Great Expectations | 開源 Python | 以「期望(Expectation)」定義資料品質規則,自動生成品質報告 |
| dbt tests | 開源 SQL | 在資料轉換流程中內嵌測試(如唯一性、非空值、接受值範圍) |
| Soda | 開源 + 商業 | 資料可觀測性平台,支援排程掃描與警示 |
| Monte Carlo | 商業 | 資料可觀測性,自動偵測資料異常(Data Anomaly Detection) |
Great Expectations 使用概念範例:
# 定義對 customer_age 欄位的「期望」
expect_column_values_to_be_between("customer_age", min_value=0, max_value=120)
expect_column_values_to_not_be_null("customer_id")
expect_column_values_to_be_unique("customer_id")
2-7 法規合規整合
GDPR(歐盟一般資料保護規範)
GDPR 對資料治理提出的具體技術要求:
| GDPR 要求 | 治理對應措施 |
|---|---|
| 資料處理的合法依據 | 資料目錄中記錄每個資料集的法律依據(同意、契約、合法利益) |
| 資料主體存取權(Right of Access) | 能快速定位特定個人的所有資料(需要資料血緣) |
| 被遺忘權(Right to Erasure) | 資料生命週期管理中的確定性刪除機制 |
| 資料最小化原則(Data Minimization) | 只收集 AI 模型真正需要的欄位 |
| 隱私設計(Privacy by Design) | 資料架構設計之初即納入隱私保護 |
台灣個人資料保護法(個資法)
台灣個資法(2023 年修正版)對 AI 應用的核心要求:
| 條文要求 | AI 落地影響 |
|---|---|
| 蒐集個資須告知當事人 | AI 訓練資料不得未經告知使用客戶個資 |
| 特種個資禁止原則 | 健康、種族等敏感資料未經特別授權不得用於模型訓練 |
| 安全維護義務 | 訓練資料集須有存取控制、加密與稽核機制 |
| 違規罰則 | 最高 1,500 萬元罰款,刑事責任最高 5 年有期徒刑 |
2-8 在組織中建立資料治理的實務步驟
生活比喻:建立資料治理就像整理一個長期雜亂的倉庫——你不可能一夜之間全部整理好,需要分階段、分優先順序,從最重要的區域開始。
六步驟建立框架:
Step 1 — 評估現狀(Assessment) 盤點現有資料資產,了解哪些資料在哪裡、品質如何、誰在使用。
Step 2 — 成立治理委員會(Governance Council) 召集 IT、業務、法務、資安跨部門代表,建立決策機制。
Step 3 — 定義資料分類(Data Classification) 依敏感程度分級(公開、內部、機密、極機密),並對應不同的保護要求。
Step 4 — 建立資料目錄(Data Catalog) 從最關鍵的資料集開始,逐步建立元資料文件,優先完成 AI 訓練資料集。
Step 5 — 制定品質規則(Quality Rules) 針對每個資料集定義可接受的品質標準,導入 Great Expectations 或 dbt tests 自動驗證。
Step 6 — 持續監控與改善(Monitor & Improve) 建立資料品質儀表板,定期向治理委員會報告,形成持續改善循環。
三、關鍵名詞中英對照
| 中文 | 英文 |
|---|---|
| 資料治理 | Data Governance |
| 資料品質 | Data Quality |
| 資料目錄 | Data Catalog |
| 元資料 | Metadata |
| 資料血緣 | Data Lineage |
| 資料管理員 | Data Steward |
| 資料擁有者 | Data Owner |
| 主資料管理 | Master Data Management (MDM) |
| 單一事實來源 | Single Source of Truth |
| 資料孤島 | Data Silo |
| 角色型存取控制 | Role-Based Access Control (RBAC) |
| 稽核日誌 | Audit Trail |
| 資料生命週期 | Data Lifecycle |
| 靜態加密 | Encryption at Rest |
| 傳輸加密 | Encryption in Transit |
| 資料可觀測性 | Data Observability |
| 準確性 | Accuracy |
| 完整性 | Completeness |
| 一致性 | Consistency |
| 即時性 | Timeliness |
| 有效性 | Validity |
| 被遺忘權 | Right to Erasure |
| 隱私設計 | Privacy by Design |
| 資料最小化 | Data Minimization |
四、考試重點提示
重點 1:資料品質五大維度 Accuracy(準確性)、Completeness(完整性)、Consistency(一致性)、Timeliness(即時性)、Validity(有效性)。考試最常用情境題考「違反了哪個維度」,例如「同一客戶在兩個系統的地址不同」= Consistency 問題。
重點 2:Data Governance 的定義 資料治理是管理資料資產的政策、流程與標準的整體框架,目的是確保資料可信任、安全且合規。考試常考「哪項活動屬於資料治理範疇」。
重點 3:資料血緣的用途 資料血緣追蹤資料從來源到模型的完整流程,核心用途:錯誤追蹤、影響分析、合規舉證。考試常考「為什麼 AI 開發需要資料血緣」。
重點 4:MDM 的核心概念 MDM 確保組織內關鍵業務實體(客戶、產品)只有單一權威版本,解決資料孤島導致的矛盾問題。考試常考「MDM 的目的是什麼」。
重點 5:GDPR 與個資法要求 GDPR 的被遺忘權要求確定性資料刪除、資料最小化原則限制 AI 訓練資料的範圍。台灣個資法特別注意特種個資(健康、種族)的使用限制,以及違規罰則。
Q1. 某企業的 CRM 系統顯示客戶王小明的地址是「台北市信義區」,但 ERP 系統同一位客戶的地址卻是「新北市板橋區」。這個問題違反了資料品質的哪個維度?
- A. 準確性(Accuracy)
- B. 完整性(Completeness)
- C. 一致性(Consistency)
- D. 有效性(Validity)
Q2. 資料血緣(Data Lineage)的主要用途是什麼?下列哪個選項描述最正確?
- A. 提升資料的存取速度與查詢效能
- B. 追蹤資料從來源到使用的完整流程,支援錯誤追蹤與合規舉證
- C. 定義不同員工角色的資料存取權限
- D. 自動修復資料中的缺失值與格式錯誤
Q3. 以下關於 MDM(主資料管理)的描述,何者正確?
- A. MDM 是一種機器學習模型架構,用於預測客戶行為
- B. MDM 的目的是確保組織內關鍵實體資料只有單一權威版本,解決資料孤島問題
- C. MDM 專門用於管理 AI 模型的版本與部署記錄
- D. MDM 是 GDPR 規定的強制性合規工具
Q4. 請說明 GDPR「被遺忘權(Right to Erasure)」對 AI 系統設計的影響,以及需要哪項資料治理能力來支撐?
Q5. Great Expectations 這個工具在 AI 開發流程中扮演什麼角色?它解決了哪個核心問題?
- A. 模型版本管理工具,追蹤不同版本模型的效能差異
- B. 資料品質驗證工具,以「期望」定義規則並自動檢核資料是否符合標準
- C. 特徵工程自動化工具,從原始資料中自動生成新特徵
- D. 資料視覺化工具,將資料分布繪製成圖表供分析師使用
解答與解析
| 題號 | 答案 |
|---|---|
| Q1 | C |
| Q2 | B |
| Q3 | B |
| Q4 | 需要資料血緣與資料生命週期管理能力,確保能找到並確定性刪除特定個人的所有資料 |
| Q5 | B |
詳細解析:
Q1:C(一致性) 同一位客戶在不同系統中有相互矛盾的資料,這是**一致性(Consistency)**問題的典型範例。注意:若地址欄位是空白,才是完整性問題;若地址格式錯誤(例如填入電話號碼),才是有效性問題。
Q2:B 資料血緣(Data Lineage)的核心價值在於讓組織能「追溯資料的完整旅程」。當 AI 模型輸出異常,可透過血緣圖快速找到上游的問題資料來源(錯誤追蹤);當監管機構要求說明資料如何被使用,血緣圖也是關鍵的合規舉證文件。
Q3:B MDM(Master Data Management)解決的是企業中普遍存在的「資料孤島」問題——多個部門各存一份主要業務資料,版本互相矛盾。MDM 建立「單一事實來源(Single Source of Truth)」,讓所有系統與 AI 模型使用同一套權威資料。
Q4: GDPR 第 17 條賦予用戶要求企業刪除其個人資料的「被遺忘權」。這對 AI 系統設計的影響是:
- 資料血緣:必須能快速定位特定用戶的資料散佈在哪些系統與資料集
- 資料生命週期管理:需有確定性刪除機制,確保備份、封存、訓練資料集中的個人資料都能被徹底移除
- 模型再訓練考量:若訓練資料中包含已被刪除用戶的資料,理論上需要對模型進行「機器遺忘(Machine Unlearning)」處理
Q5:B Great Expectations 是資料工程師與 ML 工程師用來確保資料品質的開源工具。它的核心概念是讓用戶以程式碼定義「期望(Expectation)」——例如「這個欄位不能有空值」、「這個欄位的值必須在 0 到 120 之間」——並在每次資料管道執行時自動驗證,及早攔截劣質資料進入 AI 訓練流程。