ANGELA JIAN
LOADING
回到課程總覽
第 46 篇 L11201 導入規劃進階

資料品質管理與 Data Governance:AI 成敗的關鍵基礎

Angela Jian
Angela Jian 簡琬庭
iPAS AI 應用規劃師 / AI Product Builder

一、學習目標

完成本單元後,你將能夠:

  • 說明資料品質為何決定 AI 模型的成敗
  • 描述資料品質的五大維度並舉例說明衡量方法
  • 定義 Data Governance(資料治理)及其組成框架
  • 解釋資料目錄、資料血緣、主資料管理的用途
  • 列舉主流資料品質工具與其適用場景
  • 說明 GDPR 與台灣個資法對資料治理的具體要求
  • 描述在組織中建立資料治理框架的實務步驟

二、核心內容

2-1 Garbage In, Garbage Out:資料為何決定 AI 成敗?

生活比喻:AI 模型就像一位廚師,再頂尖的廚藝也救不了劣質食材。你給它爛資料,它就端出爛菜餚。

AI 專案中有一個殘酷的現實:70% 的時間花在資料清理與準備,真正訓練模型的時間反而不到 30%。這個統計數字揭示了資料工作的核心重要性。

為什麼劣質資料會摧毀 AI 模型?

1. 偏誤傳遞(Bias Propagation) 若訓練資料本身有系統性偏誤(例如歷史上某族群的貸款申請被不公平地拒絕),模型會學到並放大這個偏誤,導致歧視性決策。

2. 噪音誤導(Noise Misdirection) 資料中的錯誤紀錄(如量測錯誤、手動輸入失誤)會讓模型學到錯誤的特徵與標籤關聯,降低預測準確度。

3. 分布偏移(Distribution Shift) 若訓練資料無法代表真實世界的分布(如只有特定季節的資料),模型在實際部署後效能會大幅下滑。

4. 缺失值問題(Missing Data) 未妥善處理的缺失值會導致特徵工程失效,或讓模型在推論時遇到未曾見過的情境而出錯。

真實案例:Amazon 的 AI 招募工具因為訓練資料以男性履歷為主,學會了系統性地降低女性應徵者的評分,最終被迫廢棄。這正是「垃圾進、垃圾出」的真實代價。


2-2 資料品質五大維度

生活比喻:評估資料品質就像驗貨——你要確認貨物(準確)、數量齊全(完整)、規格一致(一致)、在保鮮期內(即時)、符合標準(有效)。

資料品質可以從五個核心維度衡量,每個維度都有對應的測量方法:

維度英文定義衡量方法不良範例
準確性Accuracy資料是否正確反映現實與黃金標準(Ground Truth)比對的誤差率客戶電話號碼錯誤、感測器讀數漂移
完整性Completeness資料是否有缺失缺失值比例(Null Rate)10% 的年齡欄位為空白
一致性Consistency不同資料源的相同資料是否矛盾跨系統比對的衝突率A 系統顯示客戶住台北,B 系統顯示高雄
即時性Timeliness資料是否反映最新狀態資料更新延遲時間庫存系統 3 天後才更新實際出貨紀錄
有效性Validity資料是否符合定義的格式與範圍格式/範圍規則的違反率年齡欄位出現「-5」或「200」

衡量指標範例

完整性指標 = (非空值筆數 / 總筆數) × 100%
有效性指標 = (符合格式規則的筆數 / 總筆數) × 100%
一致性指標 = (跨系統一致的筆數 / 抽樣比對總筆數) × 100%

考試重點:五大維度英文名稱需背熟:Accuracy、Completeness、Consistency、Timeliness、Validity。常見考法是給定情境,要求判斷違反了哪個維度。


2-3 Data Governance 的定義與必要性

生活比喻:資料治理就像城市的交通法規——沒有法規,每個人各開各的,看似自由,實則混亂危險;有了法規,才能讓數百萬輛車安全有序地共享道路。

Data Governance(資料治理) 的正式定義是:

一套管理資料資產的政策(Policies)流程(Processes)標準(Standards),確保資料在整個組織內能被信任、安全地使用,並符合法規要求。

為什麼企業需要資料治理?

痛點沒有治理的後果
資料孤島(Data Silo)各部門各存一份資料,互相矛盾,沒有「單一事實來源(Single Source of Truth)」
責任不清資料出錯了不知道誰負責,修正無從下手
合規風險GDPR、個資法要求的資料使用記錄無法提供,面臨罰款
AI 模型失信訓練資料品質不明,模型上線後效能難以信任與解釋

2-4 Data Governance 框架五大組成

組成一:資料管理角色(Data Stewardship)

良好的資料治理必須明確定義誰負責什麼資料

角色英文職責
資料擁有者Data Owner業務單位主管,對資料的策略使用負責
資料管理員Data Steward日常維護資料定義、品質與使用規則的執行者
資料工程師Data Engineer負責資料管道建置與技術實作
資料治理委員會Data Governance Council跨部門委員會,制定全組織資料政策

組成二:資料目錄與元資料管理(Data Catalog & Metadata Management)

生活比喻:資料目錄就像圖書館的索引系統——沒有它,你面對數千筆資料集不知從何找起;有了它,你能立刻找到需要的資料、了解它的來源與可信度。

元資料(Metadata) 是「描述資料的資料」,包含:

  • 技術元資料:欄位名稱、資料型別、更新時間
  • 業務元資料:資料的業務定義、擁有者、使用限制
  • 操作元資料:最後存取時間、存取頻率、查詢效能

主流工具:

工具提供者特點
Apache AtlasApache 開源企業級元資料管理,與 Hadoop 生態深度整合
AmundsenLyft 開源資料發現平台,以搜尋為核心 UI
DataHubLinkedIn 開源現代化元資料圖譜,支援 REST API
Collibra商業軟體企業級資料治理全套解決方案

組成三:資料血緣(Data Lineage)

Data Lineage(資料血緣) 追蹤一筆資料從創建到使用的完整旅程——就像食品的產地溯源系統,讓你知道餐桌上的牛肉來自哪個牧場、經過哪些加工程序。

原始資料來源(ERP 系統)
  → ETL 轉換(資料清理、格式標準化)
    → 資料倉儲(Data Warehouse)
      → 特徵工程(Feature Engineering)
        → 模型訓練資料集
          → AI 模型預測結果

資料血緣的核心價值:

  1. 錯誤追蹤:當模型輸出異常,能快速定位是哪個上游資料出了問題
  2. 影響分析:修改某個欄位前,能預見下游哪些模型與報表會受影響
  3. 合規舉證:向監管機構證明特定資料的來源合法、處理過程符合規範

組成四:存取控制與資安(Access Control & Security)

生活比喻:資料存取控制就像公司的門禁系統——不同的員工有不同的門禁權限,不是所有人都能進入機房或保險庫。

三層防護機制:

① 角色型存取控制(Role-Based Access Control, RBAC) 根據員工角色授予資料存取權限(例如:業務員只能看自己負責的客戶資料,不能看薪資資料)。

② 資料加密(Encryption)

  • 靜態加密(Encryption at Rest):資料在儲存時加密
  • 傳輸加密(Encryption in Transit):資料在網路傳輸時加密(HTTPS/TLS)
  • 欄位層級加密:對特別敏感的欄位(如身分證號)進行額外加密

③ 稽核日誌(Audit Trail) 記錄所有資料存取行為(誰、在什麼時間、存取了什麼資料),作為合規舉證與異常偵測的基礎。

組成五:資料生命週期管理(Data Lifecycle Management)

每筆資料從誕生到消滅,都應有明確的政策管理:

建立(Creation)→ 儲存(Storage)→ 使用(Use)→ 封存(Archive)→ 刪除(Deletion)
階段治理重點
建立資料來源記錄、格式標準化
儲存分類分級、備份策略、加密要求
使用存取控制、使用目的限制
封存長期保存政策、冷存儲轉移
刪除刪除時間表、不可恢復的安全刪除

2-5 主資料管理(Master Data Management, MDM)

生活比喻:想像企業有五個部門,每個部門都有一份「客戶清單」,但五份清單上同一位客戶的名字、地址全都不一樣。MDM 就是建立那一份「官方版客戶清單」,讓所有部門以它為準。

MDM(Master Data Management) 是確保組織內關鍵業務實體(如客戶、產品、供應商)的主要資料只有「單一權威版本(Single Source of Truth)」的管理實踐。

MDM 核心實體:

  • 客戶主資料(Customer MDM):客戶 ID、名稱、聯絡方式的唯一版本
  • 產品主資料(Product MDM):產品代碼、規格、分類的統一標準
  • 地理主資料(Location MDM):地址、行政區的標準化格式

對 AI 的意義: 若訓練資料中同一位客戶有三個不同的 ID,模型可能把它們視為三個人,導致特徵計算錯誤與預測失準。MDM 讓資料在進入 AI 管道前就具備一致性。


2-6 資料品質工具

工具類型核心功能
Great Expectations開源 Python以「期望(Expectation)」定義資料品質規則,自動生成品質報告
dbt tests開源 SQL在資料轉換流程中內嵌測試(如唯一性、非空值、接受值範圍)
Soda開源 + 商業資料可觀測性平台,支援排程掃描與警示
Monte Carlo商業資料可觀測性,自動偵測資料異常(Data Anomaly Detection)

Great Expectations 使用概念範例:

# 定義對 customer_age 欄位的「期望」
expect_column_values_to_be_between("customer_age", min_value=0, max_value=120)
expect_column_values_to_not_be_null("customer_id")
expect_column_values_to_be_unique("customer_id")

2-7 法規合規整合

GDPR(歐盟一般資料保護規範)

GDPR 對資料治理提出的具體技術要求:

GDPR 要求治理對應措施
資料處理的合法依據資料目錄中記錄每個資料集的法律依據(同意、契約、合法利益)
資料主體存取權(Right of Access)能快速定位特定個人的所有資料(需要資料血緣)
被遺忘權(Right to Erasure)資料生命週期管理中的確定性刪除機制
資料最小化原則(Data Minimization)只收集 AI 模型真正需要的欄位
隱私設計(Privacy by Design)資料架構設計之初即納入隱私保護

台灣個人資料保護法(個資法)

台灣個資法(2023 年修正版)對 AI 應用的核心要求:

條文要求AI 落地影響
蒐集個資須告知當事人AI 訓練資料不得未經告知使用客戶個資
特種個資禁止原則健康、種族等敏感資料未經特別授權不得用於模型訓練
安全維護義務訓練資料集須有存取控制、加密與稽核機制
違規罰則最高 1,500 萬元罰款,刑事責任最高 5 年有期徒刑

2-8 在組織中建立資料治理的實務步驟

生活比喻:建立資料治理就像整理一個長期雜亂的倉庫——你不可能一夜之間全部整理好,需要分階段、分優先順序,從最重要的區域開始。

六步驟建立框架:

Step 1 — 評估現狀(Assessment) 盤點現有資料資產,了解哪些資料在哪裡、品質如何、誰在使用。

Step 2 — 成立治理委員會(Governance Council) 召集 IT、業務、法務、資安跨部門代表,建立決策機制。

Step 3 — 定義資料分類(Data Classification) 依敏感程度分級(公開、內部、機密、極機密),並對應不同的保護要求。

Step 4 — 建立資料目錄(Data Catalog) 從最關鍵的資料集開始,逐步建立元資料文件,優先完成 AI 訓練資料集。

Step 5 — 制定品質規則(Quality Rules) 針對每個資料集定義可接受的品質標準,導入 Great Expectations 或 dbt tests 自動驗證。

Step 6 — 持續監控與改善(Monitor & Improve) 建立資料品質儀表板,定期向治理委員會報告,形成持續改善循環。


三、關鍵名詞中英對照

中文英文
資料治理Data Governance
資料品質Data Quality
資料目錄Data Catalog
元資料Metadata
資料血緣Data Lineage
資料管理員Data Steward
資料擁有者Data Owner
主資料管理Master Data Management (MDM)
單一事實來源Single Source of Truth
資料孤島Data Silo
角色型存取控制Role-Based Access Control (RBAC)
稽核日誌Audit Trail
資料生命週期Data Lifecycle
靜態加密Encryption at Rest
傳輸加密Encryption in Transit
資料可觀測性Data Observability
準確性Accuracy
完整性Completeness
一致性Consistency
即時性Timeliness
有效性Validity
被遺忘權Right to Erasure
隱私設計Privacy by Design
資料最小化Data Minimization

四、考試重點提示

重點 1:資料品質五大維度 Accuracy(準確性)、Completeness(完整性)、Consistency(一致性)、Timeliness(即時性)、Validity(有效性)。考試最常用情境題考「違反了哪個維度」,例如「同一客戶在兩個系統的地址不同」= Consistency 問題。

重點 2:Data Governance 的定義 資料治理是管理資料資產的政策、流程與標準的整體框架,目的是確保資料可信任、安全且合規。考試常考「哪項活動屬於資料治理範疇」。

重點 3:資料血緣的用途 資料血緣追蹤資料從來源到模型的完整流程,核心用途:錯誤追蹤、影響分析、合規舉證。考試常考「為什麼 AI 開發需要資料血緣」。

重點 4:MDM 的核心概念 MDM 確保組織內關鍵業務實體(客戶、產品)只有單一權威版本,解決資料孤島導致的矛盾問題。考試常考「MDM 的目的是什麼」。

重點 5:GDPR 與個資法要求 GDPR 的被遺忘權要求確定性資料刪除、資料最小化原則限制 AI 訓練資料的範圍。台灣個資法特別注意特種個資(健康、種族)的使用限制,以及違規罰則。


隨堂小測驗

Q1. 某企業的 CRM 系統顯示客戶王小明的地址是「台北市信義區」,但 ERP 系統同一位客戶的地址卻是「新北市板橋區」。這個問題違反了資料品質的哪個維度?

  • A. 準確性(Accuracy)
  • B. 完整性(Completeness)
  • C. 一致性(Consistency)
  • D. 有效性(Validity)

Q2. 資料血緣(Data Lineage)的主要用途是什麼?下列哪個選項描述最正確?

  • A. 提升資料的存取速度與查詢效能
  • B. 追蹤資料從來源到使用的完整流程,支援錯誤追蹤與合規舉證
  • C. 定義不同員工角色的資料存取權限
  • D. 自動修復資料中的缺失值與格式錯誤

Q3. 以下關於 MDM(主資料管理)的描述,何者正確?

  • A. MDM 是一種機器學習模型架構,用於預測客戶行為
  • B. MDM 的目的是確保組織內關鍵實體資料只有單一權威版本,解決資料孤島問題
  • C. MDM 專門用於管理 AI 模型的版本與部署記錄
  • D. MDM 是 GDPR 規定的強制性合規工具

Q4. 請說明 GDPR「被遺忘權(Right to Erasure)」對 AI 系統設計的影響,以及需要哪項資料治理能力來支撐?


Q5. Great Expectations 這個工具在 AI 開發流程中扮演什麼角色?它解決了哪個核心問題?

  • A. 模型版本管理工具,追蹤不同版本模型的效能差異
  • B. 資料品質驗證工具,以「期望」定義規則並自動檢核資料是否符合標準
  • C. 特徵工程自動化工具,從原始資料中自動生成新特徵
  • D. 資料視覺化工具,將資料分布繪製成圖表供分析師使用

解答與解析

題號答案
Q1C
Q2B
Q3B
Q4需要資料血緣與資料生命週期管理能力,確保能找到並確定性刪除特定個人的所有資料
Q5B

詳細解析:

Q1:C(一致性) 同一位客戶在不同系統中有相互矛盾的資料,這是**一致性(Consistency)**問題的典型範例。注意:若地址欄位是空白,才是完整性問題;若地址格式錯誤(例如填入電話號碼),才是有效性問題。

Q2:B 資料血緣(Data Lineage)的核心價值在於讓組織能「追溯資料的完整旅程」。當 AI 模型輸出異常,可透過血緣圖快速找到上游的問題資料來源(錯誤追蹤);當監管機構要求說明資料如何被使用,血緣圖也是關鍵的合規舉證文件。

Q3:B MDM(Master Data Management)解決的是企業中普遍存在的「資料孤島」問題——多個部門各存一份主要業務資料,版本互相矛盾。MDM 建立「單一事實來源(Single Source of Truth)」,讓所有系統與 AI 模型使用同一套權威資料。

Q4: GDPR 第 17 條賦予用戶要求企業刪除其個人資料的「被遺忘權」。這對 AI 系統設計的影響是:

  1. 資料血緣:必須能快速定位特定用戶的資料散佈在哪些系統與資料集
  2. 資料生命週期管理:需有確定性刪除機制,確保備份、封存、訓練資料集中的個人資料都能被徹底移除
  3. 模型再訓練考量:若訓練資料中包含已被刪除用戶的資料,理論上需要對模型進行「機器遺忘(Machine Unlearning)」處理

Q5:B Great Expectations 是資料工程師與 ML 工程師用來確保資料品質的開源工具。它的核心概念是讓用戶以程式碼定義「期望(Expectation)」——例如「這個欄位不能有空值」、「這個欄位的值必須在 0 到 120 之間」——並在每次資料管道執行時自動驗證,及早攔截劣質資料進入 AI 訓練流程。