學習目標
完成本篇後,你將能夠:
- 描述三個真實的 AI 偏見案例及其後果
- 區分五種偏見來源,並說明各自的成因
- 解釋三種公平性定義及其數學意涵
- 說明可解釋 AI(XAI)的主要方法(LIME、SHAP)
- 分析 AI 問責框架中各方的責任歸屬
核心內容
一、真實案例:當 AI 決定你的命運
生活比喻:AI 偏見就像一個從小在特定環境長大的法官——他的「直覺」其實反映了他成長過程中接觸的偏頗資訊,即使他相信自己客觀公正。
案例一:Amazon 履歷篩選 AI(2018)
發生了什麼事? Amazon 自 2014 年起開發 AI 履歷篩選工具,目標是自動化招募流程。2018 年被揭露:系統對女性求職者系統性降分。
根本原因:訓練資料來自 Amazon 過去 10 年的錄取紀錄。由於科技業歷史上男性主導,訓練資料本身就偏向男性履歷。AI 學到「好的工程師履歷」= 男性特徵——例如「女子西洋棋社」這類關鍵字會被扣分。
結果:Amazon 於 2017 年停止使用該系統,但 2018 年才公開披露。
案例二:COMPAS 累犯預測系統(美國司法)
發生了什麼事? COMPAS(Correctional Offender Management Profiling for Alternative Sanctions)是美國法院用於評估被告再犯風險的 AI 工具,直接影響假釋與量刑決定。
2016 年,ProPublica 調查發現:
- 黑人被告被錯誤標記為「高風險」的機率比白人高出近一倍
- 白人被告被錯誤標記為「低風險」(實際上再犯)的機率更高
根本原因:歷史刑事司法資料本身就反映了執法中對少數族裔的差別對待(如差別執法、差別起訴)。AI 學習了這些歷史模式。
爭議:開發商 Northpointe 主張他們的系統在各種族之間「整體準確率相當」,但 ProPublica 指出錯誤類型的分佈不均等——這正揭示了不同公平性定義之間的根本張力。
案例三:醫療保健資源分配演算法(2019)
發生了什麼事? Science 期刊 2019 年研究揭露,美國醫院廣泛使用的一種商業健康風險預測演算法,系統性低估了黑人病患的醫療需求。
在同等健康狀況下,黑人病患獲得的風險分數比白人病患低——導致他們較少被轉介到高強度護理計畫。
根本原因:演算法使用「醫療費用支出」作為健康需求的代理變數(Proxy variable)。然而,黑人患者由於歷史上獲得的醫療資源較少,健康狀況相同時其醫療費用往往較低——這個代理變數本身就帶有種族差異。
二、偏見的來源:五種主要類型
1. 歷史資料偏見(Historical Data Bias)
訓練資料反映了過去社會的不平等與歧視。
例子:用過去 20 年的貸款資料訓練信用評分 AI,如果過去對少數族裔存在歧視性放貸,AI 會學到並延續這種歧視。
2. 代表性偏見(Representation Bias)
訓練資料中某些群體的樣本量不足,導致模型對這些群體的效能較差。
例子:臉部辨識系統主要用白人男性臉部資料訓練,對深膚色女性的辨識錯誤率顯著較高(MIT 媒體實驗室 Joy Buolamwini 的研究)。
3. 測量偏見(Measurement Bias)
用於標記資料的工具或方法本身存在系統性誤差。
例子:用「逮捕紀錄」作為犯罪行為的代理指標,但逮捕率本身就受到警力部署偏差的影響。
4. 聚合偏見(Aggregation Bias)
對不同群體使用同一個模型,但各群體的底層關係其實不同。
例子:糖尿病足部潰瘍的預測模型在整體族群中表現良好,但對不同族裔的效能差異顯著——因為相同症狀在不同族裔中可能有不同的生理機制。
5. 評估偏見(Evaluation Bias)
用不具代表性的測試資料集評估模型,導致高估了模型在某些群體上的效能。
例子:用以男性為主的測試集評估醫療 AI,看起來準確率很高,但在女性病患上效能大幅下降。
三、公平性的定義:為什麼沒有唯一答案
三種主要公平性定義
1. 人口統計均等(Demographic Parity / Statistical Parity)
不同群體獲得正面預測結果的比例應相同。
P(Ŷ=1 | 群體A) = P(Ŷ=1 | 群體B)
例子:AI 貸款審核系統批准男性的比率應等於批准女性的比率。
缺點:忽略了群體間可能存在的真實差異(例如信用分數本身的差異)。
2. 機會均等(Equalized Odds)
不同群體在「真正應獲得正面結果者」(真陽性率)和「不應獲得正面結果者」(假陽性率)上的比率應相同。
P(Ŷ=1 | Y=1, 群體A) = P(Ŷ=1 | Y=1, 群體B) ← 真陽性率相等
P(Ŷ=1 | Y=0, 群體A) = P(Ŷ=1 | Y=0, 群體B) ← 假陽性率相等
例子:在「實際上會還款的人」中,不同族裔獲批准的比率相同;在「實際上不會還款的人」中,不同族裔被拒絕的比率也相同。
3. 差異影響比(Disparate Impact Ratio)
美國就業法中常用的統計檢驗,又稱「80% 規則」:
受保護群體的正面結果比率 / 多數群體的正面結果比率 ≥ 0.8
若比值低於 0.8(即 80%),則可能構成法律上的差異影響(Disparate Impact)。
例子:若白人應聘者的錄取率為 50%,黑人應聘者的錄取率必須至少達到 40%(80% × 50%),否則可能涉及歧視。
公平性定義之間的根本張力
考試提示:這是 COMPAS 案例的核心爭議——研究已證明,人口統計均等、機會均等(含真陽性率與假陽性率均等)三者在一般情況下無法同時滿足(Chouldechova, 2017)。這意味著任何公平性定義的選擇,本質上都是一個價值判斷,而非純粹的技術問題。
| 公平性定義 | 強調的價值 | 適合情境 |
|---|---|---|
| 人口統計均等 | 結果平等(Equality of outcome) | 確保各群體獲得資源的機會相同 |
| 機會均等 | 程序公平(Procedural fairness) | 強調根據相關條件作出準確判斷 |
| 個人公平(Individual Fairness) | 相似個體應被相似對待 | 強調個案判斷,而非群體統計 |
四、可解釋 AI(XAI):打開黑盒子
為什麼需要可解釋性?
三大驅動力:
- 信任:使用者需要理解 AI 決策才能信任並正確使用系統
- 除錯:開發者需要理解模型行為才能發現並修正偏見
- 法規:EU AI Act、GDPR 的「解釋權」(Right to explanation)要求 AI 決策可被說明
生活比喻:你去銀行貸款被拒絕。如果銀行只告訴你「我們的 AI 說不行」,你無法申訴、無法改善——這剝奪了你的基本權利。XAI 就是要讓 AI 像一個好的銀行員,告訴你「因為你的負債比太高,建議先降低信用卡額度」。
XAI 的主要方法
1. LIME(Local Interpretable Model-agnostic Explanations)
原理:在特定預測點的附近,用一個簡單的線性模型(可解釋的替代模型)近似複雜模型的行為。
運作方式:
- 對想解釋的樣本,生成大量「附近的」擾動樣本(Perturbed samples)
- 用複雜模型對這些擾動樣本做預測
- 用加權線性迴歸擬合這些預測,離原始樣本越近的擾動樣本權重越高
- 線性模型的係數即為各特徵的「局部重要性」
特點:
- 模型無關(Model-agnostic):適用於任何 AI 模型
- 局部解釋(Local explanation):只解釋單一預測,不解釋整體模型
- 直覺易懂:以特徵重要性圖呈現
例子:為什麼這封郵件被判定為垃圾信?LIME 可能告訴你:「因為包含『限時優惠』和大量驚嘆號。」
2. SHAP(SHapley Additive exPlanations)
原理:基於賽局理論中的 Shapley 值(Shapley values),計算每個特徵對預測結果的「公平貢獻量」。
Shapley 值的概念: 想像所有特徵是一個「合作賽局」的玩家——Shapley 值衡量每個「玩家」在所有可能的特徵組合中,平均為最終預測帶來的邊際貢獻。
特點:
- 具有理論保證(公平性、一致性、虛無特徵公理)
- 可做全局解釋(Global explanation):整合所有樣本的 SHAP 值
- 計算成本較高
視覺化工具:
- SHAP 瀑布圖(Waterfall plot):顯示單一預測中各特徵的貢獻
- SHAP 蜂群圖(Beeswarm plot):顯示所有樣本的特徵重要性分佈
3. 注意力視覺化(Attention Visualization)
適用於 Transformer 架構的模型,顯示模型在做決策時「注意」哪些輸入部分。
例子:醫療影像 AI 診斷時,熱力圖(Heatmap)顯示模型聚焦於影像的哪個區域做出診斷判斷。
4. 決策樹近似(Decision Tree Approximation)
用一棵簡單的決策樹來近似複雜模型的整體行為,讓人容易理解主要決策規則。
LIME vs SHAP 比較
| 面向 | LIME | SHAP |
|---|---|---|
| 理論基礎 | 局部線性近似 | 賽局理論 Shapley 值 |
| 解釋範疇 | 局部(單筆預測) | 局部 + 全局 |
| 計算速度 | 較快 | 較慢(尤其是精確計算) |
| 理論保證 | 較少 | 具數學公理保證 |
| 適用場景 | 快速局部解釋 | 需要嚴謹理論基礎的場景 |
五、模型卡(Model Card):記錄模型的身份證
Model Card 是 Google 2019 年提出的模型文件標準,用於透明記錄 AI 模型在不同子群體(Subgroup)上的效能。
Model Card 的標準內容
| 欄位 | 內容 |
|---|---|
| 模型概覽 | 模型用途、架構、訓練資料摘要 |
| 預期使用情境 | 適合使用的場景與不適合的場景 |
| 評估結果 | 整體效能指標(準確率、F1 等) |
| 子群體效能 | 按年齡、性別、種族等分層的效能差異 |
| 倫理考量 | 已知偏見、風險與緩解措施 |
| 使用限制 | 已知的局限性與潛在誤用方式 |
考試提示:Model Card 最重要的特色是子群體效能分析(Disaggregated evaluation)——這讓使用者能看到模型在不同族群上是否有差異表現,而非只看整體平均數。
六、AI 問責框架:誰該負責?
當 AI 系統造成傷害,責任該如何分配?
三個主要責任主體
1. 開發者(Developer)
- 確保訓練資料品質與代表性
- 選擇適當的公平性指標並監控
- 提供充分的技術文件與 Model Card
- 在合理使用範圍內確保模型安全
2. 部署者(Deployer / Operator)
- 確認 AI 系統適用於特定使用情境
- 建立人為監督機制(Human-in-the-loop)
- 維護使用者申訴管道
- 定期監控系統在真實環境中的效能
3. 使用者(User)
- 正確使用 AI 系統(依照設計目的)
- 不過度依賴 AI 決策而放棄判斷
- 回報異常或有問題的結果
責任歸屬的複雜性
生活比喻:GPS 導航帶你走進了一條禁止通行的道路——責任在 GPS 廠商(更新不及時)、地圖資料提供商(資料有誤)、還是你(沒有注意路標)?AI 問責往往也是這種多方責任的複雜判斷。
責任鏈的模糊地帶:
- AI 系統由多個組件組成(資料、模型、介面),每個由不同方負責
- 「黑盒子」問題讓責任追溯困難
- 跨境部署時,適用哪國法律存在爭議
AI 倫理委員會(AI Ethics Committee)
越來越多企業設立 AI 倫理委員會,負責:
- 審查高風險 AI 應用的倫理影響
- 制定公司內部 AI 使用準則
- 處理員工或外部利害關係人的倫理疑慮
- 追蹤新興法規並確保合規
七、國際 AI 倫理框架比較
| 框架 | 發布機構 | 年份 | 核心原則 |
|---|---|---|---|
| OECD AI 原則 | OECD | 2019 | 包容性增長、人本價值、透明度、穩健安全、問責 |
| UNESCO AI 倫理建議書 | UNESCO | 2021 | 人權、環境永續、多元文化、性別平等 |
| IEEE 倫理設計標準 | IEEE | 2019 | 人類福祉、資料自主、問責、透明度、不傷害 |
| EU 可信任 AI 倫理指引 | EU HLEG | 2019 | 7 項關鍵要求(下表) |
| NIST AI RMF | NIST(美國) | 2023 | 治理、映射、測量、管理四大功能 |
EU 可信任 AI 的 7 項關鍵要求
| # | 要求 | 英文 |
|---|---|---|
| 1 | 人類自主與監督 | Human Agency and Oversight |
| 2 | 技術穩健性與安全 | Technical Robustness and Safety |
| 3 | 隱私與資料治理 | Privacy and Data Governance |
| 4 | 透明度 | Transparency |
| 5 | 多元、非歧視與公平 | Diversity, Non-discrimination and Fairness |
| 6 | 社會與環境福祉 | Societal and Environmental Well-being |
| 7 | 問責制 | Accountability |
考試提示:OECD AI 原則是第一個由政府層級採用的多邊 AI 倫理框架(42 個國家簽署),常作為各國 AI 政策的基礎。EU 倫理指引與 OECD 原則高度一致,但 EU 指引屬於軟法(非強制),真正有法律效力的是 AI Act。
名詞對照
| 中文 | English |
|---|---|
| AI 偏見 | AI Bias |
| 歷史資料偏見 | Historical Data Bias |
| 代表性偏見 | Representation Bias |
| 測量偏見 | Measurement Bias |
| 聚合偏見 | Aggregation Bias |
| 評估偏見 | Evaluation Bias |
| 人口統計均等 | Demographic Parity / Statistical Parity |
| 機會均等 | Equalized Odds |
| 差異影響比 | Disparate Impact Ratio |
| 個人公平 | Individual Fairness |
| 可解釋 AI | Explainable AI (XAI) |
| 局部可解釋模型無關解釋 | LIME (Local Interpretable Model-agnostic Explanations) |
| Shapley 加性解釋 | SHAP (SHapley Additive exPlanations) |
| 注意力視覺化 | Attention Visualization |
| 模型卡 | Model Card |
| 子群體效能 | Disaggregated Evaluation |
| AI 問責 | AI Accountability |
| 人機協作 | Human-in-the-loop |
| AI 倫理委員會 | AI Ethics Committee |
| 代理變數 | Proxy Variable |
考試重點
必考知識點整理
-
三大真實案例:Amazon 履歷 AI(性別偏見)、COMPAS(種族偏見)、醫療資源演算法(代理變數偏見)
-
五種偏見來源:歷史資料、代表性、測量、聚合、評估
-
80% 規則(差異影響比):保護群體的正面結果比率需 ≥ 多數群體的 80%
-
公平性定義無法同時滿足:人口統計均等、真陽性率均等、假陽性率均等三者之間存在數學上的不可能同時成立
-
LIME vs SHAP:LIME = 局部線性近似;SHAP = 賽局理論 Shapley 值,具全局解釋能力
-
Model Card 的核心特色:子群體效能分析(Disaggregated evaluation)
-
三個問責主體:開發者(資料與模型)、部署者(情境適用與監督)、使用者(正確使用)
-
OECD AI 原則:最早的多邊政府層級 AI 倫理框架,42 國簽署
Q1. 2018 年 Amazon 履歷篩選 AI 被發現對女性求職者系統性降分,其主要原因是什麼?
- (A) 演算法設計師刻意歧視女性
- (B) 訓練資料來自歷史上男性主導的錄取紀錄,導致歷史資料偏見
- (C) 女性求職者的履歷品質普遍較低
- (D) 系統將女性相關詞彙誤判為垃圾資料
Q2. 某 AI 貸款審核系統對男性申請者的批准率為 60%,對女性申請者的批准率為 45%。根據「差異影響比(80% 規則)」,此系統是否可能構成差異影響?
- (A) 否,因為 45% 仍高於 40%
- (B) 是,因為 45%/60% = 75%,低於 80% 門檻
- (C) 否,差異影響比只適用於種族差異,不適用於性別
- (D) 無法判斷,需要更多資料
Q3. LIME(局部可解釋模型無關解釋)的主要特點是什麼?
- (A) 能夠修改 AI 模型的內部參數以提升可解釋性
- (B) 使用賽局理論計算每個特徵的公平貢獻量
- (C) 在特定預測點附近用簡單線性模型近似複雜模型,提供局部解釋
- (D) 只能用於決策樹等本身可解釋的模型
Q4. 「Model Card」這個概念的最核心特色是什麼?
- (A) 以圖卡形式展示 AI 模型的行銷資料
- (B) 記錄模型在不同子群體(如性別、種族)上的分層效能,揭示效能差異
- (C) 儲存模型的超參數設定,方便複製實驗
- (D) 提供 AI 模型的原始碼供公眾審查
Q5. 關於 AI 公平性定義的敘述,下列何者正確?
- (A) 人口統計均等、機會均等(含真陽性率與假陽性率均等)三者可以同時滿足
- (B) 個人公平(Individual Fairness)與群體公平(Group Fairness)在數學上完全等價
- (C) 公平性的定義是純粹的技術問題,有唯一正確答案
- (D) 不同公平性定義反映不同價值判斷,在一般情況下無法同時滿足
解答
| 題號 | 答案 | 解析 |
|---|---|---|
| Q1 | B | Amazon AI 的問題屬於「歷史資料偏見」——訓練資料來自過去 10 年以男性為主的錄取紀錄,AI 學習到並複製了這種歷史性別偏差,並非設計師主觀歧視。 |
| Q2 | B | 差異影響比 = 45% ÷ 60% = 0.75 = 75%,低於 80% 的法律門檻,因此可能構成差異影響。選項(A)中的 40% 是 60% × 80% 的最低要求,女性的 45% 雖然高於 40% 的絕對值,但比率計算是 45/60 而非與 40 比較。 |
| Q3 | C | LIME 的核心機制是在目標預測附近生成擾動樣本,用加權線性模型近似複雜模型的局部行為。它是模型無關(model-agnostic)的,(A)(D)錯誤;(B)描述的是 SHAP 的原理。 |
| Q4 | B | Model Card 最重要的創新是子群體效能分析(Disaggregated evaluation),強制要求呈現模型在不同人口群體上的效能差異,而非只報告整體平均準確率。 |
| Q5 | D | 這是 AI 公平性領域的核心命題(Chouldechova, 2017 的數學證明):在一般情況下(各群體的基礎發生率不同時),人口統計均等、真陽性率均等、假陽性率均等不可能同時滿足。公平性的選擇本質上是價值判斷而非技術問題。 |