AI 倫理議題：當 AI 做出不公平的決定，誰該負責？

Q: AI 倫理議題？當 AI 做出不公平的決定，誰該負責？

AI 偏見從哪來？公平性怎麼衡量？可解釋 AI（XAI）為什麼重要？問責機制怎麼建立？

學習目標

完成本篇後，你將能夠：

描述三個真實的 AI 偏見案例及其後果
區分五種偏見來源，並說明各自的成因
解釋三種公平性定義及其數學意涵
說明可解釋 AI（XAI）的主要方法（LIME、SHAP）
分析 AI 問責框架中各方的責任歸屬

核心內容

一、真實案例：當 AI 決定你的命運

生活比喻：AI 偏見就像一個從小在特定環境長大的法官，他的「直覺」其實反映了他成長過程中接觸的偏頗資訊，即使他相信自己客觀公正。

案例一：Amazon 履歷篩選 AI（2018）

發生了什麼事？

Amazon 自 2014 年起開發 AI 履歷篩選工具，目標是自動化招募流程。2018 年被揭露：系統對女性求職者系統性降分。

根本原因：訓練資料來自 Amazon 過去 10 年的錄取紀錄。由於科技業歷史上男性主導，訓練資料本身就偏向男性履歷。AI 學到「好的工程師履歷」= 男性特徵，例如「女子西洋棋社」這類關鍵字會被扣分。

結果：Amazon 於 2017 年停止使用該系統，但 2018 年才公開披露。

案例二：COMPAS 累犯預測系統（美國司法）

發生了什麼事？

COMPAS（Correctional Offender Management Profiling for Alternative Sanctions）是美國法院用於評估被告再犯風險的 AI 工具，直接影響假釋與量刑決定。

2016 年，ProPublica 調查發現：

黑人被告被錯誤標記為「高風險」的機率比白人高出近一倍
白人被告被錯誤標記為「低風險」（實際上再犯）的機率更高

根本原因：歷史刑事司法資料本身就反映了執法中對少數族裔的差別對待（如差別執法、差別起訴）。AI 學習了這些歷史模式。

爭議：開發商 Northpointe 主張他們的系統在各種族之間「整體準確率相當」，但 ProPublica 指出錯誤類型的分佈不均等，這正揭示了不同公平性定義之間的根本張力。

案例三：醫療保健資源分配演算法（2019）

發生了什麼事？

Science 期刊 2019 年研究揭露，美國醫院廣泛使用的一種商業健康風險預測演算法，系統性低估了黑人病患的醫療需求。

在同等健康狀況下，黑人病患獲得的風險分數比白人病患低，導致他們較少被轉介到高強度護理計畫。

根本原因：演算法使用「醫療費用支出」作為健康需求的代理變數（Proxy variable）。然而，黑人患者由於歷史上獲得的醫療資源較少，健康狀況相同時其醫療費用往往較低，這個代理變數本身就帶有種族差異。

二、偏見的來源：五種主要類型

1. 歷史資料偏見（Historical Data Bias）

訓練資料反映了過去社會的不平等與歧視。

例子：用過去 20 年的貸款資料訓練信用評分 AI，如果過去對少數族裔存在歧視性放貸，AI 會學到並延續這種歧視。

2. 代表性偏見（Representation Bias）

訓練資料中某些群體的樣本量不足，導致模型對這些群體的效能較差。

例子：臉部辨識系統主要用白人男性臉部資料訓練，對深膚色女性的辨識錯誤率顯著較高（MIT 媒體實驗室 Joy Buolamwini 的研究）。

3. 測量偏見（Measurement Bias）

用於標記資料的工具或方法本身存在系統性誤差。

例子：用「逮捕紀錄」作為犯罪行為的代理指標，但逮捕率本身就受到警力部署偏差的影響。

4. 聚合偏見（Aggregation Bias）

對不同群體使用同一個模型，但各群體的底層關係其實不同。

例子：糖尿病足部潰瘍的預測模型在整體族群中表現良好，但對不同族裔的效能差異顯著，因為相同症狀在不同族裔中可能有不同的生理機制。

5. 評估偏見（Evaluation Bias）

用不具代表性的測試資料集評估模型，導致高估了模型在某些群體上的效能。

例子：用以男性為主的測試集評估醫療 AI，看起來準確率很高，但在女性病患上效能大幅下降。

三、公平性的定義：為什麼沒有唯一答案

三種主要公平性定義

1. 人口統計均等（Demographic Parity / Statistical Parity）

不同群體獲得正面預測結果的比例應相同。

P(Ŷ=1 | 群體A) = P(Ŷ=1 | 群體B)

例子：AI 貸款審核系統批准男性的比率應等於批准女性的比率。

缺點：忽略了群體間可能存在的真實差異（例如信用分數本身的差異）。

2. 機會均等（Equalized Odds）

不同群體在「真正應獲得正面結果者」（真陽性率）和「不應獲得正面結果者」（假陽性率）上的比率應相同。

P(Ŷ=1 | Y=1, 群體A) = P(Ŷ=1 | Y=1, 群體B)  ← 真陽性率相等
P(Ŷ=1 | Y=0, 群體A) = P(Ŷ=1 | Y=0, 群體B)  ← 假陽性率相等

例子：在「實際上會還款的人」中，不同族裔獲批准的比率相同；在「實際上不會還款的人」中，不同族裔被拒絕的比率也相同。

3. 差異影響比（Disparate Impact Ratio）

美國就業法中常用的統計檢驗，又稱「80% 規則」：

受保護群體的正面結果比率 / 多數群體的正面結果比率 ≥ 0.8

若比值低於 0.8（即 80%），則可能構成法律上的差異影響（Disparate Impact）。

例子：若白人應聘者的錄取率為 50%，黑人應聘者的錄取率必須至少達到 40%（80% × 50%），否則可能涉及歧視。

公平性定義之間的根本張力

考試提示：這是 COMPAS 案例的核心爭議，研究已證明，人口統計均等、機會均等（含真陽性率與假陽性率均等）三者在一般情況下無法同時滿足（Chouldechova, 2017）。這意味著任何公平性定義的選擇，本質上都是一個價值判斷，而非純粹的技術問題。

公平性定義	強調的價值	適合情境
人口統計均等	結果平等（Equality of outcome）	確保各群體獲得資源的機會相同
機會均等	程序公平（Procedural fairness）	強調根據相關條件作出準確判斷
個人公平（Individual Fairness）	相似個體應被相似對待	強調個案判斷，而非群體統計

四、可解釋 AI（XAI）：打開黑盒子

為什麼需要可解釋性？

三大驅動力：

信任：使用者需要理解 AI 決策才能信任並正確使用系統
除錯：開發者需要理解模型行為才能發現並修正偏見
法規：EU AI Act、GDPR 的「解釋權」（Right to explanation）要求 AI 決策可被說明

生活比喻：你去銀行貸款被拒絕。如果銀行只告訴你「我們的 AI 說不行」，你無法申訴、無法改善，這剝奪了你的基本權利。XAI 就是要讓 AI 像一個好的銀行員，告訴你「因為你的負債比太高，建議先降低信用卡額度」。

XAI 的主要方法

1. LIME（Local Interpretable Model-agnostic Explanations）

原理：在特定預測點的附近，用一個簡單的線性模型（可解釋的替代模型）近似複雜模型的行為。

運作方式：

對想解釋的樣本，生成大量「附近的」擾動樣本（Perturbed samples）
用複雜模型對這些擾動樣本做預測
用加權線性迴歸擬合這些預測，離原始樣本越近的擾動樣本權重越高
線性模型的係數即為各特徵的「局部重要性」

特點：

模型無關（Model-agnostic）：適用於任何 AI 模型
局部解釋（Local explanation）：只解釋單一預測，不解釋整體模型
直覺易懂：以特徵重要性圖呈現

例子：為什麼這封郵件被判定為垃圾信？LIME 可能告訴你：「因為包含『限時優惠』和大量驚嘆號。」

2. SHAP（SHapley Additive exPlanations）

原理：基於賽局理論中的 Shapley 值（Shapley values），計算每個特徵對預測結果的「公平貢獻量」。

Shapley 值的概念：

想像所有特徵是一個「合作賽局」的玩家，Shapley 值衡量每個「玩家」在所有可能的特徵組合中，平均為最終預測帶來的邊際貢獻。

特點：

具有理論保證（公平性、一致性、虛無特徵公理）
可做全局解釋（Global explanation）：整合所有樣本的 SHAP 值
計算成本較高

視覺化工具：

SHAP 瀑布圖（Waterfall plot）：顯示單一預測中各特徵的貢獻
SHAP 蜂群圖（Beeswarm plot）：顯示所有樣本的特徵重要性分佈

3. 注意力視覺化（Attention Visualization）

適用於 Transformer 架構的模型，顯示模型在做決策時「注意」哪些輸入部分。

例子：醫療影像 AI 診斷時，熱力圖（Heatmap）顯示模型聚焦於影像的哪個區域做出診斷判斷。

4. 決策樹近似（Decision Tree Approximation）

用一棵簡單的決策樹來近似複雜模型的整體行為，讓人容易理解主要決策規則。

LIME vs SHAP 比較

面向	LIME	SHAP
理論基礎	局部線性近似	賽局理論 Shapley 值
解釋範疇	局部（單筆預測）	局部 + 全局
計算速度	較快	較慢（尤其是精確計算）
理論保證	較少	具數學公理保證
適用場景	快速局部解釋	需要嚴謹理論基礎的場景

五、模型卡（Model Card）：記錄模型的身份證

Model Card 是 Google 2019 年提出的模型文件標準，用於透明記錄 AI 模型在不同子群體（Subgroup）上的效能。

Model Card 的標準內容

欄位	內容
模型概覽	模型用途、架構、訓練資料摘要
預期使用情境	適合使用的場景與不適合的場景
評估結果	整體效能指標（準確率、F1 等）
子群體效能	按年齡、性別、種族等分層的效能差異
倫理考量	已知偏見、風險與緩解措施
使用限制	已知的局限性與潛在誤用方式

考試提示：Model Card 最重要的特色是子群體效能分析（Disaggregated evaluation），這讓使用者能看到模型在不同族群上是否有差異表現，而非只看整體平均數。

六、AI 問責框架：誰該負責？

當 AI 系統造成傷害，責任該如何分配？

三個主要責任主體

1. 開發者（Developer）

確保訓練資料品質與代表性
選擇適當的公平性指標並監控
提供充分的技術文件與 Model Card
在合理使用範圍內確保模型安全

2. 部署者（Deployer / Operator）

確認 AI 系統適用於特定使用情境
建立人為監督機制（Human-in-the-loop）
維護使用者申訴管道
定期監控系統在真實環境中的效能

3. 使用者（User）

正確使用 AI 系統（依照設計目的）
不過度依賴 AI 決策而放棄判斷
回報異常或有問題的結果

責任歸屬的複雜性

生活比喻：GPS 導航帶你走進了一條禁止通行的道路，責任在 GPS 廠商（更新不及時）、地圖資料提供商（資料有誤）、還是你（沒有注意路標）？AI 問責往往也是這種多方責任的複雜判斷。

責任鏈的模糊地帶：

AI 系統由多個組件組成（資料、模型、介面），每個由不同方負責
「黑盒子」問題讓責任追溯困難
跨境部署時，適用哪國法律存在爭議

AI 倫理委員會（AI Ethics Committee）

越來越多企業設立 AI 倫理委員會，負責：

審查高風險 AI 應用的倫理影響
制定公司內部 AI 使用準則
處理員工或外部利害關係人的倫理疑慮
追蹤新興法規並確保合規

七、國際 AI 倫理框架比較

框架	發布機構	年份	核心原則
OECD AI 原則	OECD	2019	包容性增長、人本價值、透明度、穩健安全、問責
UNESCO AI 倫理建議書	UNESCO	2021	人權、環境永續、多元文化、性別平等
IEEE 倫理設計標準	IEEE	2019	人類福祉、資料自主、問責、透明度、不傷害
EU 可信任 AI 倫理指引	EU HLEG	2019	7 項關鍵要求（下表）
NIST AI RMF	NIST（美國）	2023	治理、映射、測量、管理四大功能

EU 可信任 AI 的 7 項關鍵要求

#	要求	英文
1	人類自主與監督	Human Agency and Oversight
2	技術穩健性與安全	Technical Robustness and Safety
3	隱私與資料治理	Privacy and Data Governance
4	透明度	Transparency
5	多元、非歧視與公平	Diversity, Non-discrimination and Fairness
6	社會與環境福祉	Societal and Environmental Well-being
7	問責制	Accountability

考試提示：OECD AI 原則是第一個由政府層級採用的多邊 AI 倫理框架（42 個國家簽署），常作為各國 AI 政策的基礎。EU 倫理指引與 OECD 原則高度一致，但 EU 指引屬於軟法（非強制），真正有法律效力的是 AI Act。

名詞對照

中文	English
AI 偏見	AI Bias
歷史資料偏見	Historical Data Bias
代表性偏見	Representation Bias
測量偏見	Measurement Bias
聚合偏見	Aggregation Bias
評估偏見	Evaluation Bias
人口統計均等	Demographic Parity / Statistical Parity
機會均等	Equalized Odds
差異影響比	Disparate Impact Ratio
個人公平	Individual Fairness
可解釋 AI	Explainable AI (XAI)
局部可解釋模型無關解釋	LIME (Local Interpretable Model-agnostic Explanations)
Shapley 加性解釋	SHAP (SHapley Additive exPlanations)
注意力視覺化	Attention Visualization
模型卡	Model Card
子群體效能	Disaggregated Evaluation
AI 問責	AI Accountability
人機協作	Human-in-the-loop
AI 倫理委員會	AI Ethics Committee
代理變數	Proxy Variable

考試重點

必考知識點整理

三大真實案例：Amazon 履歷 AI（性別偏見）、COMPAS（種族偏見）、醫療資源演算法（代理變數偏見）
五種偏見來源：歷史資料、代表性、測量、聚合、評估
80% 規則（差異影響比）：保護群體的正面結果比率需 ≥ 多數群體的 80%
公平性定義無法同時滿足：人口統計均等、真陽性率均等、假陽性率均等三者之間存在數學上的不可能同時成立
LIME vs SHAP：LIME = 局部線性近似；SHAP = 賽局理論 Shapley 值，具全局解釋能力
Model Card 的核心特色：子群體效能分析（Disaggregated evaluation）
三個問責主體：開發者（資料與模型）、部署者（情境適用與監督）、使用者（正確使用）
OECD AI 原則：最早的多邊政府層級 AI 倫理框架，42 國簽署

Q1. 2018 年 Amazon 履歷篩選 AI 被發現對女性求職者系統性降分，其主要原因是什麼？

(A) 演算法設計師刻意歧視女性
(B) 訓練資料來自歷史上男性主導的錄取紀錄，導致歷史資料偏見
(C) 女性求職者的履歷品質普遍較低
(D) 系統將女性相關詞彙誤判為垃圾資料

Q2. 某 AI 貸款審核系統對男性申請者的批准率為 60%，對女性申請者的批准率為 45%。根據「差異影響比（80% 規則）」，此系統是否可能構成差異影響？

(A) 否，因為 45% 仍高於 40%
(B) 是，因為 45%/60% = 75%，低於 80% 門檻
(C) 否，差異影響比只適用於種族差異，不適用於性別
(D) 無法判斷，需要更多資料

Q3. LIME（局部可解釋模型無關解釋）的主要特點是什麼？

(A) 能夠修改 AI 模型的內部參數以提升可解釋性
(B) 使用賽局理論計算每個特徵的公平貢獻量
(C) 在特定預測點附近用簡單線性模型近似複雜模型，提供局部解釋
(D) 只能用於決策樹等本身可解釋的模型

Q4. 「Model Card」這個概念的最核心特色是什麼？

(A) 以圖卡形式展示 AI 模型的行銷資料
(B) 記錄模型在不同子群體（如性別、種族）上的分層效能，揭示效能差異
(C) 儲存模型的超參數設定，方便複製實驗
(D) 提供 AI 模型的原始碼供公眾審查

Q5. 關於 AI 公平性定義的敘述，下列何者正確？

(A) 人口統計均等、機會均等（含真陽性率與假陽性率均等）三者可以同時滿足
(B) 個人公平（Individual Fairness）與群體公平（Group Fairness）在數學上完全等價
(C) 公平性的定義是純粹的技術問題，有唯一正確答案
(D) 不同公平性定義反映不同價值判斷，在一般情況下無法同時滿足

解答

題號	答案	解析
Q1	B	Amazon AI 的問題屬於「歷史資料偏見」，訓練資料來自過去 10 年以男性為主的錄取紀錄，AI 學習到並複製了這種歷史性別偏差，並非設計師主觀歧視。
Q2	B	差異影響比 = 45% ÷ 60% = 0.75 = 75%，低於 80% 的法律門檻，因此可能構成差異影響。選項(A)中的 40% 是 60% × 80% 的最低要求，女性的 45% 雖然高於 40% 的絕對值，但比率計算是 45/60 而非與 40 比較。
Q3	C	LIME 的核心機制是在目標預測附近生成擾動樣本，用加權線性模型近似複雜模型的局部行為。它是模型無關（model-agnostic）的，(A)(D)錯誤；(B)描述的是 SHAP 的原理。
Q4	B	Model Card 最重要的創新是子群體效能分析（Disaggregated evaluation），強制要求呈現模型在不同人口群體上的效能差異，而非只報告整體平均準確率。
Q5	D	這是 AI 公平性領域的核心命題（Chouldechova, 2017 的數學證明）：在一般情況下（各群體的基礎發生率不同時），人口統計均等、真陽性率均等、假陽性率均等不可能同時滿足。公平性的選擇本質上是價值判斷而非技術問題。