一、學習目標
讀完本文,你將能夠:
- 區分「資料隱私 (Data Privacy)」與「資料安全 (Data Security)」的概念與範疇
- 說明 AI 系統面臨的四大主要風險,並舉出真實案例
- 解釋差分隱私 (Differential Privacy)、聯邦學習 (Federated Learning) 等技術保護手段的原理
- 掌握 GDPR、EU AI Act、台灣《個資法》等重要法規的核心要求
- 描述企業落實資料隱私保護的最佳實踐流程
二、核心內容
2.1 資料隱私 vs. 資料安全:傻傻分不清楚?
想像你家有一棟房子:
- 資料安全 (Data Security) 是「鎖門、裝警報器」——防止壞人闖入偷走東西。
- 資料隱私 (Data Privacy) 是「窗簾要拉好、信件要封好」——就算門沒被撬開,也不讓外人看光光。
兩者缺一不可,但概念完全不同。
| 面向 | 資料隱私 (Data Privacy) | 資料安全 (Data Security) |
|---|---|---|
| 核心問題 | 資料「該不該」被用?怎麼用? | 資料「有沒有」被保護好? |
| 關注對象 | 個人識別資訊 (PII)、使用者控制權 | 系統存取、模型竊取、資料完整性 |
| 主要手段 | 最小化蒐集、去識別化、告知同意 | 加密、存取控制、入侵偵測 |
| 相關法規 | GDPR、台灣個資法 | ISO 27001、資安法 |
| 違反代價 | 信任崩潰、法律罰款 | 資料外洩、系統癱瘓 |
資料隱私的三大原則:
- 個人識別資訊 (PII, Personally Identifiable Information) 保護:姓名、身分證號、地址、生物特徵等能識別特定個人的資料,需特別保護。
- 資料最小化 (Data Minimization):只蒐集完成任務所必需的資料,不多拿。就像醫生問診只問病情相關問題,不問你存款有多少。
- 使用者控制權 (User Control):使用者有權知道、更正、刪除自己的資料。
考試重點:PII (Personally Identifiable Information) 是指可直接或間接識別特定自然人的任何資訊。資料最小化原則是 GDPR 的核心要求之一。
2.2 AI 系統的四大主要風險
風險一:資料外洩 (Data Breach)
真實案例:2021 年 Facebook 資料外洩事件,5.33 億筆用戶資料(電話號碼、姓名、生日等)被公開在駭客論壇上。這些資料原本是透過 Facebook 的「找朋友」功能被大量爬取的。
就像餐廳的客戶名單被員工偷走,一次洩漏影響所有人。AI 訓練資料集若被竊,可能讓攻擊者:
- 重建用戶個資
- 進行精準詐騙
- 侵害隱私
風險二:演算法偏見 (Algorithmic Bias)
真實案例:2018 年 Amazon 招募 AI 事件——Amazon 開發的 AI 履歷篩選系統,因訓練資料以過去十年的男性工程師履歷為主,導致系統系統性地歧視女性應徵者,最終被迫廢棄。
就像一個只看過男性廚師照片的 AI,被問「廚師長什麼樣子」時,只會想到男性。訓練資料的偏見會直接複製進模型。
風險三:對抗攻擊 (Adversarial Attacks)
真實案例:研究人員對特斯拉 (Tesla) 的自動駕駛系統進行測試,在停車標誌 (Stop Sign) 上貼幾張小小的貼紙(人眼幾乎看不出差異),AI 卻誤判為「限速 45 英里」標誌。
這就像在考卷上偷偷改一個小數點,讓 AI「看走眼」。對抗性樣本 (Adversarial Examples) 是刻意設計來欺騙 AI 的輸入。
風險四:監控與濫用 (Surveillance & Misuse)
真實案例:Cambridge Analytica 醜聞 (2018)——這家公司未經授權取得了 8,700 萬名 Facebook 用戶的個人資料,用於建立心理側寫模型,精準投放政治廣告,影響選舉結果。
就像有人偷看你的日記,不只是侵犯隱私,還能用來操控你的行為。
考試重點:四大風險要能各舉一個真實案例。Cambridge Analytica 事件直接推動了 GDPR 的執法力道。
2.3 技術保護手段
手段一:資料匿名化與去識別化 (Data Anonymization & De-identification)
就像把身分證上的名字塗掉,只留下年齡和地區:
原始資料:王小明, 25歲, 台北市, 糖尿病
去識別化:[已移除], 25歲, 北部, 慢性病
匿名化: 20-30歲, 北部, 慢性病
常見技術:
- 資料遮蔽 (Data Masking):用
***遮蔽部分欄位 - 資料泛化 (Generalization):「25 歲」→「20-30 歲」
- 假名化 (Pseudonymization):用代號取代真實姓名,保留一份對照表(GDPR 允許此做法但仍有限制)
手段二:差分隱私 (Differential Privacy)
想像你在做一份班級問卷,問「你有沒有翹過課?」為了讓大家誠實作答,你設計了一個規則:每個人先偷偷丟一枚硬幣,正面就「如實回答」,反面就「隨機亂填」。
這樣一來,個人答案無從確認,但統計結果仍然有意義。這就是差分隱私的精神——在資料中加入精心設計的雜訊 (Noise),使得無法從結果推斷出任何個人的資料。
數學定義:若一個演算法 M 滿足對任意兩個只差一筆記錄的資料集 D 和 D’,以及任何輸出集合 S,都有:
Pr[M(D) ∈ S] ≤ e^ε × Pr[M(D') ∈ S]
其中 ε (epsilon) 稱為「隱私預算」,越小代表隱私保護越強。
真實應用:
- Apple 用差分隱私收集用戶的鍵盤輸入習慣和 emoji 使用頻率,在不知道個人行為的前提下改善輸入法
- Google 用於 Chrome 瀏覽器的使用統計收集
考試重點:差分隱私透過加入雜訊保護個人資料,ε 越小保護越強。Apple 和 Google 都已在產品中實際部署。
手段三:聯邦學習 (Federated Learning)
傳統 AI 訓練就像「所有學生把考卷寄到學校,老師在學校批改」——資料都集中到中央伺服器。
聯邦學習則像「老師把題目發到各家,學生在家練習,只把『我學到了什麼』回傳給老師」——資料不離開設備,只傳回模型更新 (Model Updates)。
傳統訓練:
設備A ──資料──→ 中央伺服器
設備B ──資料──→ 中央伺服器 ──訓練──→ 模型
設備C ──資料──→ 中央伺服器
聯邦學習:
設備A:本地訓練 ──梯度更新──→
設備B:本地訓練 ──梯度更新──→ 聚合伺服器 ──更新模型──→ 各設備
設備C:本地訓練 ──梯度更新──→
真實應用:Google Gboard 輸入法——手機上的輸入預測模型直接在你的手機訓練,Google 只收到模型參數的更新,看不到你打了什麼字。
優點:原始資料不離開設備、符合資料在地化要求 缺點:通訊成本高、可能受到梯度攻擊 (Gradient Inversion Attack)
手段四:對抗性防禦 (Adversarial Defense)
面對對抗攻擊,主要有兩種防禦策略:
| 防禦方法 | 概念比喻 | 做法 |
|---|---|---|
| 對抗訓練 (Adversarial Training) | 「以毒攻毒」——讓模型看過各種被干擾的樣本 | 在訓練集中加入對抗性樣本,讓模型學會辨識 |
| 防禦蒸餾 (Defensive Distillation) | 「模糊化答案」——讓輸出變得不那麼「確定」 | 用軟性機率輸出訓練第二個模型,降低梯度敏感度 |
考試重點:對抗訓練是目前最常用的防禦手段,但會增加訓練成本;聯邦學習主要解決資料隱私問題,不直接防禦對抗攻擊。
2.4 相關法規與治理框架
GDPR(歐盟一般資料保護規則,2018 年生效)
GDPR 就像歐盟幫每個人制定的「個資憲法」,核心要求:
| GDPR 核心原則 | 實際意義 |
|---|---|
| 告知後同意 (Informed Consent) | 必須用清楚語言說明蒐集目的,不能用冗長條款埋藏 |
| 被遺忘權 (Right to be Forgotten) | 使用者可要求刪除所有個人資料 |
| 資料可攜權 (Data Portability) | 使用者可索取自己的資料並帶走 |
| 隱私設計 (Privacy by Design) | 系統設計之初就需考慮隱私保護,而非事後補救 |
| 資料保護官 (DPO) | 大型組織須指派專責人員 |
違規罰款:最高可罰全球年營業額的 4% 或 2,000 萬歐元(取較高者)。
EU AI Act(歐盟人工智慧法,2024 年通過)
EU AI Act 是全球第一部全面性 AI 監管法規,採用「風險分級」管理:
禁止使用 (Unacceptable Risk)
├── 社會信用評分系統
├── 即時生物特徵辨識(公共場所)
└── 操控人類行為的潛意識技術
高風險 (High Risk) ── 需嚴格合規
├── AI 用於關鍵基礎設施
├── 招募/人資決策 AI
├── 信用評分 AI
└── 醫療診斷 AI
有限風險 (Limited Risk) ── 需透明度
├── 聊天機器人 (需告知使用者是 AI)
└── Deepfake 內容 (需標示)
最低風險 (Minimal Risk)
└── 垃圾郵件過濾、AI 遊戲等
高風險 AI 的核心要求:
- 必須建立風險管理系統
- 訓練資料需具代表性,避免偏見
- 需有人類監督 (Human Oversight) 機制
- 必須保留系統日誌供稽核
台灣法規
| 法規 | 現狀 | 重點 |
|---|---|---|
| 個人資料保護法 (個資法) | 現行有效 | 蒐集、處理、利用個人資料需有法定依據;違規最高罰 2,000 萬新台幣 |
| AI 基本法草案 | 草案審議中 | 確立 AI 發展原則、人本精神;仿照 EU AI Act 架構規劃 |
| 資通安全管理法 | 現行有效 | 政府機關及特定事業的資安義務 |
美國 AI 政策:沒有統一的聯邦 AI 法,但有:
- 2023 年拜登政府 AI 行政命令:要求大型 AI 模型進行安全測試報告
- NIST AI 風險管理框架 (AI RMF):自願性標準,提供企業 AI 風險管理指引
考試重點:EU AI Act 是全球第一部全面性 AI 法規,採風險分級制。GDPR 的「被遺忘權」和「資料最小化」是最常考的重點。台灣目前個資保護主要依賴《個資法》,AI 基本法仍在草案階段。
2.5 企業最佳實踐
就像醫院有嚴格的病歷管理制度,有責任的 AI 企業應建立:
-
資料最小化政策 (Data Minimization Policy):定期稽核資料蒐集項目,刪除不必要資料。問自己:「這筆資料,真的非要不可嗎?」
-
存取控制 (Access Control):採用最小權限原則 (Principle of Least Privilege)——只給員工做工作所需的最低限度存取權。資料科學家不需要看到用戶真實姓名,給他們去識別化版本即可。
-
隱私衝擊評估 (PIA, Privacy Impact Assessment):在推出新功能或蒐集新資料前,系統性評估對個人隱私的潛在影響。
-
資料稽核 (Data Audit):定期清查組織內的資料流:從哪裡來?誰可以看?存多久?
-
違規通報機制:GDPR 要求在資料外洩後 72 小時內向主管機關通報。
三、關鍵名詞中英對照
| 中文 | 英文 | 說明 |
|---|---|---|
| 個人識別資訊 | PII (Personally Identifiable Information) | 可識別特定個人的資料 |
| 資料隱私 | Data Privacy | 規範資料應如何被蒐集與使用 |
| 資料安全 | Data Security | 防止資料被未授權存取或破壞 |
| 資料外洩 | Data Breach | 資料被未授權方取得 |
| 演算法偏見 | Algorithmic Bias | 模型輸出系統性地歧視特定群體 |
| 對抗攻擊 | Adversarial Attack | 刻意設計以欺騙 AI 的輸入 |
| 對抗性樣本 | Adversarial Examples | 細微擾動卻能誤導模型的輸入資料 |
| 資料匿名化 | Data Anonymization | 移除或修改資料使個人無法被識別 |
| 假名化 | Pseudonymization | 以代號取代真實識別資訊 |
| 差分隱私 | Differential Privacy | 加入雜訊使個別資料無法被推斷 |
| 隱私預算 | Privacy Budget (ε) | 差分隱私的保護強度參數 |
| 聯邦學習 | Federated Learning | 資料不離開設備的分散式訓練方式 |
| 對抗訓練 | Adversarial Training | 用對抗性樣本訓練模型以提升魯棒性 |
| 防禦蒸餾 | Defensive Distillation | 用軟性輸出訓練模型降低梯度敏感度 |
| 被遺忘權 | Right to be Forgotten | 要求刪除個人資料的權利 |
| 隱私設計 | Privacy by Design | 在系統設計初期就納入隱私保護 |
| 最小權限原則 | Principle of Least Privilege | 只授予完成任務所需的最低權限 |
| 隱私衝擊評估 | PIA (Privacy Impact Assessment) | 評估新專案對隱私影響的系統性流程 |
四、考試重點提示
考試重點:以下是 iPAS AI 證照考試中本章節最常出現的考點,請務必熟記。
-
差分隱私的核心機制:透過加入雜訊保護個人資料;ε 越小,保護越強,但資料效用也越低。Apple 用於鍵盤統計,Google 用於 Chrome 使用資料。
-
聯邦學習 vs. 傳統集中式訓練:聯邦學習的關鍵是「模型去找資料」而非「資料來找模型」——只傳模型梯度/參數,原始資料不離開設備。Google Gboard 是最著名案例。
-
四大 AI 風險案例配對:
- 資料外洩 → Facebook 5.33 億用戶 (2021)
- 演算法偏見 → Amazon 招募 AI (2018)
- 對抗攻擊 → Tesla Stop Sign 貼紙實驗
- 監控濫用 → Cambridge Analytica (2018)
-
GDPR 核心要求:告知後同意、被遺忘權、資料可攜權、72 小時通報義務、最高罰款全球營業額 4%。
-
EU AI Act 風險分級:禁止(社會信用評分)→ 高風險(招募 AI、醫療 AI)→ 有限風險(聊天機器人需揭露)→ 最低風險。
-
隱私設計 (Privacy by Design):是「事先設計」而非「事後補救」,為 GDPR 明確要求。
第 1 題:下列哪項技術,能在「不將原始資料傳送至伺服器」的前提下完成 AI 模型訓練?
A. 差分隱私 (Differential Privacy) B. 聯邦學習 (Federated Learning) C. 資料匿名化 (Data Anonymization) D. 對抗訓練 (Adversarial Training)
第 2 題:Amazon 在 2018 年 廢棄的招募 AI 系統,主要是因為發生了什麼問題?
A. 系統遭到駭客入侵,候選人資料外洩 B. 系統因訓練資料偏差,系統性地歧視女性應徵者 C. 系統被研究人員用對抗性樣本欺騙,錯誤錄取不合格人選 D. 系統違反了 GDPR 的告知後同意規定
第 3 題:差分隱私 (Differential Privacy) 中的「隱私預算 ε (epsilon)」,下列敘述何者正確?
A. ε 值越大,代表隱私保護越強 B. ε 值越小,代表隱私保護越強,但資料的統計效用可能降低 C. ε 值與隱私保護強度無關,只影響計算速度 D. ε 值固定為 1,不可調整
第 4 題:根據 EU AI Act,下列哪種 AI 應用屬於「禁止使用 (Unacceptable Risk)」類別?
A. 用於電商網站的商品推薦系統 B. 醫院使用的 X 光影像輔助診斷系統 C. 政府在公共場所即時部署的生物特徵辨識系統 D. 銀行使用的信用風險評估系統
第 5 題:Tesla 自動駕駛系統被貼幾張小貼紙就誤判「停車標誌」為「限速標誌」,這屬於哪種 AI 安全威脅?
A. 資料外洩 (Data Breach) B. 模型竊取 (Model Stealing) C. 對抗攻擊 (Adversarial Attack) D. 資料投毒 (Data Poisoning)
解答與解析
| 題號 | 答案 | 解析 |
|---|---|---|
| 1 | B | 聯邦學習 (Federated Learning) 的核心特點是原始資料留在設備端,只將模型更新(梯度)傳回伺服器。差分隱私是加雜訊保護輸出,資料匿名化是修改資料本身,對抗訓練是防禦對抗攻擊的方法,三者都不解決「資料不離開設備」的問題。 |
| 2 | B | Amazon 招募 AI 的問題是典型的演算法偏見 (Algorithmic Bias)——訓練資料以過去十年的男性工程師履歷為主,導致模型學到「男性 = 較好的工程師」的偏見,系統性降低女性履歷的評分。這不是駭客入侵、對抗攻擊或 GDPR 問題。 |
| 3 | B | ε 是差分隱私的隱私預算,代表允許的最大「隱私洩漏量」。ε 越小,加入的雜訊越多,個人資料越難被推斷(保護越強),但資料的統計準確性也會下降(效用降低)。這是隱私與效用之間的根本取捨。 |
| 4 | C | EU AI Act 明確將「即時遠端生物特徵辨識系統」(如公共場所的人臉辨識)列為禁止使用類別,因為對人民隱私和自由的威脅太大。商品推薦屬最低風險,醫療診斷屬高風險(允許但有嚴格要求),信用評分也屬高風險類別。 |
| 5 | C | 對抗攻擊 (Adversarial Attack) 是指透過精心設計的輸入擾動(人眼難以察覺),讓 AI 模型做出錯誤判斷。資料外洩是資料被竊取;模型竊取是複製模型功能;資料投毒是在訓練階段汙染資料。Tesla 案例中的「貼紙」是推論階段的對抗性輸入,屬於對抗攻擊。 |