ANGELA JIAN
LOADING
回到課程總覽
第 8 篇 L11203 資料處理與分析

資料隱私與安全:AI 時代的個資保護攻防戰

Angela Jian
Angela Jian 簡琬庭
iPAS AI 應用規劃師 / AI Product Builder

一、學習目標

讀完本文,你將能夠:

  1. 區分「資料隱私 (Data Privacy)」與「資料安全 (Data Security)」的概念與範疇
  2. 說明 AI 系統面臨的四大主要風險,並舉出真實案例
  3. 解釋差分隱私 (Differential Privacy)、聯邦學習 (Federated Learning) 等技術保護手段的原理
  4. 掌握 GDPR、EU AI Act、台灣《個資法》等重要法規的核心要求
  5. 描述企業落實資料隱私保護的最佳實踐流程

二、核心內容

2.1 資料隱私 vs. 資料安全:傻傻分不清楚?

想像你家有一棟房子:

  • 資料安全 (Data Security) 是「鎖門、裝警報器」——防止壞人闖入偷走東西。
  • 資料隱私 (Data Privacy) 是「窗簾要拉好、信件要封好」——就算門沒被撬開,也不讓外人看光光。

兩者缺一不可,但概念完全不同。

面向資料隱私 (Data Privacy)資料安全 (Data Security)
核心問題資料「該不該」被用?怎麼用?資料「有沒有」被保護好?
關注對象個人識別資訊 (PII)、使用者控制權系統存取、模型竊取、資料完整性
主要手段最小化蒐集、去識別化、告知同意加密、存取控制、入侵偵測
相關法規GDPR、台灣個資法ISO 27001、資安法
違反代價信任崩潰、法律罰款資料外洩、系統癱瘓

資料隱私的三大原則

  1. 個人識別資訊 (PII, Personally Identifiable Information) 保護:姓名、身分證號、地址、生物特徵等能識別特定個人的資料,需特別保護。
  2. 資料最小化 (Data Minimization):只蒐集完成任務所必需的資料,不多拿。就像醫生問診只問病情相關問題,不問你存款有多少。
  3. 使用者控制權 (User Control):使用者有權知道、更正、刪除自己的資料。

考試重點:PII (Personally Identifiable Information) 是指可直接或間接識別特定自然人的任何資訊。資料最小化原則是 GDPR 的核心要求之一。


2.2 AI 系統的四大主要風險

風險一:資料外洩 (Data Breach)

真實案例2021 年 Facebook 資料外洩事件5.33 億筆用戶資料(電話號碼、姓名、生日等)被公開在駭客論壇上。這些資料原本是透過 Facebook 的「找朋友」功能被大量爬取的。

就像餐廳的客戶名單被員工偷走,一次洩漏影響所有人。AI 訓練資料集若被竊,可能讓攻擊者:

  • 重建用戶個資
  • 進行精準詐騙
  • 侵害隱私

風險二:演算法偏見 (Algorithmic Bias)

真實案例2018 年 Amazon 招募 AI 事件——Amazon 開發的 AI 履歷篩選系統,因訓練資料以過去十年的男性工程師履歷為主,導致系統系統性地歧視女性應徵者,最終被迫廢棄。

就像一個只看過男性廚師照片的 AI,被問「廚師長什麼樣子」時,只會想到男性。訓練資料的偏見會直接複製進模型。

風險三:對抗攻擊 (Adversarial Attacks)

真實案例:研究人員對特斯拉 (Tesla) 的自動駕駛系統進行測試,在停車標誌 (Stop Sign) 上貼幾張小小的貼紙(人眼幾乎看不出差異),AI 卻誤判為「限速 45 英里」標誌。

這就像在考卷上偷偷改一個小數點,讓 AI「看走眼」。對抗性樣本 (Adversarial Examples) 是刻意設計來欺騙 AI 的輸入。

風險四:監控與濫用 (Surveillance & Misuse)

真實案例Cambridge Analytica 醜聞 (2018)——這家公司未經授權取得了 8,700 萬名 Facebook 用戶的個人資料,用於建立心理側寫模型,精準投放政治廣告,影響選舉結果。

就像有人偷看你的日記,不只是侵犯隱私,還能用來操控你的行為。

考試重點:四大風險要能各舉一個真實案例。Cambridge Analytica 事件直接推動了 GDPR 的執法力道。


2.3 技術保護手段

手段一:資料匿名化與去識別化 (Data Anonymization & De-identification)

就像把身分證上的名字塗掉,只留下年齡和地區:

原始資料:王小明, 25歲, 台北市, 糖尿病
去識別化:[已移除], 25歲, 北部, 慢性病
匿名化:  20-30歲, 北部, 慢性病

常見技術:

  • 資料遮蔽 (Data Masking):用 *** 遮蔽部分欄位
  • 資料泛化 (Generalization):「25 歲」→「20-30 歲」
  • 假名化 (Pseudonymization):用代號取代真實姓名,保留一份對照表(GDPR 允許此做法但仍有限制)

手段二:差分隱私 (Differential Privacy)

想像你在做一份班級問卷,問「你有沒有翹過課?」為了讓大家誠實作答,你設計了一個規則:每個人先偷偷丟一枚硬幣,正面就「如實回答」,反面就「隨機亂填」。

這樣一來,個人答案無從確認,但統計結果仍然有意義。這就是差分隱私的精神——在資料中加入精心設計的雜訊 (Noise),使得無法從結果推斷出任何個人的資料。

數學定義:若一個演算法 M 滿足對任意兩個只差一筆記錄的資料集 D 和 D’,以及任何輸出集合 S,都有:

Pr[M(D) ∈ S] ≤ e^ε × Pr[M(D') ∈ S]

其中 ε (epsilon) 稱為「隱私預算」,越小代表隱私保護越強。

真實應用

  • Apple 用差分隱私收集用戶的鍵盤輸入習慣和 emoji 使用頻率,在不知道個人行為的前提下改善輸入法
  • Google 用於 Chrome 瀏覽器的使用統計收集

考試重點:差分隱私透過加入雜訊保護個人資料,ε 越小保護越強。Apple 和 Google 都已在產品中實際部署。

手段三:聯邦學習 (Federated Learning)

傳統 AI 訓練就像「所有學生把考卷寄到學校,老師在學校批改」——資料都集中到中央伺服器。

聯邦學習則像「老師把題目發到各家,學生在家練習,只把『我學到了什麼』回傳給老師」——資料不離開設備,只傳回模型更新 (Model Updates)

傳統訓練:
  設備A ──資料──→ 中央伺服器
  設備B ──資料──→ 中央伺服器  ──訓練──→ 模型
  設備C ──資料──→ 中央伺服器

聯邦學習:
  設備A:本地訓練 ──梯度更新──→
  設備B:本地訓練 ──梯度更新──→ 聚合伺服器 ──更新模型──→ 各設備
  設備C:本地訓練 ──梯度更新──→

真實應用Google Gboard 輸入法——手機上的輸入預測模型直接在你的手機訓練,Google 只收到模型參數的更新,看不到你打了什麼字。

優點:原始資料不離開設備、符合資料在地化要求 缺點:通訊成本高、可能受到梯度攻擊 (Gradient Inversion Attack)

手段四:對抗性防禦 (Adversarial Defense)

面對對抗攻擊,主要有兩種防禦策略:

防禦方法概念比喻做法
對抗訓練 (Adversarial Training)「以毒攻毒」——讓模型看過各種被干擾的樣本在訓練集中加入對抗性樣本,讓模型學會辨識
防禦蒸餾 (Defensive Distillation)「模糊化答案」——讓輸出變得不那麼「確定」用軟性機率輸出訓練第二個模型,降低梯度敏感度

考試重點:對抗訓練是目前最常用的防禦手段,但會增加訓練成本;聯邦學習主要解決資料隱私問題,不直接防禦對抗攻擊。


2.4 相關法規與治理框架

GDPR(歐盟一般資料保護規則,2018 年生效)

GDPR 就像歐盟幫每個人制定的「個資憲法」,核心要求:

GDPR 核心原則實際意義
告知後同意 (Informed Consent)必須用清楚語言說明蒐集目的,不能用冗長條款埋藏
被遺忘權 (Right to be Forgotten)使用者可要求刪除所有個人資料
資料可攜權 (Data Portability)使用者可索取自己的資料並帶走
隱私設計 (Privacy by Design)系統設計之初就需考慮隱私保護,而非事後補救
資料保護官 (DPO)大型組織須指派專責人員

違規罰款:最高可罰全球年營業額的 4%2,000 萬歐元(取較高者)。

EU AI Act(歐盟人工智慧法,2024 年通過)

EU AI Act 是全球第一部全面性 AI 監管法規,採用「風險分級」管理:

禁止使用 (Unacceptable Risk)
├── 社會信用評分系統
├── 即時生物特徵辨識(公共場所)
└── 操控人類行為的潛意識技術

高風險 (High Risk) ── 需嚴格合規
├── AI 用於關鍵基礎設施
├── 招募/人資決策 AI
├── 信用評分 AI
└── 醫療診斷 AI

有限風險 (Limited Risk) ── 需透明度
├── 聊天機器人 (需告知使用者是 AI)
└── Deepfake 內容 (需標示)

最低風險 (Minimal Risk)
└── 垃圾郵件過濾、AI 遊戲等

高風險 AI 的核心要求

  1. 必須建立風險管理系統
  2. 訓練資料需具代表性,避免偏見
  3. 需有人類監督 (Human Oversight) 機制
  4. 必須保留系統日誌供稽核

台灣法規

法規現狀重點
個人資料保護法 (個資法)現行有效蒐集、處理、利用個人資料需有法定依據;違規最高罰 2,000 萬新台幣
AI 基本法草案草案審議中確立 AI 發展原則、人本精神;仿照 EU AI Act 架構規劃
資通安全管理法現行有效政府機關及特定事業的資安義務

美國 AI 政策:沒有統一的聯邦 AI 法,但有:

  • 2023 年拜登政府 AI 行政命令:要求大型 AI 模型進行安全測試報告
  • NIST AI 風險管理框架 (AI RMF):自願性標準,提供企業 AI 風險管理指引

考試重點:EU AI Act 是全球第一部全面性 AI 法規,採風險分級制。GDPR 的「被遺忘權」和「資料最小化」是最常考的重點。台灣目前個資保護主要依賴《個資法》,AI 基本法仍在草案階段。


2.5 企業最佳實踐

就像醫院有嚴格的病歷管理制度,有責任的 AI 企業應建立:

  1. 資料最小化政策 (Data Minimization Policy):定期稽核資料蒐集項目,刪除不必要資料。問自己:「這筆資料,真的非要不可嗎?」

  2. 存取控制 (Access Control):採用最小權限原則 (Principle of Least Privilege)——只給員工做工作所需的最低限度存取權。資料科學家不需要看到用戶真實姓名,給他們去識別化版本即可。

  3. 隱私衝擊評估 (PIA, Privacy Impact Assessment):在推出新功能或蒐集新資料前,系統性評估對個人隱私的潛在影響。

  4. 資料稽核 (Data Audit):定期清查組織內的資料流:從哪裡來?誰可以看?存多久?

  5. 違規通報機制:GDPR 要求在資料外洩後 72 小時內向主管機關通報。


三、關鍵名詞中英對照

中文英文說明
個人識別資訊PII (Personally Identifiable Information)可識別特定個人的資料
資料隱私Data Privacy規範資料應如何被蒐集與使用
資料安全Data Security防止資料被未授權存取或破壞
資料外洩Data Breach資料被未授權方取得
演算法偏見Algorithmic Bias模型輸出系統性地歧視特定群體
對抗攻擊Adversarial Attack刻意設計以欺騙 AI 的輸入
對抗性樣本Adversarial Examples細微擾動卻能誤導模型的輸入資料
資料匿名化Data Anonymization移除或修改資料使個人無法被識別
假名化Pseudonymization以代號取代真實識別資訊
差分隱私Differential Privacy加入雜訊使個別資料無法被推斷
隱私預算Privacy Budget (ε)差分隱私的保護強度參數
聯邦學習Federated Learning資料不離開設備的分散式訓練方式
對抗訓練Adversarial Training用對抗性樣本訓練模型以提升魯棒性
防禦蒸餾Defensive Distillation用軟性輸出訓練模型降低梯度敏感度
被遺忘權Right to be Forgotten要求刪除個人資料的權利
隱私設計Privacy by Design在系統設計初期就納入隱私保護
最小權限原則Principle of Least Privilege只授予完成任務所需的最低權限
隱私衝擊評估PIA (Privacy Impact Assessment)評估新專案對隱私影響的系統性流程

四、考試重點提示

考試重點:以下是 iPAS AI 證照考試中本章節最常出現的考點,請務必熟記。

  1. 差分隱私的核心機制:透過加入雜訊保護個人資料;ε 越小,保護越強,但資料效用也越低。Apple 用於鍵盤統計,Google 用於 Chrome 使用資料。

  2. 聯邦學習 vs. 傳統集中式訓練:聯邦學習的關鍵是「模型去找資料」而非「資料來找模型」——只傳模型梯度/參數,原始資料不離開設備。Google Gboard 是最著名案例。

  3. 四大 AI 風險案例配對

    • 資料外洩 → Facebook 5.33 億用戶 (2021)
    • 演算法偏見 → Amazon 招募 AI (2018)
    • 對抗攻擊 → Tesla Stop Sign 貼紙實驗
    • 監控濫用 → Cambridge Analytica (2018)
  4. GDPR 核心要求:告知後同意、被遺忘權、資料可攜權、72 小時通報義務、最高罰款全球營業額 4%。

  5. EU AI Act 風險分級:禁止(社會信用評分)→ 高風險(招募 AI、醫療 AI)→ 有限風險(聊天機器人需揭露)→ 最低風險。

  6. 隱私設計 (Privacy by Design):是「事先設計」而非「事後補救」,為 GDPR 明確要求。


隨堂小測驗

第 1 題:下列哪項技術,能在「不將原始資料傳送至伺服器」的前提下完成 AI 模型訓練?

A. 差分隱私 (Differential Privacy) B. 聯邦學習 (Federated Learning) C. 資料匿名化 (Data Anonymization) D. 對抗訓練 (Adversarial Training)


第 2 題:Amazon 在 2018 年 廢棄的招募 AI 系統,主要是因為發生了什麼問題?

A. 系統遭到駭客入侵,候選人資料外洩 B. 系統因訓練資料偏差,系統性地歧視女性應徵者 C. 系統被研究人員用對抗性樣本欺騙,錯誤錄取不合格人選 D. 系統違反了 GDPR 的告知後同意規定


第 3 題:差分隱私 (Differential Privacy) 中的「隱私預算 ε (epsilon)」,下列敘述何者正確?

A. ε 值越大,代表隱私保護越強 B. ε 值越小,代表隱私保護越強,但資料的統計效用可能降低 C. ε 值與隱私保護強度無關,只影響計算速度 D. ε 值固定為 1,不可調整


第 4 題:根據 EU AI Act,下列哪種 AI 應用屬於「禁止使用 (Unacceptable Risk)」類別?

A. 用於電商網站的商品推薦系統 B. 醫院使用的 X 光影像輔助診斷系統 C. 政府在公共場所即時部署的生物特徵辨識系統 D. 銀行使用的信用風險評估系統


第 5 題:Tesla 自動駕駛系統被貼幾張小貼紙就誤判「停車標誌」為「限速標誌」,這屬於哪種 AI 安全威脅?

A. 資料外洩 (Data Breach) B. 模型竊取 (Model Stealing) C. 對抗攻擊 (Adversarial Attack) D. 資料投毒 (Data Poisoning)


解答與解析

題號答案解析
1B聯邦學習 (Federated Learning) 的核心特點是原始資料留在設備端,只將模型更新(梯度)傳回伺服器。差分隱私是加雜訊保護輸出,資料匿名化是修改資料本身,對抗訓練是防禦對抗攻擊的方法,三者都不解決「資料不離開設備」的問題。
2BAmazon 招募 AI 的問題是典型的演算法偏見 (Algorithmic Bias)——訓練資料以過去十年的男性工程師履歷為主,導致模型學到「男性 = 較好的工程師」的偏見,系統性降低女性履歷的評分。這不是駭客入侵、對抗攻擊或 GDPR 問題。
3Bε 是差分隱私的隱私預算,代表允許的最大「隱私洩漏量」。ε 越小,加入的雜訊越多,個人資料越難被推斷(保護越強),但資料的統計準確性也會下降(效用降低)。這是隱私與效用之間的根本取捨。
4CEU AI Act 明確將「即時遠端生物特徵辨識系統」(如公共場所的人臉辨識)列為禁止使用類別,因為對人民隱私和自由的威脅太大。商品推薦屬最低風險,醫療診斷屬高風險(允許但有嚴格要求),信用評分也屬高風險類別。
5C對抗攻擊 (Adversarial Attack) 是指透過精心設計的輸入擾動(人眼難以察覺),讓 AI 模型做出錯誤判斷。資料外洩是資料被竊取;模型竊取是複製模型功能;資料投毒是在訓練階段汙染資料。Tesla 案例中的「貼紙」是推論階段的對抗性輸入,屬於對抗攻擊。