電腦視覺 CV：讓 AI 擁有「眼睛」的核心技術

Q: 電腦視覺 CV？讓 AI 擁有「眼睛」的核心技術？

影像分類、物件偵測、語義分割、姿態辨識、影像生成——CV 五大任務圖解說明。

一、學習目標

完成本單元後，你將能夠：

解釋電腦視覺（CV）的定義與影像資料的特殊性
說明卷積（Convolution）與特徵擷取（Feature Extraction）的運作原理
分辨 CV 五大核心任務並舉出各任務的代表模型
理解遷移學習（Transfer Learning）與資料增強（Data Augmentation）在 CV 的應用
列舉電腦視覺在醫療、自駕車、製造、人臉辨識等領域的實際應用

二、核心內容

1. 什麼是電腦視覺？

電腦視覺（Computer Vision，CV） 是讓電腦能夠從影像或影片中「理解」視覺資訊的 AI 子領域。人類每天透過眼睛接收大量視覺資訊，大腦在毫秒內即能辨認物體、判斷距離、理解場景，電腦視覺的目標，就是讓機器複製這項能力。

生活類比：傳統電腦看影像，就像一個完全色盲的人看到的只是一堆像素數字（每個像素的 RGB 值）。電腦視覺就是教電腦從這些數字中「讀出」含義，這張圖是貓、這個區域有一輛車、這位病患的 X 光有陰影。

影像資料的特殊性：

特性	說明	影響
高維度（High Dimensionality）	一張 224×224 的彩色影像有 150,528 個數值	傳統機器學習方法難以處理
空間結構（Spatial Structure）	相鄰像素之間有語義關聯	需要能捕捉局部空間特徵的架構（CNN）
平移不變性（Translation Invariance）	貓在影像左上角或右下角都應該被辨認為貓	模型需要「不在乎物體位置」的特性
資料量大（Data Intensive）	高品質標注影像資料昂貴且耗時	遷移學習與資料增強至關重要

2. CV 基礎概念：三大技術積木

2.1 卷積（Convolution）與 CNN

卷積神經網路（Convolutional Neural Network，CNN） 是電腦視覺的核心架構。其關鍵操作是「卷積（Convolution）」，用一個小型的濾波器（Filter / Kernel）在影像上滑動，捕捉局部特徵。

生活類比：想像你在用放大鏡掃描一幅畫。每個小區域你都仔細看一遍，記錄下每個局部的特徵（邊緣？紋理？顏色塊？）。CNN 的卷積操作就是這個「掃描放大鏡」，只是它同時用幾十個甚至幾百個不同的「濾鏡」在掃，每個濾鏡專門偵測不同的特徵。

CNN 的層次結構（從淺到深）：

層次	學習到的特徵	類比
淺層（第 1～2 層）	邊緣、顏色、簡單紋理	像素級細節
中層（第 3～5 層）	形狀、輪廓、圖案	局部結構
深層（第 6 層以上）	物體部件（眼睛、輪子）、完整物體概念	語義特徵

池化（Pooling）：卷積後通常接 Max Pooling 或 Average Pooling，縮小特徵圖尺寸、保留最重要的特徵，同時提升模型對位置偏移的容忍度。

生活類比：池化就像把一張 4K 高清照片縮小成縮圖，你仍然能辨認照片內容，但資料量大幅減少，處理起來更快。

2.2 特徵擷取（Feature Extraction）

定義：從原始影像像素中自動學習有意義的特徵表示的過程。CNN 的每一層都在進行特徵擷取，從低層的邊緣、顏色，到高層的語義概念。

這也是 CNN 相對於傳統電腦視覺方法（需要人工設計特徵，如 SIFT、HOG）的根本革新：特徵是從資料中自動學習的，不是人工設計的。

2.3 遷移學習（Transfer Learning）

定義：將在大型資料集（如 ImageNet）上預訓練好的模型，應用到資料量有限的目標任務，避免從頭訓練。

生活類比：你已經學會騎自行車（在 ImageNet 上預訓練）。現在要學騎摩托車（目標任務），你不需要重新學「平衡感」和「轉向」，只需要微調新的操作技巧（Fine-tuning）。這比從零學起快得多。

為什麼 CV 領域特別依賴遷移學習？

原因	說明
標注成本高	影像標注（特別是分割與偵測）需要大量人力
預訓練特徵通用	在 ImageNet 學到的「邊緣、紋理、形狀」等低層特徵幾乎對所有視覺任務都有用
訓練資源節省	從頭訓練 ResNet-50 需要數天 GPU 時間；Fine-tuning 通常只需數小時

考試重點：遷移學習（Transfer Learning） 的核心邏輯是「把在大任務學到的通用特徵，遷移到小任務」。在 CV 中，ImageNet 預訓練模型是最常用的起點。Fine-tuning 是遷移學習的主要實施方式。

2.4 資料增強（Data Augmentation）

定義：透過對訓練影像進行各種隨機變換（翻轉、旋轉、裁切、調色）來人工擴充訓練集，提升模型的泛化能力。

生活類比：你只有 1,000 張貓的照片要訓練模型。你把每張照片水平翻轉、隨機裁切、調整亮度，突然間有了 8,000 張「不同」的訓練樣本。更重要的是，模型學會了「不管貓朝哪個方向、在什麼光線下，都應該辨認為貓」。

常見 CV 資料增強技術：

技術	說明	效果
水平翻轉（Horizontal Flip）	左右鏡像翻轉	對稱物體（貓、車）的位置不變性
隨機裁切（Random Crop）	隨機選取影像的子區域	提升對部分遮蔽的容忍度
色彩抖動（Color Jitter）	隨機調整亮度、對比度、飽和度	對不同光線條件的魯棒性
隨機旋轉（Random Rotation）	小角度隨機旋轉	對輕微旋轉的容忍度
Mixup / CutMix	混合兩張影像的像素或區域	進階增強，提升邊界案例的泛化能力

3. CV 五大核心任務

任務一：影像分類（Image Classification）

定義：給定一張影像，輸出它屬於哪一個類別。這是 CV 中最基礎、研究最成熟的任務。

生活類比：就像你看一張照片，立刻說出「這是貓」或「這是狗」，影像分類讓 AI 做同樣的事，而且速度快、規模大，能在一秒內分類幾千張圖。

標竿資料集：ImageNet（超過 1,400 萬張影像，1,000 個類別），是 CV 研究的黃金標準。

代表模型演進：

模型	年份	特色	Top-5 錯誤率（ImageNet）
AlexNet	2012	第一個在 ImageNet 大獲全勝的深度 CNN	15.3%
VGG-16/19	2014	深而窄（全用 3×3 卷積），結構簡單易懂	7.3%
ResNet	2015	引入殘差連接（Residual Connection），解決深層網路的梯度消失	3.6%
EfficientNet	2019	複合縮放（Compound Scaling）同時調整深度、寬度、解析度	2.9%
Vision Transformer（ViT）	2020	將 Transformer 應用於影像，把影像切成 Patch 當 Token	接近人類水準

ResNet 殘差連接類比：想像爬樓梯時，每隔幾層設一個「快捷通道」直達更高層。即使中間某些梯段（網路層）沒有學到有用的東西，訊號也能通過捷徑直接傳遞，不會在深層中消失。這讓 ResNet 可以訓練超過 100 層的深度網路。

考試重點：ResNet 的核心創新是殘差連接（Residual / Skip Connection），解決了深層網路的梯度消失問題。EfficientNet 的特色是「複合縮放」。ViT 是 Transformer 架構首次成功應用於 CV 的里程碑。

任務二：物件偵測（Object Detection）

定義：在影像中找出所有感興趣的物體，同時輸出每個物體的類別與位置（Bounding Box，邊界框）。

生活類比：影像分類是「這張圖有貓」；物件偵測是「這張圖在左上角座標 (x1,y1)-(x2,y2) 有一隻貓，在右下角座標 (x3,y3)-(x4,y4) 有一條狗」。偵測不只要認出「是什麼」，還要知道「在哪裡」。

兩大技術路線：

路線	代表模型	特點
Two-stage（兩階段）	Faster R-CNN、Mask R-CNN	先提取候選區域（Region Proposal），再分類；精度高但速度較慢
One-stage（單階段）	YOLO 系列、SSD	一次性預測所有位置的類別與邊界框；速度快，適合即時應用

YOLO 系列演進（You Only Look Once）：

版本	特色
YOLOv1（2016）	首個端到端即時物件偵測，速度革命性提升
YOLOv5	實用性極強，工業界最廣泛使用
YOLOv8	目前最新主流版本，兼顧精度與速度
YOLOv11	最新版本，改善小物體偵測能力

關鍵評估指標：

指標	說明
IoU（Intersection over Union）	預測框與真實框的重疊比例，判斷偵測是否準確
mAP（mean Average Precision）	所有類別的平均精度，CV 偵測任務的主要評估指標

生活類比（IoU）：想像你用手指框出一隻貓，AI 也框了一個範圍。IoU 就是「你們兩個框的重疊面積 ÷ 兩個框的聯集面積」。IoU > 0.5 通常視為偵測成功。

應用場景：

自動駕駛：即時偵測行人、車輛、號誌、障礙物
安防監控：偵測異常人員行為與危險物品
零售：無人商店的商品辨識與結帳
製造業：生產線瑕疵品即時偵測

任務三：語義分割（Semantic Segmentation）

定義：對影像中的每個像素進行分類，輸出一張與輸入同尺寸的「標籤圖」，每個像素都標記了它屬於哪個語義類別（天空、道路、行人、車輛等）。

生活類比：

影像分類：「這張圖有貓」
物件偵測：「貓在左上角那個矩形框裡」
語義分割：「這張圖中，這些像素是貓、那些像素是背景、這些像素是草地」，精確到每一個點

兩種分割類型對比：

類型	說明	範例
語義分割（Semantic Segmentation）	同類別的所有物體標記相同顏色，不區分個體	影像中所有「車」都標藍色，不管幾輛
實例分割（Instance Segmentation）	區分同類別的不同個體，每個物體有獨立標記	每輛車都有不同顏色，精確區分是哪一輛

代表模型：

模型	特色	最適應用
U-Net（2015）	Encoder-Decoder + Skip Connection，專為醫療影像設計	醫療影像分割（腫瘤、器官輪廓）
DeepLab 系列	空洞卷積（Dilated Convolution）保持解析度，Google 出品	自駕車場景理解
Mask R-CNN	在 Faster R-CNN 基礎上加入分割分支，同時完成偵測與分割	實例分割
SAM（Segment Anything Model）	Meta 2023 年推出，可分割任意物體	通用分割基礎模型

U-Net 架構類比：U-Net 的形狀像字母「U」，左邊「下坡」（Encoder，逐步壓縮影像提取特徵）、右邊「上坡」（Decoder，逐步還原空間解析度），並有「跳接（Skip Connection）」橫向連結兩側對應層級，保留細節空間資訊。就像把地形圖壓縮成縮圖再還原時，用原始地圖的細節補足失真。

考試重點：語義分割的輸出是逐像素標注（Pixel-wise Labeling），比物件偵測精細得多。U-Net 在醫療影像分割中地位舉足輕重；DeepLab 常用於自駕車場景。

任務四：姿態辨識（Pose Estimation）

定義：從影像或影片中偵測人體（或動物、物件）的關鍵點（Keypoints），如關節、頭部、四肢末端等，重建姿態骨架（Skeleton）。

生活類比：就像 NBA 球賽轉播的動態追蹤技術，能即時在影像上畫出球員每個關節的位置與連線，形成一個「骨架圖」，姿態辨識就是讓 AI 自動做這件事。

關鍵輸出：

輸出	說明
關鍵點座標（Keypoints）	每個關節或特徵點的 (x, y) 座標
置信度（Confidence Score）	模型對每個關鍵點位置的確信程度
骨架連線（Skeleton）	連接關鍵點形成的骨架結構

兩種偵測模式：

模式	說明	代表模型
由上而下（Top-down）	先偵測每個人的邊界框，再對每個人做姿態估計	HRNet
由下而上（Bottom-up）	先偵測所有關鍵點，再組裝成各個人體	OpenPose

OpenPose 是最早廣泛使用的開源姿態辨識框架（CMU 2017），能同時偵測多人的全身、臉部與手部關鍵點。HRNet（High-Resolution Network） 在整個網路中維持高解析度表示，精度更高。

應用場景：

產業	應用
醫療復健	分析患者復健動作是否標準、追蹤關節活動範圍
運動科學	分析運動員姿勢、預防運動傷害
健身娛樂	體感遊戲（如 Kinect）、線上健身課程動作評分
工廠安全	監測工人是否有危險姿勢或違規動作
人機互動（HCI）	手勢控制、無接觸介面

任務五：影像生成（Image Generation）

定義：讓 AI 自動生成全新的、逼真的影像，或根據條件（文字描述、參考圖）生成指定內容的影像。

兩大生成技術路線：

路線一：生成對抗網路（Generative Adversarial Network，GAN）

架構：由「生成器（Generator）」和「判別器（Discriminator）」兩個神經網路組成，相互對抗訓練。

生活類比：就像鑄幣偽造者（Generator）和警察（Discriminator）的貓鼠遊戲：

偽造者的目標：生成讓警察認不出的假幣
警察的目標：分辨真幣與假幣
兩者互相競爭，偽造者越來越厲害，警察的鑑別能力也越來越強，最後偽造者能生成幾乎以假亂真的「假幣」

GAN 變體	特色	應用
StyleGAN / StyleGAN2	高品質人臉生成（thispersondoesnotexist.com）	人臉合成、虛擬角色
Pix2Pix	條件式 GAN，圖到圖轉換	草稿上色、衛星圖轉地圖
CycleGAN	無需成對資料的風格轉換	馬變斑馬、夏天轉冬天

路線二：擴散模型（Diffusion Model）

架構：透過「逐步加入雜訊（前向擴散）→ 學習逆向去噪（反向擴散）」來生成影像。

生活類比：想像你把一張清晰照片逐步撒上沙子，直到變成一片雜訊（前向）；然後訓練模型學會「如何從一片沙子逐步清除雜訊，還原出清晰影像」（反向）。生成新影像時，從純雜訊出發，讓模型一步一步「去沙」，最終生成全新的影像。

擴散模型	機構	特色
DALL-E 系列	OpenAI	文字描述生成影像，介面簡單
Stable Diffusion	Stability AI	開源，可本地端運行，社群生態豐富
Midjourney	Midjourney	藝術風格出色，廣受設計師使用
Imagen	Google	高度逼真的文字生成影像

考試重點：GAN 的兩大元件，生成器（Generator）與判別器（Discriminator）的對抗訓練（Adversarial Training）機制是必考概念。擴散模型（Diffusion Model） 目前已在大多數生成任務上超越 GAN，Stable Diffusion 是最代表性的開源擴散模型。

4. 電腦視覺的產業應用地圖

產業	CV 應用	對應任務
醫療影像	X 光腫瘤偵測、病理切片分析、眼底影像篩查、手術輔助導航	影像分類、語義分割
自動駕駛	行人車輛偵測、車道線識別、障礙物分割、交通號誌辨識	物件偵測、語義分割
製造品管	PCB 電路板瑕疵偵測、外觀品質檢測、包裝完整性確認	影像分類、物件偵測
人臉辨識	門禁系統、行動支付、人流統計、情緒辨識	影像分類、關鍵點偵測
零售	無人商店商品辨識、貨架補貨監測、顧客行為分析	物件偵測、姿態辨識
農業	病蟲害辨識、作物成熟度判斷、無人機田間巡視	影像分類、語義分割
創意產業	AI 繪圖、虛擬試穿、電影特效	影像生成

三、關鍵名詞中英對照

中文	英文	說明
電腦視覺	Computer Vision (CV)	讓電腦從影像中理解視覺資訊的 AI 子領域
卷積神經網路	Convolutional Neural Network (CNN)	以卷積操作為核心的影像處理神經網路
卷積	Convolution	用小型濾波器在影像上滑動以提取局部特徵的操作
濾波器／卷積核	Filter / Kernel	CNN 中用於掃描影像並提取特徵的小型矩陣
池化	Pooling	縮小特徵圖尺寸同時保留重要特徵的操作
特徵擷取	Feature Extraction	從原始影像中自動學習有意義特徵表示的過程
遷移學習	Transfer Learning	將預訓練模型應用於新任務以節省資源的技術
微調	Fine-tuning	在預訓練模型基礎上針對特定任務繼續訓練
資料增強	Data Augmentation	對訓練影像進行隨機變換以擴充訓練集的技術
殘差連接	Residual Connection	ResNet 的核心創新，讓訊號繞過某些層直接傳遞
影像分類	Image Classification	將影像歸類至預定類別的 CV 基礎任務
物件偵測	Object Detection	同時輸出物體類別與位置（邊界框）的任務
邊界框	Bounding Box	物件偵測中框住物體的矩形區域
交並比	Intersection over Union (IoU)	衡量預測框與真實框重疊程度的指標
平均精度均值	mean Average Precision (mAP)	物件偵測任務的主要評估指標
語義分割	Semantic Segmentation	對影像中每個像素進行類別標注的任務
實例分割	Instance Segmentation	區分同類別不同個體的精細分割任務
逐像素標注	Pixel-wise Labeling	對影像每個像素分配語義類別標籤
空洞卷積	Dilated Convolution	在卷積核中加入間隔以擴大感受野而不縮小解析度
姿態辨識	Pose Estimation	從影像中偵測人體關鍵點並重建姿態骨架的任務
關鍵點	Keypoints	姿態辨識中人體關節或特徵點的座標
骨架	Skeleton	連接關鍵點形成的人體結構示意圖
影像生成	Image Generation	讓 AI 生成新影像的任務
生成對抗網路	Generative Adversarial Network (GAN)	由生成器與判別器對抗訓練的生成模型
生成器	Generator	GAN 中負責生成假影像的網路
判別器	Discriminator	GAN 中負責區分真假影像的網路
擴散模型	Diffusion Model	透過逐步去噪過程生成影像的模型

四、考試重點提示

考試重點：CNN 的核心優勢，透過卷積操作自動學習影像的階層式特徵（淺層學邊緣、深層學語義），不需要人工設計特徵，這是 CNN 相對於傳統 CV 方法的根本突破。

考試重點：ResNet 的殘差連接（Residual Connection / Skip Connection） 解決了深層網路的梯度消失問題，讓訓練超過 100 層的深度網路成為可能。這是 CV 發展史上的關鍵里程碑。

考試重點：五大任務的輸出形式差異，影像分類（類別標籤）、物件偵測（類別 + 邊界框）、語義分割（逐像素類別圖）、姿態辨識（關鍵點座標）、影像生成（新影像）。輸出形式的差異是選擇題常見考點。

考試重點：GAN 的兩大元件，生成器（Generator）生成假影像，判別器（Discriminator）辨別真假，兩者對抗訓練（Adversarial Training） 直至生成器騙過判別器。這個機制是高頻考點。

考試重點：遷移學習（Transfer Learning）在 CV 的重要性，因為影像標注成本高、預訓練的低層特徵（邊緣、紋理）具有通用性，在 ImageNet 預訓練後 Fine-tuning 是業界標準做法。

考試重點：U-Net 的設計場景是醫療影像分割；YOLO 系列代表即時（Real-time）物件偵測；Stable Diffusion 是最主流的開源擴散模型，這三個「模型 ↔ 應用場景」的配對是常見選擇題。

Q1. CNN 的「卷積（Convolution）」操作主要的作用是什麼？

A. 將影像像素的 RGB 值轉換為灰階，減少資料量
B. 用小型濾波器在影像上滑動，捕捉局部空間特徵
C. 將影像縮放至標準尺寸（如 224×224）
D. 計算影像中每個像素與全局平均值的差異

Q2. ResNet 架構最重要的技術創新是什麼，它解決了什麼問題？

A. 引入 Dropout 正則化，解決過擬合問題
B. 使用 1×1 卷積，大幅減少模型參數量
C. 引入殘差連接（Residual Connection），解決深層網路的梯度消失問題
D. 採用全局平均池化（Global Average Pooling），取代全連接層

Q3. 自動駕駛系統需要即時知道「前方 5 公尺有一個行人，站在路面座標 (x1,y1)-(x2,y2) 的範圍內」，應使用哪項 CV 任務？

A. 影像分類（Image Classification），判斷影像中有沒有行人
B. 姿態辨識（Pose Estimation），分析行人的動作姿勢
C. 物件偵測（Object Detection），同時輸出行人的類別與位置邊界框
D. 語義分割（Semantic Segmentation），對每個像素標記是否為行人

Q4. 關於 GAN（生成對抗網路），下列描述何者正確？

A. GAN 只包含一個神經網路，透過自監督學習生成影像
B. GAN 由生成器（Generator）與判別器（Discriminator）組成，兩者對抗訓練
C. GAN 的訓練目標是最小化生成影像與原始影像的像素差異
D. 擴散模型（Diffusion Model）是 GAN 的一種特殊變體

Q5. 某醫院要開發一套系統，自動在 CT 掃描影像中精確標記腫瘤的邊界（精確到每個像素）。最適合的 CV 任務與代表模型為何？

A. 物件偵測 → YOLO，輸出腫瘤的邊界框
B. 語義分割 → U-Net，對每個像素標記是否為腫瘤
C. 影像分類 → ResNet，判斷 CT 影像中是否有腫瘤
D. 姿態辨識 → OpenPose，標記腫瘤的關鍵邊緣點

解答與解析

題號	答案	解析
Q1	B	CNN 卷積操作的核心是用小型濾波器（Filter / Kernel）在影像上滑動掃描，每個位置計算濾波器與對應區域的點積，捕捉邊緣、紋理等局部空間特徵。選 A（灰階轉換）是預處理步驟；選 C（縮放到標準尺寸）也是預處理；選 D（差異計算）不是卷積的定義。
Q2	C	ResNet 於 2015 年提出的殘差連接（Residual Connection / Skip Connection），讓訊號可以繞過若干層直接傳遞，使梯度在反向傳播時不需要穿越所有層，有效解決了深層網路的梯度消失問題，讓訓練超過 100 層的超深網路成為可能。Dropout（選 A）和 Global Average Pooling（選 D）雖在 ResNet 中使用，但不是其核心創新；1×1 卷積（選 B）是 Inception/BottleNeck 的特色。
Q3	C	任務需求是「辨識行人類別 + 輸出行人位置座標（邊界框）」，這正是物件偵測（Object Detection）的定義。影像分類（選 A）只輸出類別，無位置資訊；姿態辨識（選 B）分析身體關節點，目的是理解姿勢而非定位行人；語義分割（選 D）雖然更精細，但對即時自駕車應用而言計算成本更高，且邊界框是更直接的位置表示方式。
Q4	B	GAN 由兩個神經網路組成：生成器（Generator）負責生成逼真的假影像；判別器（Discriminator）負責區分真實影像與生成影像。兩者透過對抗訓練（Adversarial Training）相互競爭提升，直到生成器能騙過判別器。選 A 錯（GAN 有兩個網路）；選 C 描述的是 VAE（變分自編碼器）或 MSE Loss 的概念；選 D 錯，擴散模型是獨立的生成架構，不是 GAN 的變體。
Q5	B	「精確到每個像素標記腫瘤邊界」是語義分割（Semantic Segmentation）的定義，逐像素分類。U-Net 正是為醫療影像分割而設計的經典 Encoder-Decoder 架構，在腫瘤偵測、器官輪廓標注等任務上有大量成功應用。YOLO（選 A）輸出的是矩形邊界框，無法精確標記不規則腫瘤邊界；ResNet（選 C）只能輸出「有/無腫瘤」的分類結果；OpenPose（選 D）是人體姿態辨識工具，完全不適用於醫療影像分割。