一、學習目標
完成本單元後,你將能夠:
- 解釋電腦視覺(CV)的定義與影像資料的特殊性
- 說明卷積(Convolution)與特徵擷取(Feature Extraction)的運作原理
- 分辨 CV 五大核心任務並舉出各任務的代表模型
- 理解遷移學習(Transfer Learning)與資料增強(Data Augmentation)在 CV 的應用
- 列舉電腦視覺在醫療、自駕車、製造、人臉辨識等領域的實際應用
二、核心內容
1. 什麼是電腦視覺?
電腦視覺(Computer Vision,CV) 是讓電腦能夠從影像或影片中「理解」視覺資訊的 AI 子領域。人類每天透過眼睛接收大量視覺資訊,大腦在毫秒內即能辨認物體、判斷距離、理解場景——電腦視覺的目標,就是讓機器複製這項能力。
生活類比:傳統電腦看影像,就像一個完全色盲的人看到的只是一堆像素數字(每個像素的 RGB 值)。電腦視覺就是教電腦從這些數字中「讀出」含義——這張圖是貓、這個區域有一輛車、這位病患的 X 光有陰影。
影像資料的特殊性:
| 特性 | 說明 | 影響 |
|---|---|---|
| 高維度(High Dimensionality) | 一張 224×224 的彩色影像有 150,528 個數值 | 傳統機器學習方法難以處理 |
| 空間結構(Spatial Structure) | 相鄰像素之間有語義關聯 | 需要能捕捉局部空間特徵的架構(CNN) |
| 平移不變性(Translation Invariance) | 貓在影像左上角或右下角都應該被辨認為貓 | 模型需要「不在乎物體位置」的特性 |
| 資料量大(Data Intensive) | 高品質標注影像資料昂貴且耗時 | 遷移學習與資料增強至關重要 |
2. CV 基礎概念:三大技術積木
2.1 卷積(Convolution)與 CNN
卷積神經網路(Convolutional Neural Network,CNN) 是電腦視覺的核心架構。其關鍵操作是「卷積(Convolution)」——用一個小型的**濾波器(Filter / Kernel)**在影像上滑動,捕捉局部特徵。
生活類比:想像你在用放大鏡掃描一幅畫。每個小區域你都仔細看一遍,記錄下每個局部的特徵(邊緣?紋理?顏色塊?)。CNN 的卷積操作就是這個「掃描放大鏡」,只是它同時用幾十個甚至幾百個不同的「濾鏡」在掃,每個濾鏡專門偵測不同的特徵。
CNN 的層次結構(從淺到深):
| 層次 | 學習到的特徵 | 類比 |
|---|---|---|
| 淺層(第 1~2 層) | 邊緣、顏色、簡單紋理 | 像素級細節 |
| 中層(第 3~5 層) | 形狀、輪廓、圖案 | 局部結構 |
| 深層(第 6 層以上) | 物體部件(眼睛、輪子)、完整物體概念 | 語義特徵 |
池化(Pooling):卷積後通常接 Max Pooling 或 Average Pooling,縮小特徵圖尺寸、保留最重要的特徵,同時提升模型對位置偏移的容忍度。
生活類比:池化就像把一張 4K 高清照片縮小成縮圖——你仍然能辨認照片內容,但資料量大幅減少,處理起來更快。
2.2 特徵擷取(Feature Extraction)
定義:從原始影像像素中自動學習有意義的特徵表示的過程。CNN 的每一層都在進行特徵擷取——從低層的邊緣、顏色,到高層的語義概念。
這也是 CNN 相對於傳統電腦視覺方法(需要人工設計特徵,如 SIFT、HOG)的根本革新:特徵是從資料中自動學習的,不是人工設計的。
2.3 遷移學習(Transfer Learning)
定義:將在大型資料集(如 ImageNet)上預訓練好的模型,應用到資料量有限的目標任務,避免從頭訓練。
生活類比:你已經學會騎自行車(在 ImageNet 上預訓練)。現在要學騎摩托車(目標任務),你不需要重新學「平衡感」和「轉向」——只需要微調新的操作技巧(Fine-tuning)。這比從零學起快得多。
為什麼 CV 領域特別依賴遷移學習?
| 原因 | 說明 |
|---|---|
| 標注成本高 | 影像標注(特別是分割與偵測)需要大量人力 |
| 預訓練特徵通用 | 在 ImageNet 學到的「邊緣、紋理、形狀」等低層特徵幾乎對所有視覺任務都有用 |
| 訓練資源節省 | 從頭訓練 ResNet-50 需要數天 GPU 時間;Fine-tuning 通常只需數小時 |
考試重點:遷移學習(Transfer Learning) 的核心邏輯是「把在大任務學到的通用特徵,遷移到小任務」。在 CV 中,ImageNet 預訓練模型是最常用的起點。Fine-tuning 是遷移學習的主要實施方式。
2.4 資料增強(Data Augmentation)
定義:透過對訓練影像進行各種隨機變換(翻轉、旋轉、裁切、調色)來人工擴充訓練集,提升模型的泛化能力。
生活類比:你只有 1,000 張貓的照片要訓練模型。你把每張照片水平翻轉、隨機裁切、調整亮度——突然間有了 8,000 張「不同」的訓練樣本。更重要的是,模型學會了「不管貓朝哪個方向、在什麼光線下,都應該辨認為貓」。
常見 CV 資料增強技術:
| 技術 | 說明 | 效果 |
|---|---|---|
| 水平翻轉(Horizontal Flip) | 左右鏡像翻轉 | 對稱物體(貓、車)的位置不變性 |
| 隨機裁切(Random Crop) | 隨機選取影像的子區域 | 提升對部分遮蔽的容忍度 |
| 色彩抖動(Color Jitter) | 隨機調整亮度、對比度、飽和度 | 對不同光線條件的魯棒性 |
| 隨機旋轉(Random Rotation) | 小角度隨機旋轉 | 對輕微旋轉的容忍度 |
| Mixup / CutMix | 混合兩張影像的像素或區域 | 進階增強,提升邊界案例的泛化能力 |
3. CV 五大核心任務
任務一:影像分類(Image Classification)
定義:給定一張影像,輸出它屬於哪一個類別。這是 CV 中最基礎、研究最成熟的任務。
生活類比:就像你看一張照片,立刻說出「這是貓」或「這是狗」——影像分類讓 AI 做同樣的事,而且速度快、規模大,能在一秒內分類幾千張圖。
標竿資料集:ImageNet(超過 1,400 萬張影像,1,000 個類別),是 CV 研究的黃金標準。
代表模型演進:
| 模型 | 年份 | 特色 | Top-5 錯誤率(ImageNet) |
|---|---|---|---|
| AlexNet | 2012 | 第一個在 ImageNet 大獲全勝的深度 CNN | 15.3% |
| VGG-16/19 | 2014 | 深而窄(全用 3×3 卷積),結構簡單易懂 | 7.3% |
| ResNet | 2015 | 引入殘差連接(Residual Connection),解決深層網路的梯度消失 | 3.6% |
| EfficientNet | 2019 | 複合縮放(Compound Scaling)同時調整深度、寬度、解析度 | 2.9% |
| Vision Transformer(ViT) | 2020 | 將 Transformer 應用於影像,把影像切成 Patch 當 Token | 接近人類水準 |
ResNet 殘差連接類比:想像爬樓梯時,每隔幾層設一個「快捷通道」直達更高層。即使中間某些梯段(網路層)沒有學到有用的東西,訊號也能通過捷徑直接傳遞,不會在深層中消失。這讓 ResNet 可以訓練超過 100 層的深度網路。
考試重點:ResNet 的核心創新是殘差連接(Residual / Skip Connection),解決了深層網路的梯度消失問題。EfficientNet 的特色是「複合縮放」。ViT 是 Transformer 架構首次成功應用於 CV 的里程碑。
任務二:物件偵測(Object Detection)
定義:在影像中找出所有感興趣的物體,同時輸出每個物體的類別與位置(Bounding Box,邊界框)。
生活類比:影像分類是「這張圖有貓」;物件偵測是「這張圖在左上角座標 (x1,y1)-(x2,y2) 有一隻貓,在右下角座標 (x3,y3)-(x4,y4) 有一條狗」。偵測不只要認出「是什麼」,還要知道「在哪裡」。
兩大技術路線:
| 路線 | 代表模型 | 特點 |
|---|---|---|
| Two-stage(兩階段) | Faster R-CNN、Mask R-CNN | 先提取候選區域(Region Proposal),再分類;精度高但速度較慢 |
| One-stage(單階段) | YOLO 系列、SSD | 一次性預測所有位置的類別與邊界框;速度快,適合即時應用 |
YOLO 系列演進(You Only Look Once):
| 版本 | 特色 |
|---|---|
| YOLOv1(2016) | 首個端到端即時物件偵測,速度革命性提升 |
| YOLOv5 | 實用性極強,工業界最廣泛使用 |
| YOLOv8 | 目前最新主流版本,兼顧精度與速度 |
| YOLOv11 | 最新版本,改善小物體偵測能力 |
關鍵評估指標:
| 指標 | 說明 |
|---|---|
| IoU(Intersection over Union) | 預測框與真實框的重疊比例,判斷偵測是否準確 |
| mAP(mean Average Precision) | 所有類別的平均精度,CV 偵測任務的主要評估指標 |
生活類比(IoU):想像你用手指框出一隻貓,AI 也框了一個範圍。IoU 就是「你們兩個框的重疊面積 ÷ 兩個框的聯集面積」。IoU > 0.5 通常視為偵測成功。
應用場景:
- 自動駕駛:即時偵測行人、車輛、號誌、障礙物
- 安防監控:偵測異常人員行為與危險物品
- 零售:無人商店的商品辨識與結帳
- 製造業:生產線瑕疵品即時偵測
任務三:語義分割(Semantic Segmentation)
定義:對影像中的每個像素進行分類,輸出一張與輸入同尺寸的「標籤圖」,每個像素都標記了它屬於哪個語義類別(天空、道路、行人、車輛等)。
生活類比:
- 影像分類:「這張圖有貓」
- 物件偵測:「貓在左上角那個矩形框裡」
- 語義分割:「這張圖中,這些像素是貓、那些像素是背景、這些像素是草地」——精確到每一個點
兩種分割類型對比:
| 類型 | 說明 | 範例 |
|---|---|---|
| 語義分割(Semantic Segmentation) | 同類別的所有物體標記相同顏色,不區分個體 | 影像中所有「車」都標藍色,不管幾輛 |
| 實例分割(Instance Segmentation) | 區分同類別的不同個體,每個物體有獨立標記 | 每輛車都有不同顏色,精確區分是哪一輛 |
代表模型:
| 模型 | 特色 | 最適應用 |
|---|---|---|
| U-Net(2015) | Encoder-Decoder + Skip Connection,專為醫療影像設計 | 醫療影像分割(腫瘤、器官輪廓) |
| DeepLab 系列 | 空洞卷積(Dilated Convolution)保持解析度,Google 出品 | 自駕車場景理解 |
| Mask R-CNN | 在 Faster R-CNN 基礎上加入分割分支,同時完成偵測與分割 | 實例分割 |
| SAM(Segment Anything Model) | Meta 2023 年推出,可分割任意物體 | 通用分割基礎模型 |
U-Net 架構類比:U-Net 的形狀像字母「U」——左邊「下坡」(Encoder,逐步壓縮影像提取特徵)、右邊「上坡」(Decoder,逐步還原空間解析度),並有「跳接(Skip Connection)」橫向連結兩側對應層級,保留細節空間資訊。就像把地形圖壓縮成縮圖再還原時,用原始地圖的細節補足失真。
考試重點:語義分割的輸出是逐像素標注(Pixel-wise Labeling),比物件偵測精細得多。U-Net 在醫療影像分割中地位舉足輕重;DeepLab 常用於自駕車場景。
任務四:姿態辨識(Pose Estimation)
定義:從影像或影片中偵測人體(或動物、物件)的關鍵點(Keypoints),如關節、頭部、四肢末端等,重建姿態骨架(Skeleton)。
生活類比:就像 NBA 球賽轉播的動態追蹤技術,能即時在影像上畫出球員每個關節的位置與連線,形成一個「骨架圖」——姿態辨識就是讓 AI 自動做這件事。
關鍵輸出:
| 輸出 | 說明 |
|---|---|
| 關鍵點座標(Keypoints) | 每個關節或特徵點的 (x, y) 座標 |
| 置信度(Confidence Score) | 模型對每個關鍵點位置的確信程度 |
| 骨架連線(Skeleton) | 連接關鍵點形成的骨架結構 |
兩種偵測模式:
| 模式 | 說明 | 代表模型 |
|---|---|---|
| 由上而下(Top-down) | 先偵測每個人的邊界框,再對每個人做姿態估計 | HRNet |
| 由下而上(Bottom-up) | 先偵測所有關鍵點,再組裝成各個人體 | OpenPose |
OpenPose 是最早廣泛使用的開源姿態辨識框架(CMU 2017),能同時偵測多人的全身、臉部與手部關鍵點。HRNet(High-Resolution Network) 在整個網路中維持高解析度表示,精度更高。
應用場景:
| 產業 | 應用 |
|---|---|
| 醫療復健 | 分析患者復健動作是否標準、追蹤關節活動範圍 |
| 運動科學 | 分析運動員姿勢、預防運動傷害 |
| 健身娛樂 | 體感遊戲(如 Kinect)、線上健身課程動作評分 |
| 工廠安全 | 監測工人是否有危險姿勢或違規動作 |
| 人機互動(HCI) | 手勢控制、無接觸介面 |
任務五:影像生成(Image Generation)
定義:讓 AI 自動生成全新的、逼真的影像,或根據條件(文字描述、參考圖)生成指定內容的影像。
兩大生成技術路線:
路線一:生成對抗網路(Generative Adversarial Network,GAN)
架構:由「生成器(Generator)」和「判別器(Discriminator)」兩個神經網路組成,相互對抗訓練。
生活類比:就像鑄幣偽造者(Generator)和警察(Discriminator)的貓鼠遊戲:
- 偽造者的目標:生成讓警察認不出的假幣
- 警察的目標:分辨真幣與假幣
- 兩者互相競爭,偽造者越來越厲害,警察的鑑別能力也越來越強——最後偽造者能生成幾乎以假亂真的「假幣」
| GAN 變體 | 特色 | 應用 |
|---|---|---|
| StyleGAN / StyleGAN2 | 高品質人臉生成(thispersondoesnotexist.com) | 人臉合成、虛擬角色 |
| Pix2Pix | 條件式 GAN,圖到圖轉換 | 草稿上色、衛星圖轉地圖 |
| CycleGAN | 無需成對資料的風格轉換 | 馬變斑馬、夏天轉冬天 |
路線二:擴散模型(Diffusion Model)
架構:透過「逐步加入雜訊(前向擴散)→ 學習逆向去噪(反向擴散)」來生成影像。
生活類比:想像你把一張清晰照片逐步撒上沙子,直到變成一片雜訊(前向);然後訓練模型學會「如何從一片沙子逐步清除雜訊,還原出清晰影像」(反向)。生成新影像時,從純雜訊出發,讓模型一步一步「去沙」,最終生成全新的影像。
| 擴散模型 | 機構 | 特色 |
|---|---|---|
| DALL-E 系列 | OpenAI | 文字描述生成影像,介面簡單 |
| Stable Diffusion | Stability AI | 開源,可本地端運行,社群生態豐富 |
| Midjourney | Midjourney | 藝術風格出色,廣受設計師使用 |
| Imagen | 高度逼真的文字生成影像 |
考試重點:GAN 的兩大元件——生成器(Generator)與判別器(Discriminator)的**對抗訓練(Adversarial Training)**機制是必考概念。擴散模型(Diffusion Model) 目前已在大多數生成任務上超越 GAN,Stable Diffusion 是最代表性的開源擴散模型。
4. 電腦視覺的產業應用地圖
| 產業 | CV 應用 | 對應任務 |
|---|---|---|
| 醫療影像 | X 光腫瘤偵測、病理切片分析、眼底影像篩查、手術輔助導航 | 影像分類、語義分割 |
| 自動駕駛 | 行人車輛偵測、車道線識別、障礙物分割、交通號誌辨識 | 物件偵測、語義分割 |
| 製造品管 | PCB 電路板瑕疵偵測、外觀品質檢測、包裝完整性確認 | 影像分類、物件偵測 |
| 人臉辨識 | 門禁系統、行動支付、人流統計、情緒辨識 | 影像分類、關鍵點偵測 |
| 零售 | 無人商店商品辨識、貨架補貨監測、顧客行為分析 | 物件偵測、姿態辨識 |
| 農業 | 病蟲害辨識、作物成熟度判斷、無人機田間巡視 | 影像分類、語義分割 |
| 創意產業 | AI 繪圖、虛擬試穿、電影特效 | 影像生成 |
三、關鍵名詞中英對照
| 中文 | 英文 | 說明 |
|---|---|---|
| 電腦視覺 | Computer Vision (CV) | 讓電腦從影像中理解視覺資訊的 AI 子領域 |
| 卷積神經網路 | Convolutional Neural Network (CNN) | 以卷積操作為核心的影像處理神經網路 |
| 卷積 | Convolution | 用小型濾波器在影像上滑動以提取局部特徵的操作 |
| 濾波器/卷積核 | Filter / Kernel | CNN 中用於掃描影像並提取特徵的小型矩陣 |
| 池化 | Pooling | 縮小特徵圖尺寸同時保留重要特徵的操作 |
| 特徵擷取 | Feature Extraction | 從原始影像中自動學習有意義特徵表示的過程 |
| 遷移學習 | Transfer Learning | 將預訓練模型應用於新任務以節省資源的技術 |
| 微調 | Fine-tuning | 在預訓練模型基礎上針對特定任務繼續訓練 |
| 資料增強 | Data Augmentation | 對訓練影像進行隨機變換以擴充訓練集的技術 |
| 殘差連接 | Residual Connection | ResNet 的核心創新,讓訊號繞過某些層直接傳遞 |
| 影像分類 | Image Classification | 將影像歸類至預定類別的 CV 基礎任務 |
| 物件偵測 | Object Detection | 同時輸出物體類別與位置(邊界框)的任務 |
| 邊界框 | Bounding Box | 物件偵測中框住物體的矩形區域 |
| 交並比 | Intersection over Union (IoU) | 衡量預測框與真實框重疊程度的指標 |
| 平均精度均值 | mean Average Precision (mAP) | 物件偵測任務的主要評估指標 |
| 語義分割 | Semantic Segmentation | 對影像中每個像素進行類別標注的任務 |
| 實例分割 | Instance Segmentation | 區分同類別不同個體的精細分割任務 |
| 逐像素標注 | Pixel-wise Labeling | 對影像每個像素分配語義類別標籤 |
| 空洞卷積 | Dilated Convolution | 在卷積核中加入間隔以擴大感受野而不縮小解析度 |
| 姿態辨識 | Pose Estimation | 從影像中偵測人體關鍵點並重建姿態骨架的任務 |
| 關鍵點 | Keypoints | 姿態辨識中人體關節或特徵點的座標 |
| 骨架 | Skeleton | 連接關鍵點形成的人體結構示意圖 |
| 影像生成 | Image Generation | 讓 AI 生成新影像的任務 |
| 生成對抗網路 | Generative Adversarial Network (GAN) | 由生成器與判別器對抗訓練的生成模型 |
| 生成器 | Generator | GAN 中負責生成假影像的網路 |
| 判別器 | Discriminator | GAN 中負責區分真假影像的網路 |
| 擴散模型 | Diffusion Model | 透過逐步去噪過程生成影像的模型 |
四、考試重點提示
考試重點:CNN 的核心優勢——透過卷積操作自動學習影像的階層式特徵(淺層學邊緣、深層學語義),不需要人工設計特徵,這是 CNN 相對於傳統 CV 方法的根本突破。
考試重點:ResNet 的殘差連接(Residual Connection / Skip Connection) 解決了深層網路的梯度消失問題,讓訓練超過 100 層的深度網路成為可能。這是 CV 發展史上的關鍵里程碑。
考試重點:五大任務的輸出形式差異——影像分類(類別標籤)、物件偵測(類別 + 邊界框)、語義分割(逐像素類別圖)、姿態辨識(關鍵點座標)、影像生成(新影像)。輸出形式的差異是選擇題常見考點。
考試重點:GAN 的兩大元件——生成器(Generator)生成假影像,判別器(Discriminator)辨別真假,兩者對抗訓練(Adversarial Training) 直至生成器騙過判別器。這個機制是高頻考點。
考試重點:遷移學習(Transfer Learning)在 CV 的重要性——因為影像標注成本高、預訓練的低層特徵(邊緣、紋理)具有通用性,在 ImageNet 預訓練後 Fine-tuning 是業界標準做法。
考試重點:U-Net 的設計場景是醫療影像分割;YOLO 系列代表即時(Real-time)物件偵測;Stable Diffusion 是最主流的開源擴散模型——這三個「模型 ↔ 應用場景」的配對是常見選擇題。
Q1. CNN 的「卷積(Convolution)」操作主要的作用是什麼?
- A. 將影像像素的 RGB 值轉換為灰階,減少資料量
- B. 用小型濾波器在影像上滑動,捕捉局部空間特徵
- C. 將影像縮放至標準尺寸(如 224×224)
- D. 計算影像中每個像素與全局平均值的差異
Q2. ResNet 架構最重要的技術創新是什麼,它解決了什麼問題?
- A. 引入 Dropout 正則化,解決過擬合問題
- B. 使用 1×1 卷積,大幅減少模型參數量
- C. 引入殘差連接(Residual Connection),解決深層網路的梯度消失問題
- D. 採用全局平均池化(Global Average Pooling),取代全連接層
Q3. 自動駕駛系統需要即時知道「前方 5 公尺有一個行人,站在路面座標 (x1,y1)-(x2,y2) 的範圍內」,應使用哪項 CV 任務?
- A. 影像分類(Image Classification)——判斷影像中有沒有行人
- B. 姿態辨識(Pose Estimation)——分析行人的動作姿勢
- C. 物件偵測(Object Detection)——同時輸出行人的類別與位置邊界框
- D. 語義分割(Semantic Segmentation)——對每個像素標記是否為行人
Q4. 關於 GAN(生成對抗網路),下列描述何者正確?
- A. GAN 只包含一個神經網路,透過自監督學習生成影像
- B. GAN 由生成器(Generator)與判別器(Discriminator)組成,兩者對抗訓練
- C. GAN 的訓練目標是最小化生成影像與原始影像的像素差異
- D. 擴散模型(Diffusion Model)是 GAN 的一種特殊變體
Q5. 某醫院要開發一套系統,自動在 CT 掃描影像中精確標記腫瘤的邊界(精確到每個像素)。最適合的 CV 任務與代表模型為何?
- A. 物件偵測 → YOLO,輸出腫瘤的邊界框
- B. 語義分割 → U-Net,對每個像素標記是否為腫瘤
- C. 影像分類 → ResNet,判斷 CT 影像中是否有腫瘤
- D. 姿態辨識 → OpenPose,標記腫瘤的關鍵邊緣點
解答與解析
| 題號 | 答案 | 解析 |
|---|---|---|
| Q1 | B | CNN 卷積操作的核心是用小型濾波器(Filter / Kernel) 在影像上滑動掃描,每個位置計算濾波器與對應區域的點積,捕捉邊緣、紋理等局部空間特徵。選 A(灰階轉換)是預處理步驟;選 C(縮放到標準尺寸)也是預處理;選 D(差異計算)不是卷積的定義。 |
| Q2 | C | ResNet 於 2015 年提出的殘差連接(Residual Connection / Skip Connection),讓訊號可以繞過若干層直接傳遞,使梯度在反向傳播時不需要穿越所有層,有效解決了深層網路的梯度消失問題,讓訓練超過 100 層的超深網路成為可能。Dropout(選 A)和 Global Average Pooling(選 D)雖在 ResNet 中使用,但不是其核心創新;1×1 卷積(選 B)是 Inception/BottleNeck 的特色。 |
| Q3 | C | 任務需求是「辨識行人類別 + 輸出行人位置座標(邊界框)」,這正是**物件偵測(Object Detection)**的定義。影像分類(選 A)只輸出類別,無位置資訊;姿態辨識(選 B)分析身體關節點,目的是理解姿勢而非定位行人;語義分割(選 D)雖然更精細,但對即時自駕車應用而言計算成本更高,且邊界框是更直接的位置表示方式。 |
| Q4 | B | GAN 由兩個神經網路組成:**生成器(Generator)**負責生成逼真的假影像;判別器(Discriminator)負責區分真實影像與生成影像。兩者透過對抗訓練(Adversarial Training) 相互競爭提升,直到生成器能騙過判別器。選 A 錯(GAN 有兩個網路);選 C 描述的是 VAE(變分自編碼器)或 MSE Loss 的概念;選 D 錯,擴散模型是獨立的生成架構,不是 GAN 的變體。 |
| Q5 | B | 「精確到每個像素標記腫瘤邊界」是**語義分割(Semantic Segmentation)**的定義——逐像素分類。U-Net 正是為醫療影像分割而設計的經典 Encoder-Decoder 架構,在腫瘤偵測、器官輪廓標注等任務上有大量成功應用。YOLO(選 A)輸出的是矩形邊界框,無法精確標記不規則腫瘤邊界;ResNet(選 C)只能輸出「有/無腫瘤」的分類結果;OpenPose(選 D)是人體姿態辨識工具,完全不適用於醫療影像分割。 |