一、學習目標
完成本單元後,你將能夠:
- 說明「多模態 AI(Multimodal AI)」的定義,以及為何它比單模態更貼近真實世界
- 解釋 Joint Embedding、Cross-Attention、Contrastive Learning 三大核心技術
- 描述 CLIP 的訓練方式與零樣本分類(Zero-shot Classification)能力
- 比較 CLIP、DALL-E、GPT-4V、Gemini、Flamingo 五大代表模型
- 列舉多模態 AI 的主要應用場景與當前技術挑戰
二、核心內容
1. 什麼是多模態 AI(Multimodal AI)?
「模態(Modality)」指的是資料的型態:文字、圖片、聲音、影片、感測器數據……都是不同的模態。
單模態 AI(Unimodal AI) 只能處理一種資料型態。例如 GPT-2 只吃文字,傳統影像分類模型只看圖片。
多模態 AI(Multimodal AI) 可以同時接收、理解並生成多種型態的資料,就像人類:我們看電影時同時用眼睛看畫面、用耳朵聽聲音、用大腦讀字幕,這三條資訊流在腦中融合成一體的理解。
| 模態 | 範例資料 | 對應 AI 技術 |
|---|---|---|
| 文字(Text) | 新聞、書籍、程式碼 | LLM、BERT、GPT |
| 圖片(Image) | 照片、X 光、衛星影像 | CNN、ViT |
| 聲音(Audio) | 語音、音樂 | Whisper、WaveNet |
| 影片(Video) | YouTube、監視器畫面 | Video Transformer |
| 結構化資料(Structured) | 表格、感測器 | TabNet、GBM |
生活類比:單模態 AI 就像一個只能閱讀文字卻看不到圖片的人——面對圖文並茂的書本,他只能理解一半。多模態 AI 則像正常人,文字、圖片、聲音一起處理,理解才完整。
2. 為什麼多模態很重要?
現實世界本身就是多模態的。醫生診斷時要同時看影像、讀病歷、聽患者描述;自駕車要同時接收攝影機畫面、雷達訊號、地圖資訊。若 AI 只能處理單一模態,就會在現實應用中「有所盲點」。
| 限制 | 單模態 AI 的困境 | 多模態 AI 的解法 |
|---|---|---|
| 資訊不完整 | 光看圖片無法理解情境脈絡 | 圖文搭配,補足語意 |
| 跨模態推理 | 「這張照片的說明是否正確?」無法回答 | 對齊圖片與文字語意後可判斷 |
| 生成多樣性 | 只能輸出文字,無法生成圖片 | 文字→圖片、圖片→文字都能做 |
| 零樣本泛化 | 新類別需要重新標注訓練資料 | CLIP 等模型可直接遷移 |
考試重點:多模態 AI 的核心價值是「讓 AI 處理更接近現實世界的複雜輸入」,其能力來自跨模態的語意對齊(Semantic Alignment)。
3. 三大核心技術
技術一:Joint Embedding(聯合嵌入空間)
核心思想:將不同模態的資料,透過各自的 Encoder,投影到「同一個向量空間(Shared Vector Space)」。在這個空間裡,語意相近的圖片和文字會距離很近。
圖片 "一隻狗" → Image Encoder → [0.8, 0.2, 0.5, ...]
文字 "a dog" → Text Encoder → [0.7, 0.3, 0.4, ...]
↑ 兩個向量在空間中很接近!
生活類比:就像把世界上所有語言的「蘋果」這個詞,全部翻譯成世界語(Esperanto)的同一個詞。不管原來是中文「蘋果」、英文「apple」或日文「りんご」,在世界語空間裡都指向同一個意義——多模態的 Joint Embedding 就是為圖片和文字建立這樣的「通用語義語言」。
| 組成 | 說明 |
|---|---|
| Image Encoder | 通常為 CNN 或 ViT,將圖片轉為向量 |
| Text Encoder | 通常為 Transformer,將文字轉為向量 |
| Shared Vector Space | 兩個 Encoder 的輸出空間維度相同,語意對齊 |
| 相似度度量 | 通常用餘弦相似度(Cosine Similarity) |
技術二:Cross-Attention(跨模態注意力)
核心思想:讓一個模態的 Query,去關注(Attend)另一個模態的 Key 和 Value。例如:讓文字的 Query 去關注圖片每個區域的 Key,找出「這句話描述的是圖片的哪個部分」。
生活類比:想像你一邊看照片一邊讀說明文字。當你讀到「左上角有一隻貓」,你的眼睛自然會飄向圖片左上角去確認——這個「讀文字時回頭看圖」的動作,就是 Cross-Attention 在做的事。
文字 Query:「貓在哪裡?」
圖片 Key/Value:[左上角向量] [右下角向量] [中央向量] ...
→ Attention Weight:左上角 0.85,其他區域 < 0.05
→ 輸出:左上角圖像特徵(貓的視覺資訊)
| 應用場景 | 說明 |
|---|---|
| 圖文問答(Visual QA) | 文字問題關注圖片相關區域 |
| 圖像說明生成(Image Captioning) | 逐詞生成時關注對應圖像區塊 |
| 多模態翻譯 | 語音 Query 關注影片畫面 Key |
技術三:Contrastive Learning(對比學習)
核心思想:給模型大量的「正確配對(Positive Pairs)」和「錯誤配對(Negative Pairs)」,訓練模型讓正確配對的向量彼此靠近、錯誤配對的向量彼此遠離。
CLIP 的對比學習方式:
Batch 中有 N 張圖片和 N 段文字說明:
- 正確配對(對角線):圖1-文1、圖2-文2、...圖N-文N → 距離拉近
- 錯誤配對(非對角線):圖1-文2、圖1-文3、... → 距離推遠
生活類比:就像學習「這張照片配這段話是對的,那張照片配那段話是錯的」——做了幾億次這樣的練習之後,模型自然就學會了什麼叫做圖文語意的吻合。
| 訓練目標 | 操作 |
|---|---|
| 正對(Positive Pair)距離最小化 | 相符圖文的 Embedding 餘弦相似度趨近 1 |
| 負對(Negative Pair)距離最大化 | 不相符圖文的 Embedding 餘弦相似度趨近 0 或 -1 |
| 損失函數 | InfoNCE Loss(一種對比損失) |
4. 代表模型比較
CLIP(OpenAI,2021)
CLIP(Contrastive Language-Image Pre-training)是多模態 AI 的里程碑模型,使用 4 億對圖文資料,以對比學習方式訓練出強大的圖文對齊能力。
CLIP 最驚人的能力:Zero-shot Classification(零樣本分類)
不需要任何分類訓練資料,只要給出類別的文字描述,CLIP 就能分類圖片:
輸入圖片:[一張貓的照片]
候選文字:["a photo of a cat", "a photo of a dog", "a photo of a car"]
→ 計算圖片向量與每段文字向量的餘弦相似度
→ 相似度最高的文字 = 分類結果:"a photo of a cat"
生活類比:CLIP 就像一個從來沒上過特定課程、但英語超好的學生,考試時靠著理解題目文字就能答對——因為他的「理解能力」已超越記憶特定答案的層次。
DALL-E(OpenAI,系列模型)
DALL-E 將 CLIP 的文字理解能力結合擴散模型(Diffusion Model),實現「文字→圖片」的生成。
| 版本 | 技術基礎 | 特色 |
|---|---|---|
| DALL-E 1(2021) | CLIP + dVAE | 首次展示文字生圖的強大能力 |
| DALL-E 2(2022) | CLIP + DDPM | 解析度更高、更符合語義 |
| DALL-E 3(2023) | 整合 ChatGPT 重寫 Prompt | 遵循複雜指令的能力大幅提升 |
考試重點:DALL-E 的核心原理是「先用 CLIP 的 Text Encoder 理解文字語意,再用 Diffusion Model 生成對應圖片」,是文字到圖片生成(Text-to-Image Generation)的代表。
GPT-4V(OpenAI,2023)
GPT-4V(V = Vision)在 GPT-4 的語言能力基礎上,加入視覺輸入能力,可接受圖片與文字的混合輸入(Multimodal Input),進行視覺推理、圖表解讀、圖文問答。
GPT-4V 能力範例:
| 輸入 | GPT-4V 的輸出 |
|---|---|
| 數學題照片 | 理解題目並逐步解題 |
| 圖表截圖 | 分析趨勢、提取數字 |
| 程式碼截圖 | 找出 Bug 並說明 |
| 料理照片 | 猜測食材、建議食譜 |
Gemini(Google DeepMind,2023)
Gemini 是 Google 推出的原生多模態(Natively Multimodal)大型模型,從訓練階段就整合文字、圖片、音頻、影片與程式碼,而非事後「拼接」視覺模組。
| 特性 | 說明 |
|---|---|
| 原生多模態 | 訓練時就同時接收多種模態,而非後期整合 |
| 三種版本 | Ultra、Pro、Nano(效能與裝置大小分層) |
| 長上下文 | 支援超長 Context Window(最高 100 萬 Token) |
| 競爭對手 | 直接對標 GPT-4V |
「原生多模態」vs「後期整合」類比:Gemini 就像從小同時學中、英、日三語長大的人(各語言融為一體的思維);GPT-4V 則更像先精通英語、後來再加裝翻譯模組的人——兩者都能做多語工作,但底層架構不同。
Flamingo(DeepMind,2022)
Flamingo 是 Few-shot Multimodal Learning(少樣本多模態學習)的代表,可在 Prompt 中混入圖片與文字,僅憑幾個範例就能完成新任務。
Few-shot Prompt 範例:
[圖1:貓] → "this is a cat"
[圖2:狗] → "this is a dog"
[圖3:未知動物] → 模型輸出:"this is a rabbit"
5. 主要應用場景
| 應用 | 說明 | 代表產品 |
|---|---|---|
| 圖像說明生成(Image Captioning) | 自動為圖片產生文字描述 | Google Photos |
| 視覺問答(Visual QA) | 回答關於圖片內容的自然語言問題 | GPT-4V |
| 文字生成圖片(Text-to-Image) | 輸入描述文字,輸出圖片 | DALL-E 3、Midjourney |
| 文字生成影片(Text-to-Video) | 輸入描述,輸出影片 | Sora(OpenAI)、Kling |
| 圖片引導文字生成 | 上傳圖片作為參考,生成相關文字 | Claude、Gemini |
| 多模態搜尋 | 用文字搜圖、用圖搜圖或圖文混搜 | Google Lens、Pinterest |
| 醫療影像分析 | 結合影像與病歷文字做診斷輔助 | Med-PaLM M |
Sora 類比:如果說 DALL-E 是「把文字變成一張照片的攝影師」,那 Sora 就是「把文字變成一部短片的導演」——它不只要生成每一幀畫面,還要維持前後幀的時間一致性(Temporal Consistency)。
6. 技術挑戰
| 挑戰 | 說明 |
|---|---|
| 跨模態對齊(Alignment) | 不同模態的語意對應並非一對一,例如「熱」這個詞對應的圖片可能是火、太陽或溫度計 |
| 計算成本(Computational Cost) | 多模態訓練需要大量 GPU 資源,推論成本也高 |
| 資料收集困難 | 高品質的配對資料(如圖文配對、影音字幕)稀缺且版權複雜 |
| 幻覺問題(Hallucination) | 模型可能「看圖說瞎話」,描述圖片中不存在的內容 |
| 時序建模(Temporal Modeling) | 影片含時間維度,比靜態圖片更難建模 |
三、關鍵名詞中英對照
| 中文 | 英文 | 說明 |
|---|---|---|
| 多模態 AI | Multimodal AI | 能同時處理多種資料型態(文字、圖片、聲音等)的 AI |
| 模態 | Modality | 資料的型態,如文字、影像、音頻 |
| 聯合嵌入空間 | Joint Embedding Space | 將不同模態映射至同一向量空間的技術 |
| 跨模態注意力 | Cross-Attention | 讓一個模態的 Query 關注另一個模態的 Key/Value |
| 對比學習 | Contrastive Learning | 拉近正確配對、推遠錯誤配對的訓練方式 |
| 零樣本分類 | Zero-shot Classification | 不需標注資料,靠語意對齊直接分類新類別 |
| 圖文對齊 | Image-Text Alignment | 使圖片與對應文字在向量空間中靠近的技術 |
| 文字生成圖片 | Text-to-Image Generation | 以文字描述作為條件生成圖片 |
| 文字生成影片 | Text-to-Video Generation | 以文字描述作為條件生成影片 |
| 視覺問答 | Visual Question Answering (VQA) | 針對圖片內容回答自然語言問題的任務 |
| 圖像說明生成 | Image Captioning | 自動為圖片產生文字描述 |
| 原生多模態 | Natively Multimodal | 訓練階段就整合多種模態,非後期拼接 |
| 少樣本學習 | Few-shot Learning | 只需少數範例即可完成新任務 |
| 時間一致性 | Temporal Consistency | 影片前後幀在視覺與語意上保持連貫 |
| 幻覺 | Hallucination | 模型生成與事實不符的描述或內容 |
四、考試重點提示
考試重點:以下是 iPAS 人工智慧考試中與多模態 AI 相關的高頻考點:
- 多模態的定義:能同時處理兩種以上資料型態(文字、圖片、聲音、影片)的 AI 系統
- Joint Embedding 的核心概念:將不同模態映射到同一向量空間,使語意相近的圖文向量距離接近
- CLIP 的訓練方式:對比學習(Contrastive Learning),以圖文正負配對訓練圖文對齊
- CLIP 的零樣本分類能力:不需額外訓練,靠圖文相似度直接分類新類別
- DALL-E 的生成原理:CLIP Text Encoder(理解文字)+ Diffusion Model(生成圖片)
- GPT-4V vs Gemini 的差異:GPT-4V 是後期加入視覺能力,Gemini 是原生多模態設計
- Cross-Attention 的意義:讓文字 Query 去關注圖片中對應的 Key/Value 區域
- 多模態挑戰:跨模態對齊困難、幻覺問題、計算成本高是三大核心挑戰
Q1. 下列哪個模型是以「對比學習(Contrastive Learning)」訓練圖文對齊的代表?
- A. GPT-2
- B. BERT
- C. CLIP
- D. AlphaGo
Q2. CLIP 能夠進行「零樣本分類(Zero-shot Classification)」的原因是?
- A. 模型參數量非常大,記住了所有類別
- B. 透過圖文向量在共享空間中的相似度比對,不需要額外標注資料
- C. 使用了強化學習讓模型自我改進
- D. 採用了 Masked Language Model 預訓練
Q3. 「Cross-Attention(跨模態注意力)」與「Self-Attention(自注意力)」最主要的差異是?
- A. Cross-Attention 只能處理文字,Self-Attention 只能處理圖片
- B. Cross-Attention 的 Query 與 Key/Value 來自不同模態,Self-Attention 的 Q、K、V 來自同一模態
- C. Cross-Attention 不使用 Softmax,Self-Attention 才使用
- D. Cross-Attention 只能用於解碼器,Self-Attention 只能用於編碼器
Q4. 下列關於 Gemini 的描述,何者正確?
- A. Gemini 是 OpenAI 推出的多模態模型
- B. Gemini 是後期將視覺模組拼接至語言模型的架構
- C. Gemini 是 Google DeepMind 推出的原生多模態模型,訓練時就整合多種模態
- D. Gemini 只能處理文字與圖片,不支援音頻或影片
Q5. DALL-E 生成圖片的核心技術組合為何?
- A. RNN + GAN
- B. BERT + VAE
- C. CLIP(文字理解)+ Diffusion Model(圖片生成)
- D. ResNet + Transformer Decoder
解答與解析
| 題號 | 答案 | 解析 |
|---|---|---|
| Q1 | C | CLIP(Contrastive Language-Image Pre-training)是對比學習在圖文對齊上最具代表性的模型,以正負配對訓練 Image Encoder 與 Text Encoder 輸出的向量彼此對齊。 |
| Q2 | B | CLIP 的零樣本分類能力來自圖文共享向量空間——將圖片向量與各類別的文字描述向量做餘弦相似度比對,取最高分即為分類結果,不需要額外的標注訓練資料。 |
| Q3 | B | Cross-Attention 中 Query 來自一個模態(如文字),Key 與 Value 來自另一個模態(如圖片),實現跨模態資訊融合;Self-Attention 則是 Q、K、V 全來自同一序列內部。 |
| Q4 | C | Gemini 是 Google DeepMind 推出,最大特色是「原生多模態(Natively Multimodal)」——從訓練階段就同時接收文字、圖片、音頻、影片,而非事後拼接視覺能力。 |
| Q5 | C | DALL-E 的核心流程是:先以 CLIP 的 Text Encoder 將文字描述轉為語意向量,再以 Diffusion Model(擴散模型)以該語意向量為條件逐步去噪生成圖片。 |