一、學習目標
完成本單元後,你將能夠:
- 解釋自然語言處理(NLP)的定義與核心挑戰
- 說明語言模型的演進脈絡:n-gram → Word2Vec/GloVe → BERT/GPT
- 分辨 NLP 五大核心任務並舉出各任務的代表模型
- 理解斷詞(Tokenization)、詞嵌入(Word Embedding)、注意力機制(Attention)三大基礎概念
- 列舉 NLP 在各產業的實際應用場景
二、核心內容
1. 什麼是 NLP?
自然語言處理(Natural Language Processing,NLP) 是讓電腦能夠理解、分析、生成人類語言的 AI 子領域。人類語言是所有 AI 任務中最複雜的輸入形式——同一句話在不同語境下可能完全相反,充滿歧義、隱喻、語氣與文化背景。
生活類比:NLP 就像替電腦裝上一雙「聽得懂人話」的耳朵和「說得出人話」的嘴巴。傳統程式只能處理結構化的數字與代碼;NLP 讓程式能夠處理你每天說的話、寫的文章、發的訊息。
NLP 的三大核心挑戰:
| 挑戰 | 說明 | 範例 |
|---|---|---|
| 歧義性(Ambiguity) | 同一個詞或句子有多種解讀 | 「我看見他用望遠鏡」——是誰在用望遠鏡? |
| 語境依賴(Context Dependency) | 詞義取決於上下文 | 「蘋果」在科技文章中指公司,在食譜中指水果 |
| 語言多樣性(Linguistic Diversity) | 各語言語法、書寫系統差異極大 | 中文無空格分詞,阿拉伯文從右向左書寫 |
2. 語言模型的演進:從 n-gram 到 GPT
理解 NLP 的發展史,就是理解「電腦如何越來越懂語言」的過程。
第一代:統計語言模型(n-gram)
n-gram 是最早期的語言模型。它統計語料庫中詞語的共現機率,用「前 n-1 個詞預測下一個詞」。
生活類比:就像輸入法的聯想字功能。打了「今天天氣」,輸入法會推薦「很好」、「晴朗」——因為這些詞在歷史資料中常跟在這句話後面。
缺點:無法捕捉長距離語義關係;詞彙表爆炸(每個 n-gram 組合都要儲存);「看不見問題(Data Sparsity)」——罕見詞組的統計資料不足。
第二代:詞向量(Word2Vec / GloVe)
2013 年,Google 提出 Word2Vec,將每個詞映射為一個低維連續向量(通常 50~300 維),語義相似的詞在向量空間中距離相近。
經典範例:
向量(國王) - 向量(男人) + 向量(女人) ≈ 向量(女王)
| 模型 | 提出者 | 核心方法 |
|---|---|---|
| Word2Vec | Google(2013) | 用局部窗口(Local Context Window)訓練詞向量 |
| GloVe | Stanford(2014) | 全局詞共現統計(Global Co-occurrence Matrix) |
| FastText | Facebook(2016) | 子詞(Subword)分解,對罕見詞與形態豐富語言更友善 |
缺點:一個詞只有一個固定向量,無法處理「蘋果」在不同語境下的不同語義(多義詞問題)。
第三代:預訓練語言模型(BERT / GPT)
生活類比:第一、二代就像字典——每個詞有固定的解釋;第三代像一個讀過整個網際網路的語言大師,能根據整句話的語境動態理解每個詞的含義。
| 模型 | 機構 | 架構 | 特色 |
|---|---|---|---|
| BERT | Google(2018) | Transformer Encoder | 雙向語境理解,適合理解任務 |
| GPT 系列 | OpenAI(2018~) | Transformer Decoder | 單向生成,適合生成任務 |
| RoBERTa | Facebook(2019) | 改良 BERT | 更長訓練、去除 NSP,效果更好 |
| T5 | Google(2019) | Encoder-Decoder | 統一所有 NLP 任務為 Text-to-Text 格式 |
考試重點:語言模型三代演進的關鍵轉折:n-gram 靠統計頻率→ Word2Vec 靠向量空間→ BERT/GPT 靠Transformer + 大規模預訓練。每一代都解決了上一代的核心痛點。
3. NLP 基礎概念:三大技術積木
在進入五大任務前,先掌握三個貫穿 NLP 的基礎概念。
3.1 斷詞(Tokenization)
定義:將原始文本切分成模型可處理的最小單位(Token)。
生活類比:就像拆信封——你必須先把一整封信拆成一個個詞語(或字節),才能分析其中的意思。
| 層級 | 說明 | 範例(「人工智慧」) |
|---|---|---|
| 詞級(Word-level) | 以詞為單位切分 | 人工 / 智慧 |
| 字元級(Character-level) | 以單字切分 | 人 / 工 / 智 / 慧 |
| 子詞(Subword,如 BPE) | 介於詞與字元之間,現代 LLM 主流 | 人工 / 智 / 慧 |
中文 NLP 的額外挑戰:中文沒有空格,必須先進行中文分詞(Chinese Word Segmentation),才能做後續處理。
3.2 詞嵌入(Word Embedding)
定義:將 Token 轉換為數值向量,使電腦能夠進行數學運算。詞嵌入捕捉了詞語的語義關係——語義相近的詞,其向量在空間中距離也相近。
生活類比:就像把每個詞放在一張多維度的地圖上,語義相近的詞(如「快樂」與「開心」)在地圖上住得很近;語義相反的詞(如「熱」與「冷」)住得很遠。
3.3 注意力機制(Attention Mechanism)
定義:讓模型在處理某個詞時,能「注意到」句子中其他相關的詞,並動態調整其重要性權重。
生活類比:你在讀一篇長報告時,不會對每個字都一視同仁——你的眼睛會自動聚焦在關鍵數據和重要結論上。Attention 就是讓模型具備這種「選擇性關注」的能力。
4. NLP 五大核心任務
任務一:文本分類(Text Classification)
定義:將一段文本歸類至預定的類別中。最常見的應用是情緒分析(Sentiment Analysis)。
生活類比:你收到一千則客戶評論,需要快速分成「正評」「負評」「中立」三類。以前需要人工一則一則看;文本分類讓 AI 在幾秒內完成。
應用場景:
- 電商平台:自動分析商品評論情緒
- 新聞媒體:將文章自動分類至科技、財經、體育等版面
- 客服系統:自動識別用戶投訴類型並分派處理
代表模型與方法:
| 方法 | 說明 | 適用場景 |
|---|---|---|
| Naive Bayes(樸素貝氏) | 基於貝氏定理的統計分類器,訓練快速 | 資料量小、快速原型 |
| BERT + Fine-tuning | 預訓練模型微調,效果最佳 | 高精度需求、有標注資料 |
| DistilBERT | BERT 的輕量版,速度快 3 倍 | 生產環境即時推論 |
考試重點:情緒分析(Sentiment Analysis)是文本分類的最典型應用。Naive Bayes 是傳統機器學習方法的代表;BERT Fine-tuning 是深度學習時代的最佳實踐。
任務二:命名實體辨識(Named Entity Recognition,NER)
定義:從文本中自動識別並標記具有特定意義的「實體」,如人名、地名、組織名、日期、金額等。
生活類比:就像在讀一篇新聞時,用不同顏色的螢光筆標記人名(黃色)、地名(藍色)、公司名(綠色)。NER 讓 AI 自動做這件事。
範例:
輸入:「台積電創辦人張忠謀於2023年在台北出席半導體論壇。」
輸出:
台積電 → 組織(ORG)
張忠謀 → 人名(PER)
2023年 → 日期(DATE)
台北 → 地點(LOC)
半導體論壇 → 事件(EVENT)
代表模型與工具:
| 工具/模型 | 說明 |
|---|---|
| CRF(條件隨機場) | 傳統序列標注模型,考慮標籤間的依賴關係 |
| spaCy | 工業級 NLP 函式庫,內建多語言 NER 模型 |
| BERT + Token Classification | 對每個 Token 預測其實體類別,目前最高精度 |
應用場景:
- 金融新聞:自動萃取公司、人物、金額資訊建立知識圖譜
- 醫療紀錄:識別藥物名稱、疾病、患者資訊
- 法律文件:自動擷取合約中的當事人、日期、條款關鍵詞
任務三:機器翻譯(Machine Translation)
定義:自動將一種語言的文本翻譯為另一種語言,同時保留語義、語氣與文化語境。
機器翻譯的演進:
| 世代 | 方法 | 代表系統 | 核心問題 |
|---|---|---|---|
| 規則式(RBMT) | 人工撰寫語法規則 | 早期 Systran | 規則無法窮舉,維護成本高 |
| 統計式(SMT) | 語料庫統計對齊 | Google Translate(早期) | 長句翻譯品質差 |
| 神經網路(NMT) | Seq2Seq + Attention | Google NMT(2016) | 解決長距離依賴 |
| Transformer-based | 完整 Transformer 架構 | mBART、mT5、DeepL | 目前最高品質 |
Seq2Seq 架構生活類比: 想像口譯員的工作流程:他先聽完整段話(Encoder 編碼輸入序列),在腦中形成對話的完整理解,再逐字說出翻譯(Decoder 解碼輸出序列)。Seq2Seq 就是這個過程的數學化版本。
主要挑戰:
- 低資源語言(Low-resource Languages):訓練資料稀少的語言翻譯品質差
- 文化特定表達(Culture-specific Expressions):成語、俚語、雙關語難以直譯
- 領域特化(Domain Adaptation):通用模型在法律、醫學等專業領域表現不佳
考試重點:機器翻譯從 Seq2Seq(解決長距離依賴)到 Transformer(平行訓練、效果更好)是關鍵演進。mBART 是目前主流的多語言翻譯模型。
任務四:問答系統(Question Answering,QA)
定義:讓 AI 根據提供的資料或自身知識,回答用戶提出的自然語言問題。
兩大類型對比:
| 類型 | 定義 | 代表模型 | 特點 |
|---|---|---|---|
| 抽取式(Extractive QA) | 從原始文件中找到並擷取答案片段 | BERT + SQuAD | 答案必定在文件中,準確度高但受文件限制 |
| 生成式(Generative QA) | 根據理解重新生成自然語言答案 | T5、GPT、ChatGPT | 可整合多段資訊,答案更自然,但可能產生幻覺 |
生活類比:
- 抽取式 QA:就像開卷考試,老師給你一篇文章,你只能從文章中找答案(不能自己發揮)。答案一定在文中某個地方。
- 生成式 QA:就像申論題,你整合自己所有的知識,用自己的話組成完整的回答。靈活但可能「胡說」。
RAG(Retrieval-Augmented Generation):
現代問答系統最常用的架構是 RAG——先從知識庫檢索相關文件,再讓生成式模型根據這些文件生成答案,結合了抽取式的可靠性與生成式的流暢性。
用戶問題
→ 向量搜尋(檢索相關文件)
→ 文件 + 問題輸入 LLM
→ 有依據的自然語言回答
應用場景:
- 企業內部知識庫問答(員工查詢政策、流程)
- 客服自動回覆(根據 FAQ 和商品文件)
- 醫療問診輔助(根據病歷與指引回答醫師問題)
任務五:文本生成與摘要(Text Generation & Summarization)
定義:
- 文本生成(Text Generation):從給定的提示或條件,自動生成連貫、有意義的文字
- 文本摘要(Text Summarization):將長篇文章壓縮為保留核心資訊的短摘要
兩種摘要方式對比:
| 類型 | 方法 | 優點 | 缺點 |
|---|---|---|---|
| 抽取式摘要(Extractive) | 直接選取原文中最重要的句子 | 忠實原文,不引入錯誤 | 句子間可能不連貫 |
| 生成式摘要(Abstractive) | 理解文章後用新的措辭重新表達 | 流暢自然,可整合多段資訊 | 可能扭曲原意或產生幻覺 |
代表模型:
| 模型 | 擅長任務 | 說明 |
|---|---|---|
| GPT 系列 | 文本生成、對話、創意寫作 | Decoder-only,強大的生成能力 |
| T5 / FLAN-T5 | 摘要、翻譯、問答(統一格式) | Encoder-Decoder,多任務能力強 |
| BART | 摘要、文本去噪(Denoising) | 特別針對摘要任務優化的 Encoder-Decoder |
生活類比:文本生成就像請一位擅長寫作的助理,給他一個題目(Prompt),他幫你寫出整篇文章。文本摘要則像請他把一份 50 頁報告濃縮成 1 頁執行摘要——你要的是「精髓」,不是「複製貼上」。
考試重點:摘要分為**抽取式(直接擷取原句)與生成式(重新措辭)**兩種。GPT 擅長生成任務(Decoder-only);T5 和 BART 的 Encoder-Decoder 架構更適合摘要。
5. NLP 的產業應用地圖
| 產業 | NLP 應用 | 對應任務 |
|---|---|---|
| 金融 | 財報情緒分析、詐欺偵測、客服機器人 | 文本分類、NER、QA |
| 醫療 | 電子病歷資訊擷取、藥物名稱辨識、臨床摘要 | NER、文本摘要 |
| 法律 | 合約審查、判決書關鍵條款萃取 | NER、文本分類 |
| 電商 | 商品評論分析、智能客服、商品描述生成 | 文本分類、文本生成 |
| 媒體 | 新聞自動摘要、假新聞偵測、多語言翻譯 | 文本摘要、文本分類、機器翻譯 |
| 教育 | 作文自動批改、智能問答輔導 | 文本分類、QA |
三、關鍵名詞中英對照
| 中文 | 英文 | 說明 |
|---|---|---|
| 自然語言處理 | Natural Language Processing (NLP) | 讓電腦理解與生成人類語言的 AI 子領域 |
| 語言模型 | Language Model | 對文本序列機率分布進行建模的模型 |
| 斷詞/分詞 | Tokenization | 將文本切分為 Token 的過程 |
| 子詞編碼 | Byte-Pair Encoding (BPE) | 現代 LLM 主流的子詞斷詞方法 |
| 詞嵌入 | Word Embedding | 將詞語映射為低維連續數值向量的技術 |
| 注意力機制 | Attention Mechanism | 動態決定序列中各位置重要性的機制 |
| 情緒分析 | Sentiment Analysis | 判斷文本情緒傾向(正、負、中立)的任務 |
| 文本分類 | Text Classification | 將文本歸類至預定類別的 NLP 任務 |
| 命名實體辨識 | Named Entity Recognition (NER) | 從文本中識別人名、地名、組織等實體 |
| 序列標注 | Sequence Labeling | 對序列中每個 Token 分配標籤的任務 |
| 條件隨機場 | Conditional Random Field (CRF) | 常用於 NER 的序列標注機率模型 |
| 機器翻譯 | Machine Translation (MT) | 自動將文本從一種語言翻譯為另一種語言 |
| 序列到序列 | Sequence-to-Sequence (Seq2Seq) | 將輸入序列映射為輸出序列的 Encoder-Decoder 架構 |
| 低資源語言 | Low-resource Language | 訓練資料稀少、NLP 表現較差的語言 |
| 問答系統 | Question Answering (QA) | 根據文件或知識自動回答自然語言問題 |
| 抽取式問答 | Extractive QA | 從文件中直接擷取答案片段的 QA 方式 |
| 生成式問答 | Generative QA | 根據理解重新生成自然語言答案的 QA 方式 |
| 檢索增強生成 | Retrieval-Augmented Generation (RAG) | 結合文件檢索與生成的 QA 架構 |
| 文本摘要 | Text Summarization | 將長篇文本壓縮為保留核心資訊的摘要 |
| 抽取式摘要 | Extractive Summarization | 直接選取原文中重要句子組成摘要 |
| 生成式摘要 | Abstractive Summarization | 理解文章後用新措辭重新生成摘要 |
| 微調 | Fine-tuning | 在預訓練模型基礎上針對特定任務進行再訓練 |
| 多語言模型 | Multilingual Model | 能同時處理多種語言的模型(如 mBART、mT5) |
四、考試重點提示
考試重點:語言模型演進三大里程碑——n-gram(統計頻率)→ Word2Vec/GloVe(向量空間)→ BERT/GPT(Transformer 預訓練)。每一代解決的問題與殘留的缺陷都是考點。
考試重點:NER 的五大實體類別——人名(PER)、地點(LOC)、組織(ORG)、日期(DATE)、金額(MONEY)——是選擇題的常見選項。代表工具是 spaCy;代表模型是 BERT + Token Classification。
考試重點:抽取式 QA vs 生成式 QA 的核心差異——抽取式答案必定出自原文(準確但受限);生成式可整合多段資訊(靈活但可能幻覺)。RAG 結合兩者優點是目前主流方案。
考試重點:機器翻譯的演進——規則式 → 統計式(SMT)→ 神經網路 Seq2Seq → Transformer-based(mBART),每個階段解決的問題是「長距離依賴」和「平行訓練」。
考試重點:摘要的兩種類型——抽取式(直接選取原句,忠實但不連貫)vs 生成式(重新措辭,流暢但可能失真)。BERT 適合抽取式;T5/BART 適合生成式摘要。
Q1. 下列哪一項最準確描述 Word2Vec 的核心技術突破?
- A. 用規則撰寫語法樹,自動解析句子結構
- B. 統計每個詞在語料庫中的出現頻率作為其特徵
- C. 將詞語映射為低維連續向量,語義相近的詞在向量空間中距離相近
- D. 對每個 Token 預測其命名實體類別
Q2. 某銀行要從數萬份財報新聞中自動識別「公司名稱」「負責人姓名」「財務數字」等資訊,應優先使用哪一項 NLP 技術?
- A. 文本摘要(Text Summarization)
- B. 機器翻譯(Machine Translation)
- C. 命名實體辨識(Named Entity Recognition, NER)
- D. 情緒分析(Sentiment Analysis)
Q3. 關於抽取式問答(Extractive QA)與生成式問答(Generative QA),下列描述何者正確?
- A. 抽取式 QA 的答案由模型重新生成,可能不在原文中出現
- B. 生成式 QA 的答案必定是原文中某段文字的直接複製
- C. 抽取式 QA 答案直接來自原文,準確度高但靈活度低;生成式 QA 更靈活但可能產生幻覺
- D. 兩者都不適合使用 BERT 作為基礎模型
Q4. Seq2Seq 架構在機器翻譯中解決了哪個問題,使其優於早期統計式翻譯(SMT)?
- A. 大幅減少所需的訓練語料量
- B. 能夠有效捕捉長距離語義依賴,改善長句翻譯品質
- C. 完全消除翻譯中的文化適應問題
- D. 讓模型不需要訓練即可零樣本翻譯任何語言
Q5. 下列哪一種組合正確對應了 NLP 任務與其代表模型?
- A. 文本分類 → mBART;機器翻譯 → Naive Bayes
- B. 命名實體辨識 → spaCy/BERT;文本生成 → GPT;摘要 → T5/BART
- C. 問答系統 → Word2Vec;情緒分析 → Seq2Seq
- D. 機器翻譯 → CRF;文本摘要 → n-gram
解答與解析
| 題號 | 答案 | 解析 |
|---|---|---|
| Q1 | C | Word2Vec 的核心貢獻是「詞向量表示」——將每個詞映射為低維連續向量,語義相近的詞(如「快樂」與「開心」)在向量空間中距離接近,並能進行語義加減運算(國王 - 男人 + 女人 ≈ 女王)。選 A 是規則式 NLP;選 B 是詞頻統計(如 TF-IDF);選 D 是 NER 任務描述。 |
| Q2 | C | 從文本中自動識別並標記具有特定意義的「實體」(公司名、人名、財務數字)正是**命名實體辨識(NER)**的核心任務。文本摘要是壓縮文章;機器翻譯是跨語言轉換;情緒分析是判斷正負評,都不符合本題需求。 |
| Q3 | C | 抽取式 QA 直接從原文中擷取答案片段,答案必定在文件中(準確但受文件限制)。生成式 QA 根據理解重新組織語言,能整合多段資訊但可能產生幻覺。選 A 和 B 的描述互換了兩者特性;選 D 錯誤,BERT 正是抽取式 QA 的主流基礎模型(如在 SQuAD 資料集上訓練)。 |
| Q4 | B | Seq2Seq 引入 Encoder-Decoder 架構配合 Attention 機制,能夠讓 Decoder 在生成每個目標詞時,動態關注輸入序列中最相關的位置,有效解決了統計式翻譯(SMT)在長句中因管道模組誤差累積導致的長距離語義依賴問題。Seq2Seq 仍需大量訓練資料(選 A 錯);文化適應問題至今未完全解決(選 C 錯);零樣本翻譯是 Transformer 時代才出現的能力(選 D 錯)。 |
| Q5 | B | 正確配對:命名實體辨識 → spaCy(工具)/ BERT Token Classification(模型);文本生成 → GPT 系列(Decoder-only 生成架構);文本摘要 → T5(Text-to-Text 統一格式)/ BART(專為摘要優化的 Encoder-Decoder)。其他選項均將模型與任務配對錯誤:mBART 用於機器翻譯而非分類;CRF 用於 NER 而非翻譯;n-gram 是早期語言模型不是摘要工具。 |