ANGELA JIAN
LOADING
回到課程總覽
第 32 篇 L11101 AI 應用專題

NLP 自然語言處理:讓電腦讀懂人話的核心技術

Angela Jian
Angela Jian 簡琬庭
iPAS AI 應用規劃師 / AI Product Builder

一、學習目標

完成本單元後,你將能夠:

  1. 解釋自然語言處理(NLP)的定義與核心挑戰
  2. 說明語言模型的演進脈絡:n-gram → Word2Vec/GloVe → BERT/GPT
  3. 分辨 NLP 五大核心任務並舉出各任務的代表模型
  4. 理解斷詞(Tokenization)、詞嵌入(Word Embedding)、注意力機制(Attention)三大基礎概念
  5. 列舉 NLP 在各產業的實際應用場景

二、核心內容

1. 什麼是 NLP?

自然語言處理(Natural Language Processing,NLP) 是讓電腦能夠理解、分析、生成人類語言的 AI 子領域。人類語言是所有 AI 任務中最複雜的輸入形式——同一句話在不同語境下可能完全相反,充滿歧義、隱喻、語氣與文化背景。

生活類比:NLP 就像替電腦裝上一雙「聽得懂人話」的耳朵和「說得出人話」的嘴巴。傳統程式只能處理結構化的數字與代碼;NLP 讓程式能夠處理你每天說的話、寫的文章、發的訊息。

NLP 的三大核心挑戰

挑戰說明範例
歧義性(Ambiguity)同一個詞或句子有多種解讀「我看見他用望遠鏡」——是誰在用望遠鏡?
語境依賴(Context Dependency)詞義取決於上下文「蘋果」在科技文章中指公司,在食譜中指水果
語言多樣性(Linguistic Diversity)各語言語法、書寫系統差異極大中文無空格分詞,阿拉伯文從右向左書寫

2. 語言模型的演進:從 n-gram 到 GPT

理解 NLP 的發展史,就是理解「電腦如何越來越懂語言」的過程。

第一代:統計語言模型(n-gram)

n-gram 是最早期的語言模型。它統計語料庫中詞語的共現機率,用「前 n-1 個詞預測下一個詞」。

生活類比:就像輸入法的聯想字功能。打了「今天天氣」,輸入法會推薦「很好」、「晴朗」——因為這些詞在歷史資料中常跟在這句話後面。

缺點:無法捕捉長距離語義關係;詞彙表爆炸(每個 n-gram 組合都要儲存);「看不見問題(Data Sparsity)」——罕見詞組的統計資料不足。

第二代:詞向量(Word2Vec / GloVe)

2013 年,Google 提出 Word2Vec,將每個詞映射為一個低維連續向量(通常 50~300 維),語義相似的詞在向量空間中距離相近。

經典範例

向量(國王) - 向量(男人) + 向量(女人) ≈ 向量(女王)
模型提出者核心方法
Word2VecGoogle(2013)用局部窗口(Local Context Window)訓練詞向量
GloVeStanford(2014)全局詞共現統計(Global Co-occurrence Matrix)
FastTextFacebook(2016)子詞(Subword)分解,對罕見詞與形態豐富語言更友善

缺點:一個詞只有一個固定向量,無法處理「蘋果」在不同語境下的不同語義(多義詞問題)。

第三代:預訓練語言模型(BERT / GPT)

生活類比:第一、二代就像字典——每個詞有固定的解釋;第三代像一個讀過整個網際網路的語言大師,能根據整句話的語境動態理解每個詞的含義。

模型機構架構特色
BERTGoogle(2018)Transformer Encoder雙向語境理解,適合理解任務
GPT 系列OpenAI(2018~)Transformer Decoder單向生成,適合生成任務
RoBERTaFacebook(2019)改良 BERT更長訓練、去除 NSP,效果更好
T5Google(2019)Encoder-Decoder統一所有 NLP 任務為 Text-to-Text 格式

考試重點:語言模型三代演進的關鍵轉折:n-gram 靠統計頻率→ Word2Vec 靠向量空間→ BERT/GPT 靠Transformer + 大規模預訓練。每一代都解決了上一代的核心痛點。


3. NLP 基礎概念:三大技術積木

在進入五大任務前,先掌握三個貫穿 NLP 的基礎概念。

3.1 斷詞(Tokenization)

定義:將原始文本切分成模型可處理的最小單位(Token)。

生活類比:就像拆信封——你必須先把一整封信拆成一個個詞語(或字節),才能分析其中的意思。

層級說明範例(「人工智慧」)
詞級(Word-level)以詞為單位切分人工 / 智慧
字元級(Character-level)以單字切分人 / 工 / 智 / 慧
子詞(Subword,如 BPE)介於詞與字元之間,現代 LLM 主流人工 / 智 / 慧

中文 NLP 的額外挑戰:中文沒有空格,必須先進行中文分詞(Chinese Word Segmentation),才能做後續處理。

3.2 詞嵌入(Word Embedding)

定義:將 Token 轉換為數值向量,使電腦能夠進行數學運算。詞嵌入捕捉了詞語的語義關係——語義相近的詞,其向量在空間中距離也相近。

生活類比:就像把每個詞放在一張多維度的地圖上,語義相近的詞(如「快樂」與「開心」)在地圖上住得很近;語義相反的詞(如「熱」與「冷」)住得很遠。

3.3 注意力機制(Attention Mechanism)

定義:讓模型在處理某個詞時,能「注意到」句子中其他相關的詞,並動態調整其重要性權重。

生活類比:你在讀一篇長報告時,不會對每個字都一視同仁——你的眼睛會自動聚焦在關鍵數據和重要結論上。Attention 就是讓模型具備這種「選擇性關注」的能力。


4. NLP 五大核心任務

任務一:文本分類(Text Classification)

定義:將一段文本歸類至預定的類別中。最常見的應用是情緒分析(Sentiment Analysis)

生活類比:你收到一千則客戶評論,需要快速分成「正評」「負評」「中立」三類。以前需要人工一則一則看;文本分類讓 AI 在幾秒內完成。

應用場景

  • 電商平台:自動分析商品評論情緒
  • 新聞媒體:將文章自動分類至科技、財經、體育等版面
  • 客服系統:自動識別用戶投訴類型並分派處理

代表模型與方法

方法說明適用場景
Naive Bayes(樸素貝氏)基於貝氏定理的統計分類器,訓練快速資料量小、快速原型
BERT + Fine-tuning預訓練模型微調,效果最佳高精度需求、有標注資料
DistilBERTBERT 的輕量版,速度快 3 倍生產環境即時推論

考試重點:情緒分析(Sentiment Analysis)是文本分類的最典型應用。Naive Bayes 是傳統機器學習方法的代表;BERT Fine-tuning 是深度學習時代的最佳實踐。


任務二:命名實體辨識(Named Entity Recognition,NER)

定義:從文本中自動識別並標記具有特定意義的「實體」,如人名、地名、組織名、日期、金額等。

生活類比:就像在讀一篇新聞時,用不同顏色的螢光筆標記人名(黃色)、地名(藍色)、公司名(綠色)。NER 讓 AI 自動做這件事。

範例

輸入:「台積電創辦人張忠謀於2023年在台北出席半導體論壇。」

輸出:
  台積電       → 組織(ORG)
  張忠謀       → 人名(PER)
  2023年       → 日期(DATE)
  台北         → 地點(LOC)
  半導體論壇   → 事件(EVENT)

代表模型與工具

工具/模型說明
CRF(條件隨機場)傳統序列標注模型,考慮標籤間的依賴關係
spaCy工業級 NLP 函式庫,內建多語言 NER 模型
BERT + Token Classification對每個 Token 預測其實體類別,目前最高精度

應用場景

  • 金融新聞:自動萃取公司、人物、金額資訊建立知識圖譜
  • 醫療紀錄:識別藥物名稱、疾病、患者資訊
  • 法律文件:自動擷取合約中的當事人、日期、條款關鍵詞

任務三:機器翻譯(Machine Translation)

定義:自動將一種語言的文本翻譯為另一種語言,同時保留語義、語氣與文化語境。

機器翻譯的演進

世代方法代表系統核心問題
規則式(RBMT)人工撰寫語法規則早期 Systran規則無法窮舉,維護成本高
統計式(SMT)語料庫統計對齊Google Translate(早期)長句翻譯品質差
神經網路(NMT)Seq2Seq + AttentionGoogle NMT(2016)解決長距離依賴
Transformer-based完整 Transformer 架構mBART、mT5、DeepL目前最高品質

Seq2Seq 架構生活類比: 想像口譯員的工作流程:他先聽完整段話(Encoder 編碼輸入序列),在腦中形成對話的完整理解,再逐字說出翻譯(Decoder 解碼輸出序列)。Seq2Seq 就是這個過程的數學化版本。

主要挑戰

  • 低資源語言(Low-resource Languages):訓練資料稀少的語言翻譯品質差
  • 文化特定表達(Culture-specific Expressions):成語、俚語、雙關語難以直譯
  • 領域特化(Domain Adaptation):通用模型在法律、醫學等專業領域表現不佳

考試重點:機器翻譯從 Seq2Seq(解決長距離依賴)到 Transformer(平行訓練、效果更好)是關鍵演進。mBART 是目前主流的多語言翻譯模型。


任務四:問答系統(Question Answering,QA)

定義:讓 AI 根據提供的資料或自身知識,回答用戶提出的自然語言問題。

兩大類型對比

類型定義代表模型特點
抽取式(Extractive QA)從原始文件中找到並擷取答案片段BERT + SQuAD答案必定在文件中,準確度高但受文件限制
生成式(Generative QA)根據理解重新生成自然語言答案T5、GPT、ChatGPT可整合多段資訊,答案更自然,但可能產生幻覺

生活類比

  • 抽取式 QA:就像開卷考試,老師給你一篇文章,你只能從文章中找答案(不能自己發揮)。答案一定在文中某個地方。
  • 生成式 QA:就像申論題,你整合自己所有的知識,用自己的話組成完整的回答。靈活但可能「胡說」。

RAG(Retrieval-Augmented Generation)

現代問答系統最常用的架構是 RAG——先從知識庫檢索相關文件,再讓生成式模型根據這些文件生成答案,結合了抽取式的可靠性與生成式的流暢性。

用戶問題
  → 向量搜尋(檢索相關文件)
  → 文件 + 問題輸入 LLM
  → 有依據的自然語言回答

應用場景

  • 企業內部知識庫問答(員工查詢政策、流程)
  • 客服自動回覆(根據 FAQ 和商品文件)
  • 醫療問診輔助(根據病歷與指引回答醫師問題)

任務五:文本生成與摘要(Text Generation & Summarization)

定義

  • 文本生成(Text Generation):從給定的提示或條件,自動生成連貫、有意義的文字
  • 文本摘要(Text Summarization):將長篇文章壓縮為保留核心資訊的短摘要

兩種摘要方式對比

類型方法優點缺點
抽取式摘要(Extractive)直接選取原文中最重要的句子忠實原文,不引入錯誤句子間可能不連貫
生成式摘要(Abstractive)理解文章後用新的措辭重新表達流暢自然,可整合多段資訊可能扭曲原意或產生幻覺

代表模型

模型擅長任務說明
GPT 系列文本生成、對話、創意寫作Decoder-only,強大的生成能力
T5 / FLAN-T5摘要、翻譯、問答(統一格式)Encoder-Decoder,多任務能力強
BART摘要、文本去噪(Denoising)特別針對摘要任務優化的 Encoder-Decoder

生活類比:文本生成就像請一位擅長寫作的助理,給他一個題目(Prompt),他幫你寫出整篇文章。文本摘要則像請他把一份 50 頁報告濃縮成 1 頁執行摘要——你要的是「精髓」,不是「複製貼上」。

考試重點:摘要分為**抽取式(直接擷取原句)生成式(重新措辭)**兩種。GPT 擅長生成任務(Decoder-only);T5 和 BART 的 Encoder-Decoder 架構更適合摘要。


5. NLP 的產業應用地圖

產業NLP 應用對應任務
金融財報情緒分析、詐欺偵測、客服機器人文本分類、NER、QA
醫療電子病歷資訊擷取、藥物名稱辨識、臨床摘要NER、文本摘要
法律合約審查、判決書關鍵條款萃取NER、文本分類
電商商品評論分析、智能客服、商品描述生成文本分類、文本生成
媒體新聞自動摘要、假新聞偵測、多語言翻譯文本摘要、文本分類、機器翻譯
教育作文自動批改、智能問答輔導文本分類、QA

三、關鍵名詞中英對照

中文英文說明
自然語言處理Natural Language Processing (NLP)讓電腦理解與生成人類語言的 AI 子領域
語言模型Language Model對文本序列機率分布進行建模的模型
斷詞/分詞Tokenization將文本切分為 Token 的過程
子詞編碼Byte-Pair Encoding (BPE)現代 LLM 主流的子詞斷詞方法
詞嵌入Word Embedding將詞語映射為低維連續數值向量的技術
注意力機制Attention Mechanism動態決定序列中各位置重要性的機制
情緒分析Sentiment Analysis判斷文本情緒傾向(正、負、中立)的任務
文本分類Text Classification將文本歸類至預定類別的 NLP 任務
命名實體辨識Named Entity Recognition (NER)從文本中識別人名、地名、組織等實體
序列標注Sequence Labeling對序列中每個 Token 分配標籤的任務
條件隨機場Conditional Random Field (CRF)常用於 NER 的序列標注機率模型
機器翻譯Machine Translation (MT)自動將文本從一種語言翻譯為另一種語言
序列到序列Sequence-to-Sequence (Seq2Seq)將輸入序列映射為輸出序列的 Encoder-Decoder 架構
低資源語言Low-resource Language訓練資料稀少、NLP 表現較差的語言
問答系統Question Answering (QA)根據文件或知識自動回答自然語言問題
抽取式問答Extractive QA從文件中直接擷取答案片段的 QA 方式
生成式問答Generative QA根據理解重新生成自然語言答案的 QA 方式
檢索增強生成Retrieval-Augmented Generation (RAG)結合文件檢索與生成的 QA 架構
文本摘要Text Summarization將長篇文本壓縮為保留核心資訊的摘要
抽取式摘要Extractive Summarization直接選取原文中重要句子組成摘要
生成式摘要Abstractive Summarization理解文章後用新措辭重新生成摘要
微調Fine-tuning在預訓練模型基礎上針對特定任務進行再訓練
多語言模型Multilingual Model能同時處理多種語言的模型(如 mBART、mT5)

四、考試重點提示

考試重點:語言模型演進三大里程碑——n-gram(統計頻率)→ Word2Vec/GloVe(向量空間)→ BERT/GPT(Transformer 預訓練)。每一代解決的問題與殘留的缺陷都是考點。

考試重點NER 的五大實體類別——人名(PER)、地點(LOC)、組織(ORG)、日期(DATE)、金額(MONEY)——是選擇題的常見選項。代表工具是 spaCy;代表模型是 BERT + Token Classification。

考試重點抽取式 QA vs 生成式 QA 的核心差異——抽取式答案必定出自原文(準確但受限);生成式可整合多段資訊(靈活但可能幻覺)。RAG 結合兩者優點是目前主流方案。

考試重點機器翻譯的演進——規則式 → 統計式(SMT)→ 神經網路 Seq2Seq → Transformer-based(mBART),每個階段解決的問題是「長距離依賴」和「平行訓練」。

考試重點摘要的兩種類型——抽取式(直接選取原句,忠實但不連貫)vs 生成式(重新措辭,流暢但可能失真)。BERT 適合抽取式;T5/BART 適合生成式摘要。


隨堂小測驗

Q1. 下列哪一項最準確描述 Word2Vec 的核心技術突破?

  • A. 用規則撰寫語法樹,自動解析句子結構
  • B. 統計每個詞在語料庫中的出現頻率作為其特徵
  • C. 將詞語映射為低維連續向量,語義相近的詞在向量空間中距離相近
  • D. 對每個 Token 預測其命名實體類別

Q2. 某銀行要從數萬份財報新聞中自動識別「公司名稱」「負責人姓名」「財務數字」等資訊,應優先使用哪一項 NLP 技術?

  • A. 文本摘要(Text Summarization)
  • B. 機器翻譯(Machine Translation)
  • C. 命名實體辨識(Named Entity Recognition, NER)
  • D. 情緒分析(Sentiment Analysis)

Q3. 關於抽取式問答(Extractive QA)與生成式問答(Generative QA),下列描述何者正確?

  • A. 抽取式 QA 的答案由模型重新生成,可能不在原文中出現
  • B. 生成式 QA 的答案必定是原文中某段文字的直接複製
  • C. 抽取式 QA 答案直接來自原文,準確度高但靈活度低;生成式 QA 更靈活但可能產生幻覺
  • D. 兩者都不適合使用 BERT 作為基礎模型

Q4. Seq2Seq 架構在機器翻譯中解決了哪個問題,使其優於早期統計式翻譯(SMT)?

  • A. 大幅減少所需的訓練語料量
  • B. 能夠有效捕捉長距離語義依賴,改善長句翻譯品質
  • C. 完全消除翻譯中的文化適應問題
  • D. 讓模型不需要訓練即可零樣本翻譯任何語言

Q5. 下列哪一種組合正確對應了 NLP 任務與其代表模型?

  • A. 文本分類 → mBART;機器翻譯 → Naive Bayes
  • B. 命名實體辨識 → spaCy/BERT;文本生成 → GPT;摘要 → T5/BART
  • C. 問答系統 → Word2Vec;情緒分析 → Seq2Seq
  • D. 機器翻譯 → CRF;文本摘要 → n-gram

解答與解析

題號答案解析
Q1CWord2Vec 的核心貢獻是「詞向量表示」——將每個詞映射為低維連續向量,語義相近的詞(如「快樂」與「開心」)在向量空間中距離接近,並能進行語義加減運算(國王 - 男人 + 女人 ≈ 女王)。選 A 是規則式 NLP;選 B 是詞頻統計(如 TF-IDF);選 D 是 NER 任務描述。
Q2C從文本中自動識別並標記具有特定意義的「實體」(公司名、人名、財務數字)正是**命名實體辨識(NER)**的核心任務。文本摘要是壓縮文章;機器翻譯是跨語言轉換;情緒分析是判斷正負評,都不符合本題需求。
Q3C抽取式 QA 直接從原文中擷取答案片段,答案必定在文件中(準確但受文件限制)。生成式 QA 根據理解重新組織語言,能整合多段資訊但可能產生幻覺。選 A 和 B 的描述互換了兩者特性;選 D 錯誤,BERT 正是抽取式 QA 的主流基礎模型(如在 SQuAD 資料集上訓練)。
Q4BSeq2Seq 引入 Encoder-Decoder 架構配合 Attention 機制,能夠讓 Decoder 在生成每個目標詞時,動態關注輸入序列中最相關的位置,有效解決了統計式翻譯(SMT)在長句中因管道模組誤差累積導致的長距離語義依賴問題。Seq2Seq 仍需大量訓練資料(選 A 錯);文化適應問題至今未完全解決(選 C 錯);零樣本翻譯是 Transformer 時代才出現的能力(選 D 錯)。
Q5B正確配對:命名實體辨識 → spaCy(工具)/ BERT Token Classification(模型)文本生成 → GPT 系列(Decoder-only 生成架構)文本摘要 → T5(Text-to-Text 統一格式)/ BART(專為摘要優化的 Encoder-Decoder)。其他選項均將模型與任務配對錯誤:mBART 用於機器翻譯而非分類;CRF 用於 NER 而非翻譯;n-gram 是早期語言模型不是摘要工具。