什麼是實體擷取？

實體擷取是從純文字中自動找出並擷取特定資訊 (例如姓名、地點或日期) 的程序。也可能稱為具名實體辨識 (NER)、實體識別和實體分塊。

假設您有一份文件，其中包含許多句子和段落，您想找出所有提及的人名、地名或組織名稱。實體擷取技術會運用自然語言處理 (NLP)、機器學習和深度學習等 AI 技術，自動識別並分類大量非結構化文字中的重要資訊，例如名稱、地點和組織。

如何判斷實體？

在實體擷取的脈絡中，「實體」是指文字中具有特定意義的特定資訊或物件。這些通常是系統可以識別和分類的真實世界概念或特定提及內容。這些詞彙是傳達事實資訊的重要名詞或名詞片語。

常見的實體類型包括：

人物：個人姓名 (例如「Sundar Pichai」、「Dr. Jane Doe」)
機構：公司、機構、政府機關或其他結構化團體的名稱 (例如「Google」、「世界衛生組織」)
地點：地理位置、地址或地標 (例如「紐約」、「巴黎」、「美國」)
日期和時間：特定日期、日期範圍或時間表達方式 (例如：「昨天」、「2025 年 5 月 5 日」、「2006 年」)
數量和金額價值：與數量、百分比或金錢相關的數值表達方式 (例如「300 股」、「50%」、「$100 美元」)
產品：特定商品或服務 (例如「iPhone」、「Google Cloud」)
事件：會議、戰爭或節慶等有名稱的事件 (例如「奧運」、「第二次世界大戰」)
其他特定類別：視應用程式而定，實體也可能包含職稱 (例如「執行長」)、電話號碼、電子郵件地址、醫療代碼，或與特定領域相關的自訂詞彙

目標是找出這些重要提及內容，並將其指派給預先定義的類別，將非結構化文字轉換為電腦可處理和解讀的資料。

實體擷取如何運作？

實體擷取的目標是將非結構化文字轉換為結構化資料。通常會透過下列工作流程完成：

文字預先處理：準備好要分析的文字。
實體識別：找出文字中的潛在實體。
實體分類：將識別出的實體分類。
輸出內容：以結構化格式呈現擷取的資訊。

文字預先處理

第一步是準備好要分析的文字。這通常包括以下技術：

斷詞：將文字拆分為較小的單位，例如字詞或詞組。
詞性標記：為每個字詞指派文法標記 (例如名詞、動詞、形容詞)。這有助於瞭解文法結構，因為實體通常是名詞或名詞片語。
詞形還原/詞幹提取：將字詞還原為基本或詞根形式，以標準化變化。一般來說，詞形還原會考量字詞的意義，因此較受歡迎。
去除停用詞 (選用)：篩除「the」、「and」和「a」等常見字詞，這些字詞可能對實體識別沒有太大幫助。這個步驟為選用，因為部分停用詞可能是具名實體的一部分 (例如「United States of America」)。
句子分段：將文本分成個別句子，有助於維持當下情境資訊。
正規化 (選用)：將文字標準化，例如轉換為小寫或處理特殊字元。

具體做法會因實體擷取方法和文字資料的性質而異。舉例來說，雖然從屬剖析 (瞭解字詞之間的關係) 是實用的自然語言處理工作，但其並非所有實體擷取方法的核心預先處理步驟。

實體識別

在這個步驟中，系統會在預先處理的文字中尋找潛在實體。找出並分類這些實體的核心工作，就是具名實體辨識 (NER)。用於執行 NER 的技術包括：

模式比對：尋找特定模式或字詞序列，這些模式或序列通常表示實體 (例如「Mr.」後接姓名，或是日期或電子郵件地址的特定格式)。
統計模型：使用條件隨機域 (CRF)、循環類神經網路 (RNN) 或 Transformer 等訓練好的模型，根據實體的脈絡和周圍的字詞來識別實體。這些模型會從文字中擷取特徵，例如字形、詞性標記和上下文字詞嵌入，並從中學習。

實體分類

識別出潛在實體後，AI 分類演算法 (通常以機器學習模型或規則型系統為基礎) 會將這些實體歸入預先定義的類別。如前所述，常見的類別包括：

人：個人姓名
組織：公司、機構或團體的名稱
地點：城市、國家/地區或地理區域的名稱
日期/時間：文字中提及的特定日期或時間
其他：可能與您特定需求相關的額外類別 (例如產品、金錢或活動)

輸出內容

最後，擷取的實體及其分類會以結構化格式呈現，例如：

清單：實體及其類型的簡單清單
JSON/XML：儲存及交換結構化資料的常見格式
知識圖譜：以視覺化方式呈現實體之間的關係

實體擷取範例

如要瞭解實體擷取在實際應用中的運作方式，請看以下句子：「2024 年 8 月 29 日，Optimist Corp. 在芝加哥宣布，執行長 Brad Doe 將在成功完成 500 萬美元的募資後卸任。」實體擷取系統會處理這段文字，並輸出下列結構化資料：

人員：Brad Doe
組織：Optimist Corp.
地點：芝加哥
日期：2024 年 8 月 29 日
金錢：$500 萬美元

實體擷取技術

有很多種技術可用來執行實體擷取，各有優缺點。

規則式方法

這些方法會根據預先定義的規則和模式，來識別實體。特色如下：

實作方式相對簡單
透明
定義規則時需要領域專業知識
在規則明確的特定領域中可能有效，但難以處理語言變化或複雜的句子結構，導致召回率有限
規則變得更複雜時，難以擴充及維護

機器學習做法

這些技術會運用以大型資料集訓練的統計模型，找出實體並分類。特色如下：

可適應新資料和語言變化
需要大量加上標籤的訓練資料和特徵工程 (如為深度學習，則需求較少)
訓練模型的運算成本可能相當高
常見模型包括循環類神經網路 (RNN) 和 Transformer (例如 BERT) 等現代深度學習系統，這些模型會以大型資料集訓練，根據脈絡辨識實體

混合式做法

這些方法結合了規則式和機器學習做法的優點，包括：

兼具彈性和效率，可能提高準確率
需要仔細設計和實作，才能整合不同元件

舉例來說，混合式系統可能會使用規則型方法，找出具有明確模式 (例如日期或 ID) 的潛在實體，然後套用機器學習模型，來分類較不明確的實體 (例如人名或組織名稱)。

使用實體擷取的好處

實體擷取技術可為組織和處理文字資料的使用者帶來多種好處。

自動擷取資訊，減少人工作業

實體擷取功能可自動執行原本費時費力的程序，也就是手動篩選大量文字，以尋找並擷取重要資訊。自動化可大幅提升作業效率，減少手動輸入和審查資料的單調工作，讓人力資源有更多時間專注於更複雜、分析性和策略性的工作，發揮人類的判斷力和創造力。

提高準確率和一致性

相較於手動擷取程序，自動化實體擷取系統通常能達到更高的準確度和一致性。真人註解者或審查人員容易疲勞、出現主觀解讀、偏誤和錯誤，尤其是在處理大型資料集或重複性工作時。另一方面，訓練有素的 NER 模型能持續套用條件，可望減少其他情況下可能發生的錯誤。

可擴充性，能處理大量文字資料

實體擷取系統本質上更具擴充性。這類模型能以更快的速度和更高的效率，處理大量文字資料，遠遠超過人類在相同時間內可處理的範圍。實體擷取的擴充性極佳，因此非常適合用來處理不斷增加的文件、網路內容、社群媒體串流或其他文字資訊來源。

協助做出更明智的決策

實體擷取功能可快速且有條理地存取從文字中擷取的相關資訊，協助組織各部門更及時地根據資料做出決策。舉例來說，快速準確地分析金融新聞報導和報告，並透過實體擷取功能找出重要公司、貨幣和市場事件，有助於改善投資策略。

提升資料條理性和可搜尋性

NER 系統擷取的實體可做為中繼資料標記，與原始文件或文字片段建立關聯，進而改善資料的組織方式，讓資料更容易搜尋、探索及擷取。舉例來說，運用實體擷取功能，可自動在內容管理系統中，為文件加上相關人員、組織和地點的標記，讓文件更容易搜尋。

實現下游自然語言處理工作

實體擷取功能可提供基礎結構化資料，這類資料通常是執行更進階複雜 NLP 工作的先決條件。包括關係擷取 (找出實體間的關係)、情緒分析 (特別是與特定實體連結，以瞭解對該實體的意見)、問題回答系統 (需要找出問題和可能的答案中的實體)，以及建立知識圖譜。

實體擷取會面臨哪些難題？

雖然實體擷取是強大的工具，但務必瞭解其潛在難題和限制：

歧義：實體有時會因情境而產生歧義或有多種含義 (例如「華盛頓」可以指人、地點或組織)。因此，必須充分瞭解上下文，才能準確識別及分類這些內容。
雜亂且不完整的資料：現實世界的文字資料通常很雜亂 (包含錯誤、拼字錯誤、俚語、非傳統文法)，且可能缺乏足夠的背景資訊，進而影響實體擷取系統的效能。
超出詞彙範圍 (OOV) 的實體/新實體：模型可能難以辨識訓練期間未曾出現的實體或字詞 (OOV 字詞)，或是新造的詞彙和名稱。子詞斷詞和字元層級嵌入可協助減輕這個問題。
實體邊界偵測錯誤：準確找出實體範圍的開頭和結尾可能很困難，尤其是長實體、複雜實體或特定領域的實體。這裡的錯誤會直接影響分類結果。
資料稀少和註解成本：監督式機器學習模型 (尤其是深度學習模型) 通常需要大量高品質、已加上註解的資料，而建立這些資料既耗時又昂貴。這對資源較少的語言或專業領域來說，是個重大瓶頸。
領域調整：由於詞彙、語法和實體類型不同，在某個領域訓練的模型，套用至其他領域時通常成效不佳。遷移學習 (微調預先訓練模型) 等技術在調整模型時至關重要。
特定語言難題：由於文法、構詞學 (例如豐富的聲調變化)、書寫系統 (例如某些語言的名稱沒有大寫) 和語言資源的可用性不同，實體擷取成效會因語言而異。
擴充性和運算資源：訓練及部署複雜的深度學習模型需要大量運算資源、強大處理能力 (例如 GPU)，且耗時較長。
偏誤與公平性：實體擷取模型可能會繼承訓練資料中的偏誤，導致不公平或歧視性的結果。因此，務必使用多元且具代表性的資料，並採用偏誤偵測和消除技術。

實作實體擷取

開始使用實體擷取功能通常需要執行下列步驟：

1. 定義實體

清楚定義要擷取的實體類型和相關類別，並說明 NER 系統的目標，以及將如何使用擷取的實體。這個步驟至關重要，可確保實體擷取系統符合您的特定需求。

2. 資料收集與註解

收集與您領域相關的文字資料集。對於監督式機器學習做法，這類資料必須由真人註解者根據預先定義的指南，仔細標註 (加上標籤)。這些註解的品質和一致性，對訓練高效能模型至關重要。

3. 選擇方法

根據需求、資料可用性、期望的準確率和運算資源，選擇適當的實體擷取技術 (規則式、機器學習、深度學習或混合式)，並考量這些方法的優缺點。

4. 資料準備

清理並預先處理文字資料，去除雜訊和不一致之處。這可能包括處理拼字錯誤、標點符號和特殊字元等問題，以及先前提及的預先處理步驟 (斷詞、詞性標記等)。

5. 模型選擇與訓練

如果採用機器學習或深度學習做法，下一步就是選取並訓練模型。這包括選擇適當的模型架構 (例如 RNN 或 Transformer)，然後使用加上標籤的資料來訓練模型。訓練時，模型會接收文字範例和對應的實體，從中學習模式和關聯。

6. 評估版

在保留的測試集上，使用精確度、召回率和 F1 分數等指標評估實體擷取系統的成效，瞭解系統識別及分類實體的表現。錯誤分析也是找出弱點的關鍵。

7. 模型微調與疊代

根據評估結果和錯誤分析，修正模型。這可能包括調整超參數、修改或擴增訓練資料，甚至是變更模型架構。這是疊代性的流程。

8. 部署作業

部署系統來處理新的文字資料，並即時或以批次方式擷取實體。這可能包括將實體擷取系統整合至較大的應用程式或工作流程，例如做為 API。

9. 監控與維護

持續監控模型在正式環境中的成效。資料特徵可能會隨時間改變 (「資料偏移」)，進而降低效能。可能需要定期使用新資料，重新訓練或更新模型。

實體擷取的應用

實體擷取在各種實際應用中扮演著重要角色，包括：

資訊擷取與知識圖譜：從非結構化文字中擷取結構化資訊，然後用來建構知識圖譜。這些知識圖譜代表實體及其關係，可實現進階搜尋、回答問題和資料分析。
客戶關係管理 (CRM) 和支援：實體擷取技術可用於分析客戶互動，例如電子郵件、社群媒體貼文和支援單。組織可藉此瞭解顧客情緒、追蹤問題、將要求分類，並提供更個人化的支援。
情報與安全：可用於分析新聞報導、社群媒體和其他來源的大量文字資料，找出潛在威脅、追蹤感興趣的對象，以及收集情報。
搜尋引擎：瞭解查詢和文件中的實體，提升搜尋相關性和速度。
內容分類和推薦：根據擷取的實體，將內容分類並推薦相關的文章、產品或媒體。

產業應用實例

實體擷取技術也可用於下列領域：

醫療照護：從病患記錄、臨床記錄和研究論文中擷取醫療實體 (疾病、症狀、藥物、病患資訊)，用於分析和研究
金融：在新聞報導和報告中找出金融實體 (公司名稱、股票代碼、金額價值) 和事件，用於市場分析、風險評估和詐欺偵測
電子商務：從評論和說明中擷取產品資訊、品牌和特色，以改善搜尋、推薦系統和市場分析
人力資源：透過擷取技能、經驗和資格等資訊，自動篩選履歷

開始使用實體擷取和 Google Cloud

雖然您可以從頭建構實體擷取系統，但使用預先建構的工具和平台，也能加快作業速度。舉例來說，Google Cloud 提供多項服務，可協助您：

展開下一步行動

運用價值 $300 美元的免費抵免額和超過 20 項一律免費的產品，開始在 Google Cloud 中建構產品與服務。

需要入門協助嗎？
聯絡銷售人員
與值得信賴的夥伴合作
尋找合作夥伴
繼續瀏覽
查看所有產品