什麼是實體擷取?

實體擷取是從純文字中自動找出並擷取特定資訊 (例如姓名、地點或日期) 的程序。也可能稱為具名實體辨識 (NER)、實體識別和實體分塊。

假設您有一份文件,其中包含許多句子和段落,您想找出所有提及的人名、地名或組織名稱。實體擷取技術會運用自然語言處理 (NLP)機器學習和深度學習等 AI 技術,自動識別並分類大量非結構化文字中的重要資訊,例如名稱、地點和組織。

如何判斷實體?

在實體擷取的脈絡中,「實體」是指文字中具有特定意義的特定資訊或物件。這些通常是系統可以識別和分類的真實世界概念或特定提及內容。這些詞彙是傳達事實資訊的重要名詞或名詞片語。

常見的實體類型包括:

  • 人物:個人姓名 (例如「Sundar Pichai」、「Dr. Jane Doe」)
  • 機構:公司、機構、政府機關或其他結構化團體的名稱 (例如「Google」、「世界衛生組織」)
  • 地點:地理位置、地址或地標 (例如「紐約」、「巴黎」、「美國」)
  • 日期和時間:特定日期、日期範圍或時間表達方式 (例如:「昨天」、「2025 年 5 月 5 日」、「2006 年」)
  • 數量和金額價值:與數量、百分比或金錢相關的數值表達方式 (例如「300 股」、「50%」、「$100 美元」)
  • 產品:特定商品或服務 (例如「iPhone」、「Google Cloud」)
  • 事件:會議、戰爭或節慶等有名稱的事件 (例如「奧運」、「第二次世界大戰」)
  • 其他特定類別:視應用程式而定,實體也可能包含職稱 (例如「執行長」)、電話號碼、電子郵件地址、醫療代碼,或與特定領域相關的自訂詞彙

目標是找出這些重要提及內容,並將其指派給預先定義的類別,將非結構化文字轉換為電腦可處理和解讀的資料。

實體擷取如何運作?

實體擷取的目標是將非結構化文字轉換為結構化資料。通常會透過下列工作流程完成:

  1. 文字預先處理準備好要分析的文字。
  2. 實體識別找出文字中的潛在實體。
  3. 實體分類將識別出的實體分類。
  4. 輸出內容:以結構化格式呈現擷取的資訊。

文字預先處理

第一步是準備好要分析的文字。這通常包括以下技術:

  • 斷詞:將文字拆分為較小的單位,例如字詞或詞組。
  • 詞性標記:為每個字詞指派文法標記 (例如名詞、動詞、形容詞)。這有助於瞭解文法結構,因為實體通常是名詞或名詞片語。
  • 詞形還原/詞幹提取:將字詞還原為基本或詞根形式,以標準化變化。一般來說,詞形還原會考量字詞的意義,因此較受歡迎。
  • 去除停用詞 (選用):篩除「the」、「and」和「a」等常見字詞,這些字詞可能對實體識別沒有太大幫助。這個步驟為選用,因為部分停用詞可能是具名實體的一部分 (例如「United States of America」)。
  • 句子分段:將文本分成個別句子,有助於維持當下情境資訊。
  • 正規化 (選用):將文字標準化,例如轉換為小寫或處理特殊字元。

具體做法會因實體擷取方法和文字資料的性質而異。舉例來說,雖然從屬剖析 (瞭解字詞之間的關係) 是實用的自然語言處理工作,但其並非所有實體擷取方法的核心預先處理步驟。

實體識別

在這個步驟中,系統會在預先處理的文字中尋找潛在實體。找出並分類這些實體的核心工作,就是具名實體辨識 (NER)。用於執行 NER 的技術包括:

  • 模式比對:尋找特定模式或字詞序列,這些模式或序列通常表示實體 (例如「Mr.」後接姓名,或是日期或電子郵件地址的特定格式)。
  • 統計模型:使用條件隨機域 (CRF)、循環類神經網路 (RNN) 或 Transformer 等訓練好的模型,根據實體的脈絡和周圍的字詞來識別實體。這些模型會從文字中擷取特徵,例如字形、詞性標記和上下文字詞嵌入,並從中學習。

實體分類

識別出潛在實體後,AI 分類演算法 (通常以機器學習模型或規則型系統為基礎) 會將這些實體歸入預先定義的類別。如前所述,常見的類別包括:

  • :個人姓名
  • 組織:公司、機構或團體的名稱
  • 地點:城市、國家/地區或地理區域的名稱
  • 日期/時間:文字中提及的特定日期或時間
  • 其他:可能與您特定需求相關的額外類別 (例如產品、金錢或活動)

輸出內容

最後,擷取的實體及其分類會以結構化格式呈現,例如:

  • 清單:實體及其類型的簡單清單
  • JSON/XML:儲存及交換結構化資料的常見格式
  • 知識圖譜:以視覺化方式呈現實體之間的關係

實體擷取範例

如要瞭解實體擷取在實際應用中的運作方式,請看以下句子:「2024 年 8 月 29 日,Optimist Corp. 在芝加哥宣布,執行長 Brad Doe 將在成功完成 500 萬美元的募資後卸任。」實體擷取系統會處理這段文字,並輸出下列結構化資料:

  • 人員:Brad Doe
  • 組織:Optimist Corp.
  • 地點:芝加哥
  • 日期:2024 年 8 月 29 日
  • 金錢:$500 萬美元

實體擷取技術

有很多種技術可用來執行實體擷取,各有優缺點。

規則式方法

這些方法會根據預先定義的規則和模式,來識別實體。特色如下:

  • 實作方式相對簡單
  • 透明
  • 定義規則時需要領域專業知識
  • 在規則明確的特定領域中可能有效,但難以處理語言變化或複雜的句子結構,導致召回率有限
  • 規則變得更複雜時,難以擴充及維護

機器學習做法

這些技術會運用以大型資料集訓練的統計模型,找出實體並分類。特色如下:

  • 可適應新資料和語言變化
  • 需要大量加上標籤的訓練資料和特徵工程 (如為深度學習,則需求較少)
  • 訓練模型的運算成本可能相當高
  • 常見模型包括循環類神經網路 (RNN) 和 Transformer (例如 BERT) 等現代深度學習系統,這些模型會以大型資料集訓練,根據脈絡辨識實體

混合式做法

這些方法結合了規則式和機器學習做法的優點,包括:

  • 兼具彈性和效率,可能提高準確率
  • 需要仔細設計和實作,才能整合不同元件

舉例來說,混合式系統可能會使用規則型方法,找出具有明確模式 (例如日期或 ID) 的潛在實體,然後套用機器學習模型,來分類較不明確的實體 (例如人名或組織名稱)。

使用實體擷取的好處

實體擷取技術可為組織和處理文字資料的使用者帶來多種好處。

自動擷取資訊,減少人工作業

實體擷取功能可自動執行原本費時費力的程序,也就是手動篩選大量文字,以尋找並擷取重要資訊。自動化可大幅提升作業效率,減少手動輸入和審查資料的單調工作,讓人力資源有更多時間專注於更複雜、分析性和策略性的工作,發揮人類的判斷力和創造力。

提高準確率和一致性

相較於手動擷取程序,自動化實體擷取系統通常能達到更高的準確度和一致性。真人註解者或審查人員容易疲勞、出現主觀解讀、偏誤和錯誤,尤其是在處理大型資料集或重複性工作時。另一方面,訓練有素的 NER 模型能持續套用條件,可望減少其他情況下可能發生的錯誤。

可擴充性,能處理大量文字資料

實體擷取系統本質上更具擴充性。這類模型能以更快的速度和更高的效率,處理大量文字資料,遠遠超過人類在相同時間內可處理的範圍。實體擷取的擴充性極佳,因此非常適合用來處理不斷增加的文件、網路內容、社群媒體串流或其他文字資訊來源。

協助做出更明智的決策

實體擷取功能可快速且有條理地存取從文字中擷取的相關資訊,協助組織各部門更及時地根據資料做出決策。舉例來說,快速準確地分析金融新聞報導和報告,並透過實體擷取功能找出重要公司、貨幣和市場事件,有助於改善投資策略。

提升資料條理性和可搜尋性

NER 系統擷取的實體可做為中繼資料標記,與原始文件或文字片段建立關聯,進而改善資料的組織方式,讓資料更容易搜尋、探索及擷取。舉例來說,運用實體擷取功能,可自動在內容管理系統中,為文件加上相關人員、組織和地點的標記,讓文件更容易搜尋。

實現下游自然語言處理工作

實體擷取功能可提供基礎結構化資料,這類資料通常是執行更進階複雜 NLP 工作的先決條件。包括關係擷取 (找出實體間的關係)、情緒分析 (特別是與特定實體連結,以瞭解對該實體的意見)、問題回答系統 (需要找出問題和可能的答案中的實體),以及建立知識圖譜。

實體擷取會面臨哪些難題?

雖然實體擷取是強大的工具,但務必瞭解其潛在難題和限制:

  • 歧義:實體有時會因情境而產生歧義或有多種含義 (例如「華盛頓」可以指人、地點或組織)。因此,必須充分瞭解上下文,才能準確識別及分類這些內容。
  • 雜亂且不完整的資料:現實世界的文字資料通常很雜亂 (包含錯誤、拼字錯誤、俚語、非傳統文法),且可能缺乏足夠的背景資訊,進而影響實體擷取系統的效能。
  • 超出詞彙範圍 (OOV) 的實體/新實體:模型可能難以辨識訓練期間未曾出現的實體或字詞 (OOV 字詞),或是新造的詞彙和名稱。子詞斷詞和字元層級嵌入可協助減輕這個問題。
  • 實體邊界偵測錯誤:準確找出實體範圍的開頭和結尾可能很困難,尤其是長實體、複雜實體或特定領域的實體。這裡的錯誤會直接影響分類結果。
  • 資料稀少和註解成本:監督式機器學習模型 (尤其是深度學習模型) 通常需要大量高品質、已加上註解的資料,而建立這些資料既耗時又昂貴。這對資源較少的語言或專業領域來說,是個重大瓶頸。
  • 領域調整:由於詞彙、語法和實體類型不同,在某個領域訓練的模型,套用至其他領域時通常成效不佳。遷移學習 (微調預先訓練模型) 等技術在調整模型時至關重要。
  • 特定語言難題:由於文法、構詞學 (例如豐富的聲調變化)、書寫系統 (例如某些語言的名稱沒有大寫) 和語言資源的可用性不同,實體擷取成效會因語言而異。
  • 擴充性和運算資源:訓練及部署複雜的深度學習模型需要大量運算資源、強大處理能力 (例如 GPU),且耗時較長。
  • 偏誤與公平性:實體擷取模型可能會繼承訓練資料中的偏誤,導致不公平或歧視性的結果。因此,務必使用多元且具代表性的資料,並採用偏誤偵測和消除技術。

實作實體擷取

開始使用實體擷取功能通常需要執行下列步驟:

1. 定義實體

清楚定義要擷取的實體類型和相關類別,並說明 NER 系統的目標,以及將如何使用擷取的實體。這個步驟至關重要,可確保實體擷取系統符合您的特定需求。

2. 資料收集與註解

收集與您領域相關的文字資料集。對於監督式機器學習做法,這類資料必須由真人註解者根據預先定義的指南,仔細標註 (加上標籤)。這些註解的品質和一致性,對訓練高效能模型至關重要。

3. 選擇方法

根據需求、資料可用性、期望的準確率和運算資源,選擇適當的實體擷取技術 (規則式、機器學習、深度學習或混合式),並考量這些方法的優缺點。

4. 資料準備

清理並預先處理文字資料,去除雜訊和不一致之處。這可能包括處理拼字錯誤、標點符號和特殊字元等問題,以及先前提及的預先處理步驟 (斷詞、詞性標記等)。

5. 模型選擇與訓練

如果採用機器學習或深度學習做法,下一步就是選取並訓練模型。這包括選擇適當的模型架構 (例如 RNN 或 Transformer),然後使用加上標籤的資料來訓練模型。訓練時,模型會接收文字範例和對應的實體,從中學習模式和關聯。

6. 評估版

在保留的測試集上,使用精確度、召回率和 F1 分數等指標評估實體擷取系統的成效,瞭解系統識別及分類實體的表現。錯誤分析也是找出弱點的關鍵。

7. 模型微調與疊代

根據評估結果和錯誤分析,修正模型。這可能包括調整超參數、修改或擴增訓練資料,甚至是變更模型架構。這是疊代性的流程。

8. 部署作業

部署系統來處理新的文字資料,並即時或以批次方式擷取實體。這可能包括將實體擷取系統整合至較大的應用程式或工作流程,例如做為 API。

9. 監控與維護

持續監控模型在正式環境中的成效。資料特徵可能會隨時間改變 (「資料偏移」),進而降低效能。可能需要定期使用新資料,重新訓練或更新模型。

實體擷取的應用

實體擷取在各種實際應用中扮演著重要角色,包括:

  • 資訊擷取與知識圖譜:從非結構化文字中擷取結構化資訊,然後用來建構知識圖譜。這些知識圖譜代表實體及其關係,可實現進階搜尋、回答問題和資料分析。
  • 客戶關係管理 (CRM) 和支援:實體擷取技術可用於分析客戶互動,例如電子郵件、社群媒體貼文和支援單。組織可藉此瞭解顧客情緒、追蹤問題、將要求分類,並提供更個人化的支援。
  • 情報與安全:可用於分析新聞報導、社群媒體和其他來源的大量文字資料,找出潛在威脅、追蹤感興趣的對象,以及收集情報。
  • 搜尋引擎:瞭解查詢和文件中的實體,提升搜尋相關性和速度。
  • 內容分類和推薦:根據擷取的實體,將內容分類並推薦相關的文章、產品或媒體。

產業應用實例

實體擷取技術也可用於下列領域:

  • 醫療照護:從病患記錄、臨床記錄和研究論文中擷取醫療實體 (疾病、症狀、藥物、病患資訊),用於分析和研究
  • 金融:在新聞報導和報告中找出金融實體 (公司名稱、股票代碼、金額價值) 和事件,用於市場分析、風險評估和詐欺偵測
  • 電子商務:從評論和說明中擷取產品資訊、品牌和特色,以改善搜尋、推薦系統和市場分析
  • 人力資源:透過擷取技能、經驗和資格等資訊,自動篩選履歷

展開下一步行動

運用價值 $300 美元的免費抵免額和超過 20 項一律免費的產品,開始在 Google Cloud 中建構產品與服務。