實體擷取是從純文字中自動找出並擷取特定資訊 (例如姓名、地點或日期) 的程序。也可能稱為具名實體辨識 (NER)、實體識別和實體分塊。
假設您有一份文件,其中包含許多句子和段落,您想找出所有提及的人名、地名或組織名稱。實體擷取技術會運用自然語言處理 (NLP)、機器學習和深度學習等 AI 技術,自動識別並分類大量非結構化文字中的重要資訊,例如名稱、地點和組織。
在實體擷取的脈絡中,「實體」是指文字中具有特定意義的特定資訊或物件。這些通常是系統可以識別和分類的真實世界概念或特定提及內容。這些詞彙是傳達事實資訊的重要名詞或名詞片語。
常見的實體類型包括:
目標是找出這些重要提及內容,並將其指派給預先定義的類別,將非結構化文字轉換為電腦可處理和解讀的資料。
實體擷取的目標是將非結構化文字轉換為結構化資料。通常會透過下列工作流程完成:
第一步是準備好要分析的文字。這通常包括以下技術:
具體做法會因實體擷取方法和文字資料的性質而異。舉例來說,雖然從屬剖析 (瞭解字詞之間的關係) 是實用的自然語言處理工作,但其並非所有實體擷取方法的核心預先處理步驟。
在這個步驟中,系統會在預先處理的文字中尋找潛在實體。找出並分類這些實體的核心工作,就是具名實體辨識 (NER)。用於執行 NER 的技術包括:
識別出潛在實體後,AI 分類演算法 (通常以機器學習模型或規則型系統為基礎) 會將這些實體歸入預先定義的類別。如前所述,常見的類別包括:
最後,擷取的實體及其分類會以結構化格式呈現,例如:
如要瞭解實體擷取在實際應用中的運作方式,請看以下句子:「2024 年 8 月 29 日,Optimist Corp. 在芝加哥宣布,執行長 Brad Doe 將在成功完成 500 萬美元的募資後卸任。」實體擷取系統會處理這段文字,並輸出下列結構化資料:
有很多種技術可用來執行實體擷取,各有優缺點。
這些方法會根據預先定義的規則和模式,來識別實體。特色如下:
這些技術會運用以大型資料集訓練的統計模型,找出實體並分類。特色如下:
這些方法結合了規則式和機器學習做法的優點,包括:
舉例來說,混合式系統可能會使用規則型方法,找出具有明確模式 (例如日期或 ID) 的潛在實體,然後套用機器學習模型,來分類較不明確的實體 (例如人名或組織名稱)。
實體擷取技術可為組織和處理文字資料的使用者帶來多種好處。
自動擷取資訊,減少人工作業
實體擷取功能可自動執行原本費時費力的程序,也就是手動篩選大量文字,以尋找並擷取重要資訊。自動化可大幅提升作業效率,減少手動輸入和審查資料的單調工作,讓人力資源有更多時間專注於更複雜、分析性和策略性的工作,發揮人類的判斷力和創造力。
提高準確率和一致性
相較於手動擷取程序,自動化實體擷取系統通常能達到更高的準確度和一致性。真人註解者或審查人員容易疲勞、出現主觀解讀、偏誤和錯誤,尤其是在處理大型資料集或重複性工作時。另一方面,訓練有素的 NER 模型能持續套用條件,可望減少其他情況下可能發生的錯誤。
可擴充性,能處理大量文字資料
實體擷取系統本質上更具擴充性。這類模型能以更快的速度和更高的效率,處理大量文字資料,遠遠超過人類在相同時間內可處理的範圍。實體擷取的擴充性極佳,因此非常適合用來處理不斷增加的文件、網路內容、社群媒體串流或其他文字資訊來源。
協助做出更明智的決策
實體擷取功能可快速且有條理地存取從文字中擷取的相關資訊,協助組織各部門更及時地根據資料做出決策。舉例來說,快速準確地分析金融新聞報導和報告,並透過實體擷取功能找出重要公司、貨幣和市場事件,有助於改善投資策略。
提升資料條理性和可搜尋性
NER 系統擷取的實體可做為中繼資料標記,與原始文件或文字片段建立關聯,進而改善資料的組織方式,讓資料更容易搜尋、探索及擷取。舉例來說,運用實體擷取功能,可自動在內容管理系統中,為文件加上相關人員、組織和地點的標記,讓文件更容易搜尋。
實現下游自然語言處理工作
實體擷取功能可提供基礎結構化資料,這類資料通常是執行更進階複雜 NLP 工作的先決條件。包括關係擷取 (找出實體間的關係)、情緒分析 (特別是與特定實體連結,以瞭解對該實體的意見)、問題回答系統 (需要找出問題和可能的答案中的實體),以及建立知識圖譜。
雖然實體擷取是強大的工具,但務必瞭解其潛在難題和限制:
開始使用實體擷取功能通常需要執行下列步驟:
清楚定義要擷取的實體類型和相關類別,並說明 NER 系統的目標,以及將如何使用擷取的實體。這個步驟至關重要,可確保實體擷取系統符合您的特定需求。
收集與您領域相關的文字資料集。對於監督式機器學習做法,這類資料必須由真人註解者根據預先定義的指南,仔細標註 (加上標籤)。這些註解的品質和一致性,對訓練高效能模型至關重要。
根據需求、資料可用性、期望的準確率和運算資源,選擇適當的實體擷取技術 (規則式、機器學習、深度學習或混合式),並考量這些方法的優缺點。
清理並預先處理文字資料,去除雜訊和不一致之處。這可能包括處理拼字錯誤、標點符號和特殊字元等問題,以及先前提及的預先處理步驟 (斷詞、詞性標記等)。
如果採用機器學習或深度學習做法,下一步就是選取並訓練模型。這包括選擇適當的模型架構 (例如 RNN 或 Transformer),然後使用加上標籤的資料來訓練模型。訓練時,模型會接收文字範例和對應的實體,從中學習模式和關聯。
在保留的測試集上,使用精確度、召回率和 F1 分數等指標評估實體擷取系統的成效,瞭解系統識別及分類實體的表現。錯誤分析也是找出弱點的關鍵。
根據評估結果和錯誤分析,修正模型。這可能包括調整超參數、修改或擴增訓練資料,甚至是變更模型架構。這是疊代性的流程。
部署系統來處理新的文字資料,並即時或以批次方式擷取實體。這可能包括將實體擷取系統整合至較大的應用程式或工作流程,例如做為 API。
持續監控模型在正式環境中的成效。資料特徵可能會隨時間改變 (「資料偏移」),進而降低效能。可能需要定期使用新資料,重新訓練或更新模型。
實體擷取在各種實際應用中扮演著重要角色,包括:
實體擷取技術也可用於下列領域:
雖然您可以從頭建構實體擷取系統,但使用預先建構的工具和平台,也能加快作業速度。舉例來說,Google Cloud 提供多項服務,可協助您: