本頁面由 Cloud Translation API 翻譯而成。

Document AI 總覽

本文是使用 Document AI 的基本概念指南。在繼續瀏覽其他文件或快速入門導覽課程之前，建議您先詳閱這個頁面。

自動執行文件處理工作流程

世界各地的企業都非常依賴文件來儲存和傳達資訊。這類資訊通常需要數位化才能發揮效用。不過，這通常需要耗費大量時間的手動程序才能完成。

例如：

這些工作流程都包含從文件中取得原始文字，然後從中擷取與所需資料 (欄位或實體) 相符的特定文字。不過，每種文件類型都有不同的結構和版面配置，欄位模式也會因特定用途而異。

Document AI 是文件處理與解讀平台，可將文件中的非結構化資料轉為結構化資料 (特定欄位，適用於資料庫)，讓您輕鬆瞭解、分析和使用資料。

Document AI 是以 Vertex AI 產品為基礎，並採用生成式 AI 技術，可協助您建立可擴充的端對端雲端文件處理應用程式，不必具備機器學習專業知識。

使用 Document AI，您可以：

下圖說明 Document AI 支援的所有重要文件處理步驟，以及這些步驟之間的連結方式。

docai-overview-1

Document AI 處理器位於文件檔案和機器學習模型之間，可執行文件處理和解讀動作。可用於分類、分割、剖析或分析文件。

每個 Google Cloud 專案都需要建立自己的處理器執行個體。

處理器可分為下列幾類：

如要瞭解 Document AI 的所有可用處理器類型，請參閱完整處理器和詳細資料清單。

如要決定特定應用程式要使用的處理器類型，請參考下列一般準則：

類別	用途	處理器類型
數位化	從文件中擷取文字和版面配置資訊。	Enterprise Document OCR
	分析文件的掃描影像品質 (可讀性)。	啟用影像品質分析的 Enterprise Document OCR
	從不符合自訂處理器條件的自訂文件中擷取實體。
擷取	從文件中的結構化表單擷取表格或鍵值對。	表單剖析器
	從文件中擷取文字、表格和清單等元素，並傳回內容認知分塊。	版面配置剖析器
	從符合自訂處理器條件的自訂文件中擷取實體。	建立自訂擷取工具
	從特定類型的文件中擷取實體。	預先訓練的處理器 (進階訓練可提升品質)。
分類	將文件分類。	建立自訂分類器
分類	分割文件。	建立自訂分割器

這張圖表有助於判斷哪種處理器最適合各個用途。

docai-overview-2

如要使用 Document AI 開始處理文件，主要步驟如下：

選擇適合用途的處理器。
- 如需各處理方的完整資訊，請參閱完整處理方與詳細資料清單。
使用 Google Cloud 控制台或 Document AI API 建立處理器。
- Document AI 會建立預測端點，供您傳送文件。
- 如需詳細操作說明，請參閱「建立處理器」一文。
訓練處理器：從頭開始使用訓練和測試資料訓練處理器，或根據現有處理器，對新的 (預先訓練) 處理器版本進行進階訓練。
- 如需詳細操作說明，請參閱「訓練處理器」。
傳送文件以供處理。
- Document AI 會處理文件，並傳回一或多個 Document 物件，其中包含擷取的結構化資訊。
- 如需詳細操作說明，請參閱「傳送處理要求」和「處理處理回應」。