本頁面由 Cloud Translation API 翻譯而成。

使用版面配置剖析器處理文件

版面配置剖析器會擷取文字、表格和清單等文件內容元素，並建立內容認知分塊，以便在生成式 AI 和探索應用程式中檢索資訊。

版面配置剖析器功能

剖析文件版面配置。您可以將 HTML 或 PDF 檔案輸入至版面配置剖析器，識別文字區塊、表格、清單等內容元素，以及標題和標題等結構元素。這些元素有助於定義文件的組織和階層，並提供豐富的內容和結構元素，為資訊檢索和探索建立更多情境。
將文件分塊。版面配置剖析器可將文件分割成多個區塊，並保留原始文件的版面配置階層脈絡資訊。生成答案的 LLM 可以使用區塊來提升關聯性，並降低運算負載。

在分塊期間考量文件的版面配置，可提升語意一致性，並減少內容中的雜訊，以利檢索和 LLM 生成作業。同一組文字中的所有文字都來自相同的版面配置實體，例如標題、副標題或清單。

限制

限制如下：

線上處理：
- 所有檔案類型的大小上限為 20 MB
- 每個 PDF 檔案最多 15 頁
批次處理：
- PDF 檔案大小上限為 1 GB
- 每個 PDF 檔案最多 500 頁

各檔案類型的版面配置偵測結果

下表列出 Layout Parser 可偵測到的元素，並依文件檔案類型分類。

檔案類型	MIME 類型	偵測到的元素	限制
HTML	`text/html`	段落、表格、清單、標題、頁首、頁尾	請注意，剖析作業主要依賴 HTML 標記，因此系統可能無法擷取以 CSS 為基礎的格式設定。
PDF	`application/pdf`	段落、表格、標題、頁首、頁尾	如果表格橫跨多個頁面，可能會分割成兩個表格。
DOCX (預先發布版)	`application/vnd.openxmlformats-officedocument.wordprocessingml.document`	段落、跨多個頁面的表格、清單、標題、標題元素	系統不支援巢狀表格。
PPTX (預先發布版)	`application/vnd.openxmlformats-officedocument.presentationml.presentation`	段落、表格、清單、標題、標題元素	如要準確識別標題，請在 PowerPoint 檔案中標示標題。不支援巢狀表格和隱藏投影片。
XLSX (預先發布版)	`application/vnd.openxmlformats-officedocument.spreadsheetml.sheet`	Excel 試算表中的表格，支援 `INT`、 `FLOAT` 和 `STRING` 值	不支援偵測多個表格。隱藏的工作表、列或欄也可能會影響偵測結果。
XLSM (預先發布版)	`application/vnd.ms-excel.sheet.macroenabled.12`	啟用巨集的試算表，支援 `INT`、`FLOAT` 和 `STRING` 值	不支援偵測多個表格。隱藏的工作表、列或欄也可能會影響偵測結果。

事前準備

如要開啟版面配置剖析器，請按照下列步驟操作：

按照建立及管理處理器中的操作說明建立版面配置剖析器。

處理器類型名稱為 LAYOUT_PARSER_PROCESSOR。
按照「啟用處理器」一文的操作說明啟用版面配置剖析器。

使用版面配置剖析器傳送線上處理要求

將文件輸入版面配置剖析器，進行剖析和分塊。

請按照「傳送處理要求」中的批次處理要求操作說明進行。

在 ProcessDocumentRequest 中設定 ProcessOptions.layoutConfig 欄位。

REST

使用任何要求資料之前，請先替換以下項目：

LOCATION：處理器的位置，例如：
- us - 美國
- eu - 歐盟
PROJECT_ID：您的 Google Cloud 專案 ID。
PROCESSOR_ID：自訂處理器的 ID。
MIME_TYPE：版面配置剖析器支援 application/pdf 和 text/html。
DOCUMENT：要分割為分塊的內容。版面配置剖析器接受原始 PDF 或 HTML 文件，或是版面配置剖析器輸出的已剖析文件。
CHUNK_SIZE：選用。分割文件時使用的區塊大小 (以權杖為單位)。
INCLUDE_ANCESTOR_HEADINGS：選用。布林值。是否要在分割文件時納入祖系標題。

HTTP 方法和網址：

POST https://LOCATION-documentai.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/processors/PROCESSOR_ID:process

JSON 要求主體：

// Sample for inputting raw documents such as PDF or HTML
{
  "rawDocument": {
    "mimeType": "MIME_TYPE",
    "content": "DOCUMENT"
  },
  "processOptions": {
    "layoutConfig": {
      "chunkingConfig": {
        "chunkSize": "CHUNK_SIZE",
        "includeAncestorHeadings": "INCLUDE_ANCESTOR_HEADINGS",
      }
    }
  }
}

如要傳送要求，請選擇以下其中一個選項：

curl

將要求主體儲存在名為 request.json 的檔案中，然後執行下列指令：

curl -X POST \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-documentai.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/processors/PROCESSOR_ID:process"

PowerShell

將要求主體儲存在名為 request.json 的檔案中，然後執行下列指令：

$headers = @{  }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-documentai.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/processors/PROCESSOR_ID:process" | Select-Object -Expand Content

回覆會包含已處理的文件，以及版面配置和分塊資訊，如 Document.documentLayout 和 Document.chunkedDocument。

Python

詳情請參閱 Document AI Python API 參考說明文件。

如要向 Document AI 進行驗證，請設定應用程式預設憑證。詳情請參閱「為本機開發環境設定驗證」。


from typing import Optional, Sequence

from google.api_core.client_options import ClientOptions
from google.cloud import documentai

# TODO(developer): Uncomment these variables before running the sample.
# project_id = "YOUR_PROJECT_ID"
# location = "YOUR_PROCESSOR_LOCATION" # Format is "us" or "eu"
# processor_id = "YOUR_PROCESSOR_ID" # Create processor before running sample
# processor_version = "rc" # Refer to https://cloud.google.com/document-ai/docs/manage-processor-versions for more information
# file_path = "/path/to/local/pdf"
# mime_type = "application/pdf" # Refer to https://cloud.google.com/document-ai/docs/file-types for supported file types


def process_document_layout_sample(
    project_id: str,
    location: str,
    processor_id: str,
    processor_version: str,
    file_path: str,
    mime_type: str,
) -> documentai.Document:
    process_options = documentai.ProcessOptions(
        layout_config=documentai.ProcessOptions.LayoutConfig(
            chunking_config=documentai.ProcessOptions.LayoutConfig.ChunkingConfig(
                chunk_size=1000,
                include_ancestor_headings=True,
            )
        )
    )

    document = process_document(
        project_id,
        location,
        processor_id,
        processor_version,
        file_path,
        mime_type,
        process_options=process_options,
    )

    print("Document Layout Blocks")
    for block in document.document_layout.blocks:
        print(block)

    print("Document Chunks")
    for chunk in document.chunked_document.chunks:
        print(chunk)



def process_document(
    project_id: str,
    location: str,
    processor_id: str,
    processor_version: str,
    file_path: str,
    mime_type: str,
    process_options: Optional[documentai.ProcessOptions] = None,
) -> documentai.Document:
    # You must set the `api_endpoint` if you use a location other than "us".
    client = documentai.DocumentProcessorServiceClient(
        client_options=ClientOptions(
            api_endpoint=f"{location}-documentai.googleapis.com"
        )
    )

    # The full resource name of the processor version, e.g.:
    # `projects/{project_id}/locations/{location}/processors/{processor_id}/processorVersions/{processor_version_id}`
    # You must create a processor before running this sample.
    name = client.processor_version_path(
        project_id, location, processor_id, processor_version
    )

    # Read the file into memory
    with open(file_path, "rb") as image:
        image_content = image.read()

    # Configure the process request
    request = documentai.ProcessRequest(
        name=name,
        raw_document=documentai.RawDocument(content=image_content, mime_type=mime_type),
        # Only supported for Document OCR processor
        process_options=process_options,
    )

    result = client.process_document(request=request)

    # For a full list of `Document` object attributes, reference this page:
    # https://cloud.google.com/document-ai/docs/reference/rest/v1/Document
    return result.document

使用版面配置剖析器批次處理文件

請按照下列程序，在單一要求中剖析及分塊多份文件。

將文件輸入版面配置剖析器，進行剖析和分塊。

請按照「傳送處理要求」中的批次處理要求操作說明進行。

在發出 batchProcess 要求時，請設定 ProcessOptions.layoutConfig 中的欄位。
輸入
下列 JSON 範例會設定 ProcessOptions.layoutConfig。
```
"processOptions": {
  "layoutConfig": {
    "chunkingConfig": {
      "chunkSize": "CHUNK_SIZE",
      "includeAncestorHeadings": "INCLUDE_ANCESTOR_HEADINGS_BOOLEAN"
    }
  }
}
```
更改下列內容：
- CHUNK_SIZE：分割文件時使用的最大區塊大小 (以符記數為單位)。
- INCLUDE_ANCESTOR_HEADINGS_BOOLEAN：是否要在分割文件時納入祖系標題。祖系標題是原始文件中子標題的父項。他們可以提供含有額外背景資訊的區塊，說明該區塊在原始文件中的位置。每個區塊最多可包含兩層標題。

後續步驟

查看處理器清單。
建立自訂分類器。
使用 Enterprise Document OCR 偵測及擷取文字。
請參閱「傳送批次處理文件要求」，瞭解如何處理回應。

衍生欄位和簽章偵測

預先訓練總覽