이 페이지는 Cloud Translation API를 통해 번역되었습니다.

Layout Parser로 문서 처리

레이아웃 파서는 텍스트, 표, 목록과 같은 문서 콘텐츠 요소를 추출하고 생성형 AI 및 탐색 애플리케이션에서 정보 검색을 용이하게 하는 컨텍스트 인식 청크를 만듭니다.

레이아웃 파서 기능

문서 레이아웃을 파싱합니다. HTML 또는 PDF 파일을 레이아웃 파서에 입력하여 텍스트 블록, 표, 목록과 같은 콘텐츠 요소와 제목, 머리글과 같은 구조적 요소를 식별할 수 있습니다. 이러한 요소는 정보 검색 및 탐색을 위한 컨텍스트를 더 많이 만들 수 있는 풍부한 콘텐츠와 구조적 요소를 사용하여 문서의 조직과 계층 구조를 정의하는 데 도움이 됩니다.
문서를 청크로 나눕니다. 레이아웃 파서는 원래 문서의 레이아웃 계층 구조에 관한 컨텍스트 정보를 유지하는 청크로 문서를 나눌 수 있습니다. 대답 생성 LLM은 청크를 사용하여 관련성을 개선하고 계산 부하를 줄일 수 있습니다.

청크 처리 중에 문서의 레이아웃을 고려하면 검색 및 LLM 생성에 사용할 때 콘텐츠의 시맨틱 일관성이 개선되고 노이즈가 줄어듭니다. 청크의 모든 텍스트는 제목, 부제목, 목록과 같은 동일한 레이아웃 항목에서 가져옵니다.

제한사항

다음과 같은 제한사항이 적용됩니다.

온라인 처리:
- 모든 파일 형식의 최대 파일 크기는 20MB입니다.
- PDF 파일당 최대 15페이지
일괄 처리:
- PDF 파일의 최대 단일 파일 크기는 1GB입니다.
- PDF 파일당 최대 500페이지

파일 유형별 레이아웃 감지

다음 표에는 레이아웃 파서가 문서 파일 유형별로 감지할 수 있는 요소가 나와 있습니다.

파일 형식	MIME 유형	감지된 요소	제한사항
HTML	`text/html`	단락, 표, 목록, 제목, 제목, 페이지 머리글, 페이지 바닥글	파싱은 HTML 태그에 크게 의존하므로 CSS 기반 서식은 캡처되지 않을 수 있습니다.
PDF	`application/pdf`	단락, 표, 제목, 제목, 페이지 헤더, 페이지 바닥글	여러 페이지에 걸쳐 있는 표는 두 개의 표로 분할될 수 있습니다.
DOCX(미리보기)	`application/vnd.openxmlformats-officedocument.wordprocessingml.document`	단락, 여러 페이지에 걸친 표, 목록, 제목, 제목 요소	중첩된 표는 지원되지 않습니다.
PPTX(미리보기)	`application/vnd.openxmlformats-officedocument.presentationml.presentation`	단락, 표, 목록, 제목, 제목 요소	제목이 정확하게 식별되려면 PowerPoint 파일 내에서 제목으로 표시되어야 합니다. 중첩된 표와 숨겨진 슬라이드는 지원되지 않습니다.
XLSX(미리보기)	`application/vnd.openxmlformats-officedocument.spreadsheetml.sheet`	Excel 스프레드시트 내의 표로, `INT`, `FLOAT`, `STRING` 값을 지원합니다.	여러 테이블 감지는 지원되지 않습니다. 숨겨진 시트, 행 또는 열도 감지에 영향을 줄 수 있습니다.
XLSM (미리보기)	`application/vnd.ms-excel.sheet.macroenabled.12`	`INT`, `FLOAT`, `STRING` 값을 지원하는 매크로 사용 설정 스프레드시트	여러 테이블 감지는 지원되지 않습니다. 숨겨진 시트, 행 또는 열도 감지에 영향을 줄 수 있습니다.

시작하기 전에

레이아웃 파서를 사용 설정하려면 다음 단계를 따르세요.

프로세서 만들기 및 관리의 안내에 따라 레이아웃 파서를 만듭니다.

프로세서 유형 이름은 LAYOUT_PARSER_PROCESSOR입니다.
프로세서 사용 설정의 안내에 따라 레이아웃 파서를 사용 설정합니다.

레이아웃 파서로 온라인 처리 요청 보내기

레이아웃 파서에 입력 문서를 넣어 파싱하고 청크 처리합니다.

처리 요청 보내기의 일괄 처리 요청 안내를 따릅니다.

ProcessDocumentRequest의 ProcessOptions.layoutConfig에서 필드를 구성합니다.

REST

요청 데이터를 사용하기 전에 다음을 바꿉니다.

LOCATION: 프로세서의 위치입니다(예:
- us - 미국
- eu - 유럽 연합
PROJECT_ID: Google Cloud 프로젝트 ID입니다.
PROCESSOR_ID: 커스텀 프로세서의 ID입니다.
MIME_TYPE: 레이아웃 파서는 application/pdf 및 text/html를 지원합니다.
DOCUMENT: 청크로 분할할 콘텐츠입니다. 레이아웃 파서는 원시 PDF 또는 HTML 문서 또는 레이아웃 파서에서 출력된 파싱된 문서를 허용합니다.
CHUNK_SIZE: 선택사항. 문서를 분할할 때 사용할 청크 크기(토큰)입니다.
INCLUDE_ANCESTOR_HEADINGS: 선택사항. 부울. 문서를 분할할 때 상위 제목을 포함할지 여부입니다.

HTTP 메서드 및 URL:

POST https://LOCATION-documentai.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/processors/PROCESSOR_ID:process

JSON 요청 본문:

// Sample for inputting raw documents such as PDF or HTML
{
  "rawDocument": {
    "mimeType": "MIME_TYPE",
    "content": "DOCUMENT"
  },
  "processOptions": {
    "layoutConfig": {
      "chunkingConfig": {
        "chunkSize": "CHUNK_SIZE",
        "includeAncestorHeadings": "INCLUDE_ANCESTOR_HEADINGS",
      }
    }
  }
}

요청을 보내려면 다음 옵션 중 하나를 선택합니다.

curl

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

curl -X POST \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-documentai.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/processors/PROCESSOR_ID:process"

PowerShell

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

$headers = @{  }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-documentai.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/processors/PROCESSOR_ID:process" | Select-Object -Expand Content

대답에는 레이아웃 및 청크 정보가 Document.documentLayout 및 Document.chunkedDocument으로 포함된 처리된 문서가 포함됩니다.

Python

자세한 내용은 Document AI Python API 참조 문서를 참고하세요.

Document AI에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.


from typing import Optional, Sequence

from google.api_core.client_options import ClientOptions
from google.cloud import documentai

# TODO(developer): Uncomment these variables before running the sample.
# project_id = "YOUR_PROJECT_ID"
# location = "YOUR_PROCESSOR_LOCATION" # Format is "us" or "eu"
# processor_id = "YOUR_PROCESSOR_ID" # Create processor before running sample
# processor_version = "rc" # Refer to https://cloud.google.com/document-ai/docs/manage-processor-versions for more information
# file_path = "/path/to/local/pdf"
# mime_type = "application/pdf" # Refer to https://cloud.google.com/document-ai/docs/file-types for supported file types


def process_document_layout_sample(
    project_id: str,
    location: str,
    processor_id: str,
    processor_version: str,
    file_path: str,
    mime_type: str,
) -> documentai.Document:
    process_options = documentai.ProcessOptions(
        layout_config=documentai.ProcessOptions.LayoutConfig(
            chunking_config=documentai.ProcessOptions.LayoutConfig.ChunkingConfig(
                chunk_size=1000,
                include_ancestor_headings=True,
            )
        )
    )

    document = process_document(
        project_id,
        location,
        processor_id,
        processor_version,
        file_path,
        mime_type,
        process_options=process_options,
    )

    print("Document Layout Blocks")
    for block in document.document_layout.blocks:
        print(block)

    print("Document Chunks")
    for chunk in document.chunked_document.chunks:
        print(chunk)



def process_document(
    project_id: str,
    location: str,
    processor_id: str,
    processor_version: str,
    file_path: str,
    mime_type: str,
    process_options: Optional[documentai.ProcessOptions] = None,
) -> documentai.Document:
    # You must set the `api_endpoint` if you use a location other than "us".
    client = documentai.DocumentProcessorServiceClient(
        client_options=ClientOptions(
            api_endpoint=f"{location}-documentai.googleapis.com"
        )
    )

    # The full resource name of the processor version, e.g.:
    # `projects/{project_id}/locations/{location}/processors/{processor_id}/processorVersions/{processor_version_id}`
    # You must create a processor before running this sample.
    name = client.processor_version_path(
        project_id, location, processor_id, processor_version
    )

    # Read the file into memory
    with open(file_path, "rb") as image:
        image_content = image.read()

    # Configure the process request
    request = documentai.ProcessRequest(
        name=name,
        raw_document=documentai.RawDocument(content=image_content, mime_type=mime_type),
        # Only supported for Document OCR processor
        process_options=process_options,
    )

    result = client.process_document(request=request)

    # For a full list of `Document` object attributes, reference this page:
    # https://cloud.google.com/document-ai/docs/reference/rest/v1/Document
    return result.document

레이아웃 파서로 문서 일괄 처리

다음 절차에 따라 단일 요청에서 여러 문서를 파싱하고 청크로 나눕니다.

레이아웃 파서에 입력 문서를 넣어 파싱하고 청크 처리합니다.

처리 요청 보내기의 일괄 처리 요청 안내를 따릅니다.

batchProcess 요청을 할 때 ProcessOptions.layoutConfig에서 필드를 구성합니다.
입력
다음 예시 JSON은 ProcessOptions.layoutConfig를 구성합니다.
```
"processOptions": {
  "layoutConfig": {
    "chunkingConfig": {
      "chunkSize": "CHUNK_SIZE",
      "includeAncestorHeadings": "INCLUDE_ANCESTOR_HEADINGS_BOOLEAN"
    }
  }
}
```
다음을 바꿉니다.
- CHUNK_SIZE: 문서를 분할할 때 사용할 최대 청크 크기(토큰 수)입니다.
- INCLUDE_ANCESTOR_HEADINGS_BOOLEAN: 문서를 분할할 때 상위 제목을 포함할지 여부입니다. 상위 제목은 원본 문서의 하위 제목의 상위 항목입니다. 원래 문서에서 위치에 관한 추가 컨텍스트가 포함된 청크를 제공할 수 있습니다. 청크에는 최대 두 수준의 제목이 포함될 수 있습니다.

다음 단계

프로세서 목록을 검토합니다.
맞춤 분류기를 만듭니다.
Enterprise Document OCR을 사용하여 텍스트를 감지하고 추출합니다.
일괄 처리 문서 요청 보내기를 검토하여 응답을 처리하는 방법을 알아보세요.

파생 필드 및 서명 감지

사전 학습 개요