양식 파서로 문서 처리

양식 파서는 키-값 쌍 (KVP), 표, 선택 표시 (예: 체크박스), 일반 입력란, 텍스트를 추출하여 문서 처리를 보강하고 자동화합니다.

다음과 같은 사용 사례가 포함된 경우 다른 파서보다 양식 파서를 고려할 수 있습니다.

  • 구조화된 양식 처리: name: __와 같이 채울 라벨이 지정된 공백이 있는 기존 양식처럼 보이는 잘 정의된 양식에서 KVP를 추출하는 데 탁월합니다. 양식 파서의 사전 학습된 모델은 이름, 날짜, 주소와 같은 일반적인 필드에 대해 높은 정확성을 제공합니다.
  • 유연한 테이블 추출이 필요합니다. 양식 파서는 테이블처럼 보이는 단순한(행 또는 열에 걸쳐 있는 셀 없음) 테이블에서 추출합니다. 교육이 필요하지 않으며 교육할 수도 없습니다. 학습된 테이블 추출의 경우 맞춤 추출기는 열 (셀) 하위 필드가 포함된 상위 필드와 함께 사용할 수 있습니다.
  • 효율성 필요: 특히 대량의 다양한 형식의 추출 작업의 경우 추출 파서를 빌드하고 유지하지 마세요.

데이터 추출 기능

양식 파서 기능은 다음을 포함합니다.

  • KVP: 문서 내의 두 항목(라벨 또는 키와 해당 데이터(값))으로 구성된 집합입니다. 키가 일관된 경우 KVP를 직접 사용하거나 다양한 키를 일관된 구조화된 정보로 확인하는 맞춤 로직을 빌드할 수 있습니다.

  • 일반 항목: 문서에서 즉시 11가지 필드를 파싱합니다. 예를 들면 다음과 같습니다.

    • email
    • phone
    • url
    • date_time
    • address
    • person
    • organization
    • quantity
    • price
    • id
    • page_number
  • 텍스트 및 레이아웃: 최신 OCR 엔진을 사용하여 텍스트 및 레이아웃 정보를 추출합니다. 여기에는 디지털 PDF (v2.1만 해당)의 삽입된 텍스트 또는 이미지의 텍스트가 포함됩니다.

  • 표: 이미지 및 PDF에서 표를 감지하고 추출합니다.

  • 체크박스: 이미지 및 PDF 출력에서 체크박스를 KVP로 추출하는 고품질 선택 표시 감지기입니다. 체크박스에 가장 가까운 텍스트를 사용하며 체크박스가 선택되었는지 여부를 나타내는 valueType를 사용합니다.

언어 및 지역

모델 버전

다음 프로세서 버전은 이 기능과 호환됩니다. 자세한 내용은 프로세서 버전 관리를 참고하세요.

제한사항

  • TIFF의 이전 JPEG 압축은 지원되지 않습니다. TIFF 버전 6.0 사양에 의해 정의된 JPEG 캡슐화 유형입니다.

  • 체크박스 모델은 라디오 버튼 파싱을 지원하지 않습니다. 감지된 체크박스 중 일부에는 해당 키가 없을 수 있습니다.

  • 모델이 채워지지 않은 값(예: 빈 양식)이 있는 KVP를 안정적으로 파싱하지 않습니다.

  • 특정 언어로 작성된 문서의 KVP 파싱 품질이 라틴어보다 낮을 수 있습니다.

양식 파서로 문서 처리

이 빠른 시작에서는 Document AI의 양식 파서 기능을 소개합니다. 이 빠른 시작에서는 Google Cloud 콘솔을 사용하여 Google Cloud 프로젝트와 승인을 설정하고 양식 파서를 만든 후 Document AI에 PDF 양식을 처리하도록 요청을 보냅니다.

학습 내용:

  1. Google Cloud 프로젝트에서 Document AI 사용 설정

  2. 다양한 유형의 문서에서 텍스트, 키-값 쌍, 테이블, 일반 항목을 식별하고 추출할 수 있는 양식 파서 프로세서 만들기

  3. 프로세서를 사용하여 샘플 문서에 주석 추가하기


Google Cloud 콘솔에서 이 태스크에 대한 단계별 안내를 직접 수행하려면 둘러보기를 클릭합니다.

둘러보기


  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Document AI API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Document AI API.

    Enable the API

양식 파서 프로세서 만들기

Google Cloud 콘솔을 사용하여 양식 파서 프로세서를 만듭니다. 자세한 내용은 프로세서 생성 및 관리를 참조하세요.

  1. Google Cloud 콘솔 탐색 메뉴에서 Document AI를 클릭하고 프로세서 갤러리를 선택합니다.

    프로세서 갤러리

  2. 프로세서 갤러리에서 양식 파서검색하고 만들기를 선택합니다.

    UI의 양식 파서 옵션

  3. 측면 창에 프로세서 이름(예: quickstart-form-processor)을 입력합니다.

  4. 가장 가까운 리전을 선택합니다.

  5. 만들기 버튼을 클릭합니다.

새 양식 파서 프로세서의 프로세서 세부정보 페이지로 이동합니다.

프로세서 테스트

프로세서를 만든 후 프로세서에 주석 요청을 보낼 수 있습니다.

  1. 샘플 문서 다운로드

    수기로 작성된 샘플 의료 접수 양식이 포함된 PDF 파일입니다. 이 문서는 공개적으로 액세스 가능한 Cloud Storage 버킷에 저장됩니다.

  2. 테스트 문서 업로드 버튼을 클릭하고 방금 다운로드한 문서를 선택합니다.

  3. 이제 인보이스 파서 분석 페이지가 표시됩니다. 문서에서 추출된 OCR로 감지된 텍스트, 키-값 쌍, 표, 일반 항목을 볼 수 있습니다.

    UI의 샘플 양식 키-값 쌍 UI의 샘플 양식 일반 항목

삭제

불필요한 Google Cloud 요금이 청구되지 않도록 하려면 Google Cloud 콘솔을 사용하여 필요하지 않은 프로세서와 프로젝트를 삭제합니다.

다음 단계