커스텀 추출기 메커니즘
문서에 특히 적합하고 데이터로 학습 및 평가되는 커스텀 추출기를 만들 수 있습니다. 이 프로세서는 문서에서 항목을 식별하고 추출합니다. 그런 다음 이 학습된 프로세서를 추가 문서에 사용할 수 있습니다.
시작하기 전에
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
프로세서 만들기
Google Cloud 콘솔의 Document AI 섹션에서 Workbench 페이지로 이동합니다.
커스텀 추출기의 경우
프로세서 만들기 를 선택합니다.프로세서 만들기 메뉴에서 프로세서 이름(예:
my-custom-document-extractor
)을 입력합니다.가장 가까운 리전을 선택합니다.
옵션: 고급 옵션 열기
Google에서 자동으로 Cloud Storage 버킷을 만들도록 할 수도 있고 직접 만들 수도 있습니다. 이 가이드에서는 Google 관리 스토리지를 선택합니다.
Google 관리 또는 고객 관리 암호화 키(CMEK)를 사용할 수도 있습니다. 이 튜토리얼에서는 Google-managed encryption key를 선택합니다.
만들기를 선택하여 프로세서를 만듭니다.
프로세서 필드 정의
이제 방금 만든 프로세서의 프로세서 개요 페이지가 표시됩니다.

프로세서가 추출하고 문서에 라벨 지정을 시작할 필드를 지정할 수 있습니다.
시작하기 탭을 선택합니다. 필드 메뉴가 나타납니다.새 필드 만들기를 선택합니다.
필드 이름을 입력합니다. 데이터 유형과 어커런스를 선택합니다. 라벨에 구체적이고 명확한 설명을 지정합니다. 속성 설명을 사용하면 각 항목에 추가 컨텍스트, 통계, 사전 지식을 제공하여 추출 정확도와 성능을 개선할 수 있습니다.

- 만들기를 선택합니다. 스키마 생성 및 수정에 관한 자세한 안내는 프로세서 스키마 정의를 참고하세요.
프로세서 스키마에 대한 다음과 같은 각 라벨을 만듭니다.
이름 데이터 유형 어커런스 control_number
숫자 여러 번(선택사항) employees_social_security_number
숫자 여러 번(필수사항) employer_identification_number
숫자 여러 번(필수사항) employers_name_address_and_zip_code
주소 여러 번(필수사항) federal_income_tax_withheld
금액 여러 번(필수사항) social_security_tax_withheld
금액 여러 번(필수사항) social_security_wages
금액 여러 번(필수사항) wages_tips_other_compensation
금액 여러 번(필수사항) 프로세서 스키마에서 체크박스 및 테이블 형식 항목과 같은 다른 유형의 라벨을 만들고 사용할 수도 있습니다. 예를 들어 W-2 양식에는 법제상 직원, 은퇴 계획, 서드파티 병가 중 수당 체크박스가 포함되어 있으며, 이를 스키마에 추가할 수도 있습니다.
샘플 문서 업로드
샘플 문서로 테스트합니다.
샘플 문서 업로드를 선택합니다.
사이드바에서 Cloud Storage에서 문서 가져오기를 선택합니다.
이 예시에서는
소스 경로 에 이 버킷 이름을 입력합니다. 문서 하나에 직접 연결됩니다.cloud-samples-data/documentai/Custom/W2/PDF/W2_XL_input_clean_2950.pdf
가져오기를 선택합니다.
라벨 지정 콘솔로 리디렉션됩니다.
문서 라벨 지정
문서에서 텍스트를 선택하고 라벨을 적용하는 프로세스를 주석 또는 라벨 지정이라고 합니다.
라벨 지정 콘솔에서는 다수의 라벨이 이미 채워져 있습니다. 이는 기본 커스텀 추출기 모델 유형이 학습 없이 제로 샷 예측을 수행할 수 있는 기반 모델이기 때문입니다.
추천 라벨을 사용하려면 측면 패널의 각
라벨 위에 포인터를 가져간 다음 체크표시를 선택하여 라벨이 올바른지 확인합니다. OCR에서 텍스트를 잘못 읽더라도 텍스트를 수정하지 마세요.이 예에서는 문서 하단에 있는 값이 자동으로 식별되지 않으므로 수동으로 라벨을 지정해야 합니다.
라벨을 지정할 문서 위에 있는 툴바의 아이콘을 사용합니다. 기본적으로
경계 상자 도구를 사용하거나 여러 줄 값의 경우텍스트 선택 도구를 사용하여 콘텐츠를 선택하고 라벨을 적용합니다.텍스트를 선택하면 정의된 모든 필드(항목)가 있는 드롭다운 메뉴가 표시되어 그 중 하나를 선택할 수 있습니다. 이 예시에서는 경계 상자 도구로
wages_tips_other_compensation
값을 선택하고 이 라벨이 적용됩니다.감지된 텍스트 값을 검토하여 각 필드의 텍스트 위치를 올바르게 반영하는지 확인합니다. 라벨이 지정된 완성된 W2 문서는 다음과 같습니다.
필요한 경우
새 필드 만들기 를 선택하여 이 페이지에서 스키마에 새 필드를 추가할 수 있습니다.문서에 주석을 달았으면
라벨이 지정된 것으로 표시 를 선택합니다. 시작하기 탭으로 리디렉션됩니다.
기반 모델을 사용하여 프로세서 버전 빌드
단일 문서에 라벨을 지정한 후 선행 학습된 기반 모델을 사용하여 프로세서 버전을 만들어 항목을 추출할 수 있습니다.
빌드 탭을 선택합니다.기반 모델 호출에서 새 버전 만들기를 선택합니다.
프로세서 버전의 이름(예:
w2-foundation-model
)을 입력합니다.버전 만들기를 선택합니다. 만드는 데 몇 분 정도 걸립니다.
옵션:
배포 및 사용 탭을 선택합니다. 이 페이지에서 사용 가능한 프로세서 버전과 새 버전의 배포 상태를 볼 수 있습니다.
생성형 AI를 사용하여 문서에 자동으로 라벨 지정
기반 모델은 다양한 문서 유형의 필드를 정확하게 추출할 수 있지만, 특정 문서 구조에 대한 모델의 정확성을 개선하기 위해 추가 학습 데이터를 제공할 수도 있습니다.
커스텀 추출기는 사용자가 정의한 라벨 이름과 이전 주석을 사용하여 대규모 문서에 자동 라벨 지정을 통해 더 쉽고 빠르게 라벨을 지정할 수 있습니다.
빌드 페이지로 이동합니다.문서 가져오기 를 선택합니다.사이드바에서 Google Cloud Storage에서 문서 가져오기를 선택합니다.
문서가 포함된 이 버킷 이름을 입력합니다.
데이터 분할 목록에서 자동 분할을 선택합니다. 이렇게 하면 문서가 학습 세트에서는 80%, 테스트 세트에서는 20%로 자동 분할됩니다.
자동 라벨 지정 섹션에서
자동 라벨 지정을 사용하여 가져오기 체크박스를 선택합니다.문서에 라벨을 지정할 기반 모델 프로세서 버전을 선택합니다.
가져오기를 선택하고 문서를 가져올 때까지 기다립니다. 이 페이지를 나갔다가 다시 돌아와도 됩니다.
자동으로 라벨이 지정된 문서를 확인해야 학습 또는 테스트에 사용할 수 있습니다.
라벨 지정 시작 을 선택하여 자동으로 라벨이 지정된 문서를 확인합니다.추천 라벨을 사용하려면 각
주석 위에 마우스 포인터를 올려놓고 체크표시를 선택하여 라벨이 올바른지 확인합니다. 학습을 위해 값이 문서 텍스트와 일치하지 않는 경우 값을 수정하지 마세요. 잘못된 텍스트가 선택된 경우에만 경계 상자를 변경합니다.문서에 주석을 달았으면
라벨이 지정된 것으로 표시 를 선택합니다.자동으로 라벨이 지정된 각 문서에 대해 이 작업을 반복합니다.
사전에 라벨이 지정된 학습 문서 가져오기
빌드 페이지로 이동합니다.문서 가져오기 를 선택합니다.사이드바에서 Cloud Storage에서 문서 가져오기를 선택합니다.
소스 경로에 문서가 포함된 경로를 입력합니다. 이 버킷에는 문서 JSON 형식으로 라벨이 미리 지정된 문서가 포함되어 있어야 합니다.
데이터 분할 목록에서 자동 분할을 선택합니다. 이렇게 하면 문서가 학습 세트에서는 80%, 테스트 세트에서는 20%로 자동 분할됩니다. 자동 라벨링을 사용하여 가져오기를 선택하지 않은 상태로 둡니다.
가져오기를 선택합니다. 가져오는 데 몇 분 정도 걸립니다.
선택사항: 데이터 세트 보기 및 관리
- 빌드 페이지에서
데이터 세트 관리 콘솔에 액세스하여 데이터 세트의 모든 문서와 라벨을 보고 수정할 수 있습니다.
커스텀 모델 기반 프로세서 학습
학습에 몇 시간이 걸릴 수 있습니다. 학습을 시작하기 전에 적절한 데이터와 라벨을 프로세서에 설정했는지 확인하세요.
데이터 세트 요구사항에 대한 자세한 내용을 보려면 커스텀 모델 학습에서 새 버전 만들기 또는 전체 요구사항 보기를 선택합니다. 이는 생성형 AI 모델이 아닙니다. 커스텀 모델 기반 프로세서에는 각 필드의 학습 인스턴스 10개 이상, 테스트 인스턴스 10개 이상이 필요합니다.
버전 이름 필드에 이 프로세서 버전의 이름(예:
w2-custom-model
)을 입력합니다.옵션: 문서 라벨에 대한 정보를 보려면 라벨 통계 보기를 선택합니다. 이렇게 하면 적용 범위를 결정하는 데 도움이 됩니다. 닫기를 선택하여 학습 설정으로 돌아갑니다.
모델 학습 방법에서 모델 기반을 선택합니다.
학습 시작을 선택합니다. 학습하는 데 몇 시간 정도 걸립니다. 이 페이지를 닫았다가 다시 돌아와도 됩니다.
옵션:
배포 및 사용 탭을 선택합니다. 이 페이지에서는 사용 가능한 프로세서 버전과 새 버전의 학습 상태를 볼 수 있습니다.
프로세서 버전 배포
학습이 완료되면
배포 및 사용 탭을 선택합니다.배포할 버전의 왼쪽에 있는 체크박스를 선택하고 배포를 선택합니다.
대화상자 창에서 배포를 선택합니다. 배포하는 데 몇 분 정도 걸립니다.
버전이 배포되면
기본 버전 으로 설정하거나 API로 문서를 처리할 때 버전 ID를 제공할 수 있습니다.
프로세서 평가 및 테스트
평가 탭을 선택하여 프로세서 버전을 테스트합니다. 이 페이지에서 F1 점수, 전체 문서의 정밀도 및 재현율, 개별 라벨을 포함한 평가 측정항목을 확인할 수 있습니다. 평가 및 통계에 관한 자세한 내용은 프로세서 평가를 참고하세요.버전 선택기를 선택하고 기반 모델을 사용하여 버전을 선택합니다.이전 학습 또는 테스트에 포함되지 않은 문서를 다운로드하여 프로세서 버전을 평가하는 데 사용할 수 있습니다. 자체 데이터를 사용하는 경우에는 이러한 목적을 위해 따로 보관된 문서를 사용하게 됩니다.
테스트 문서 업로드 를 선택하고 방금 다운로드한 문서를 선택합니다. 커스텀 문서 추출기 분석 페이지가 열립니다. 화면 출력은 문서가 얼마나 잘 추출되었는지를 보여줍니다.커스텀 학습 모델이 있는 버전을 사용하여 문서를 다시 테스트합니다.
프로세서 사용
커스텀 추출기 프로세서를 만들고 학습시켰습니다.
다른 프로세서 버전과 마찬가지로 커스텀 학습 프로세서 버전을 관리할 수 있습니다. 자세한 내용은 프로세서 버전 관리를 참조하세요.
Document AI API를 사용하려면 다음 안내를 따르세요.
- 처리 요청 보내기의 코드 샘플에 따라 온라인 또는 일괄 처리를 사용합니다.
- 온라인 및 일괄 처리에 지원되는 페이지 수는 할당량 및 한도를 참조하세요.
- 프로세싱 응답 처리의 커스텀 추출기 코드 샘플을 따라 프로세서에서 추출된 항목을 가져옵니다.
삭제
이 페이지에서 사용한 리소스 비용이 Google Cloud 계정에 청구되지 않도록 하려면 다음 단계를 수행합니다.
불필요한 Google Cloud 요금이 청구되지 않도록 하려면 Google Cloud 콘솔을 사용하여 필요하지 않은 프로세서와 프로젝트를 삭제합니다.
Document AI 학습용으로 만든 새 프로젝트가 더 이상 필요 없는 경우 프로젝트를 삭제하세요.
기존 Google Cloud 프로젝트를 사용한 경우 계정에 요금이 청구되지 않도록 만든 리소스를 삭제합니다.
Google Cloud 콘솔 탐색 메뉴에서 Document AI를 선택하고 내 프로세서를 선택합니다.
삭제하려는 프로세서와 동일한 행에서
작업 더보기 를 선택합니다.프로세서 삭제를 선택하고 프로세서 이름을 입력한 다음 삭제를 다시 선택하여 확인합니다.
다음 단계
자세한 내용은 가이드를 참고하세요.