템플릿 기반 추출

고정 레이아웃 사용 사례의 경우 학습 문서 3개와 테스트 문서 3개만으로도 성능이 우수한 모델을 학습시킬 수 있습니다. W9, 1040, ACORD, 설문조사, 설문지와 같은 템플릿 문서 유형의 개발을 가속화하고 프로덕션까지 걸리는 시간을 단축합니다.

데이터 세트 구성

프로세서 버전을 학습시키거나 업트레이닝하거나 평가하려면 문서 데이터 세트가 필요합니다. Document AI 프로세서는 사람처럼 예시를 통해 학습합니다. 데이터 세트는 성능 측면에서 프로세서 안정성을 지원합니다.

학습 데이터 세트

모델과 정확도를 개선하려면 문서에 대한 데이터 세트를 학습시키세요. 모델은 정답이 있는 문서로 구성됩니다. 새 모델을 학습시키려면 문서가 3개 이상 필요합니다.

테스트 데이터 세트

테스트 데이터 세트는 모델이 F1 점수 (정확도)를 생성하는 데 사용하는 데이터 세트입니다. 정답이 있는 문서로 구성됩니다. 모델이 얼마나 자주 올바른지 확인하기 위해 정답을 사용하여 모델의 예측 (모델에서 추출된 필드)을 올바른 답변과 비교합니다. 테스트 데이터 세트에는 문서가 3개 이상 있어야 합니다.

시작하기 전에

아직 사용 설정하지 않았다면 다음을 사용 설정합니다.

템플릿 모드 라벨 지정 권장사항

적절한 라벨 지정은 높은 정확도를 달성하기 위한 가장 중요한 단계 중 하나입니다. 템플릿 모드에는 다른 학습 모드와 다른 고유한 라벨링 방법이 있습니다.

  • 라벨을 지정하는 학습 문서에서 라벨이 비어 있더라도 문서 내에서 데이터가 있을 것으로 예상되는 전체 영역 주위에 경계 상자를 그립니다 (라벨별).
  • 템플릿 기반 학습을 위해 빈 필드에 라벨을 지정할 수 있습니다. 모델 기반 학습의 경우 빈 필드에 라벨을 지정하지 마세요.

템플릿 모드로 커스텀 추출기 빌드 및 평가

  1. 맞춤 추출기를 만듭니다. 권장사항에 따라 추출할 프로세서를 만들고 필드를 정의합니다. 이는 추출 품질에 영향을 미치므로 중요합니다.

  2. 데이터 세트 위치를 설정합니다. 기본 옵션 폴더 (Google 관리)를 선택합니다. 이는 프로세서를 만든 직후 자동으로 실행될 수 있습니다.

  3. 빌드 탭으로 이동하여 자동 라벨 지정이 사용 설정된 문서 가져오기를 선택합니다. 일반적으로 필요한 최소 문서 수인 3개보다 많은 문서를 추가해도 템플릿 기반 학습의 품질이 향상되지 않습니다. 더 많은 데이터를 추가하는 대신 소수의 데이터에 매우 정확하게 라벨을 지정하는 데 집중하세요.

  4. 경계 상자를 확장합니다. 템플릿 모드의 이러한 상자는 앞의 예와 같이 표시됩니다. 최적의 결과를 위해 권장사항에 따라 경계 상자를 확장합니다.

  5. 모델을 학습시킵니다.

    1. 새 버전 학습을 선택합니다.
    2. 프로세서 버전의 이름을 지정합니다.
    3. 고급 옵션 표시로 이동하여 템플릿 기반 모델 접근 방식을 선택합니다.

    template-based-extraction-3

  6. 평가

    1. 평가 및 테스트로 이동합니다.
    2. 방금 학습한 버전을 선택한 다음 전체 평가 보기를 선택합니다.

    template-based-extraction-4

    이제 전체 문서와 각 필드의 F1, 정밀도, 재현율과 같은 측정항목이 표시됩니다. 1. 성능이 프로덕션 목표를 충족하는지 확인하고, 충족하지 않는 경우 학습 및 테스트 세트를 재평가합니다.

  7. 새 버전을 기본값으로 설정합니다.

    1. 버전 관리로 이동합니다.
    2. 설정 메뉴를 선택한 다음 기본값으로 설정을 선택합니다.

    template-based-extraction-5

    이제 모델이 배포되었으며 이 프로세서로 전송된 문서가 맞춤 버전을 사용합니다. 모델의 성능을 평가하여 추가 학습이 필요한지 확인하고 싶습니다 (방법에 관한 자세한 내용).

평가 참조

평가 엔진은 일치검색과 유사 검색을 모두 실행할 수 있습니다. 정확한 일치의 경우 추출된 값이 정답과 정확하게 일치해야 하며, 그렇지 않으면 누락으로 간주됩니다.

대소문자 차이와 같은 약간의 차이가 있는 퍼지 일치 추출은 여전히 일치로 간주됩니다. 이 설정은 평가 화면에서 변경할 수 있습니다.

template-based-extraction-6

파운데이션 모델을 사용한 자동 라벨 지정

기반 모델은 다양한 문서 유형의 필드를 정확하게 추출할 수 있지만, 특정 문서 구조에 대한 모델의 정확성을 개선하기 위해 추가 학습 데이터를 제공할 수도 있습니다.

Document AI는 사용자가 정의한 라벨 이름과 이전 주석을 사용하여 자동 라벨 지정을 통해 대규모 문서에 더 쉽고 빠르게 라벨을 지정할 수 있습니다.

  1. 커스텀 프로세서를 만든 후 시작하기 탭으로 이동합니다.
  2. 새 필드 만들기를 선택합니다.

    template-based-extraction-7

  3. 빌드 탭으로 이동한 다음 문서 가져오기를 선택합니다.

    template-based-extraction-8

  4. 문서의 경로와 문서를 가져올 세트를 선택합니다. 자동 라벨 지정 체크박스를 선택하고 기반 모델을 선택합니다.

  5. 빌드 탭에서 데이터 세트 관리를 선택합니다. 가져온 문서가 표시됩니다. 문서 중 하나를 선택합니다.

    template-based-extraction-9

  6. 모델의 예측이 보라색으로 강조 표시됩니다. 모델에서 예측한 각 라벨을 검토하여 올바른지 확인해야 합니다. 누락된 필드가 있는 경우 해당 필드도 추가해야 합니다.

    template-based-extraction-10

  7. 문서를 검토한 후 라벨이 지정된 것으로 표시를 선택합니다.

  8. 이제 모델에서 문서를 사용할 수 있습니다. 문서가 테스트 또는 학습 세트에 있는지 확인합니다.