문서 라벨 지정

프로세서 버전을 학습시키거나 업트레이닝하거나 평가하려면 문서에 라벨이 지정된 데이터 세트가 필요합니다.

이 페이지에서는 프로세서 스키마의 라벨을 데이터 세트의 가져온 문서에 적용하는 방법을 설명합니다.

이 페이지에서는 학습, 업트레이닝 또는 평가를 지원하는 프로세서를 이미 만들었다고 가정합니다. 프로세서가 지원되는 경우 이제 Google Cloud 콘솔에 트레인 탭이 표시됩니다. 또한 데이터 세트를 만들고 문서를 가져오고 프로세서 스키마를 정의했다고 가정합니다.

생성형 AI 추출을 위한 이름 필드

필드의 이름 지정 방식은 생성형 AI를 사용하여 필드를 얼마나 정확하게 추출하는지에 영향을 미칩니다. 필드 이름을 지정할 때는 다음 권장사항을 따르는 것이 좋습니다.

  • 문서에서 필드를 설명하는 데 사용된 언어로 필드 이름 지정: 예를 들어 문서에 Employer Address로 설명된 필드가 있는 경우 필드 이름을 employer_address로 지정합니다. emplr_addr와 같은 약어는 사용하지 마세요.

  • 현재 필드 이름에는 공백이 지원되지 않음: 공백 대신 _를 사용하세요. 예를 들어 First Name의 이름은 first_name입니다.

  • 이름을 반복하여 정확성 개선: Document AI에는 필드 이름을 변경할 수 없는 제한사항이 있습니다. 다른 이름을 테스트하려면 항목 이름 변경 도구를 사용하여 데이터 세트에서 이전 항목 이름을 최신 이름으로 업데이트하고, 데이터 세트를 가져오고, 프로세서에서 새 항목을 사용 설정하고, 기존 필드를 사용 중지하거나 삭제합니다.

라벨 지정 옵션

문서에 라벨을 지정하는 옵션은 다음과 같습니다.

Google Cloud 콘솔에서 수동으로 라벨 지정

학습 탭에서 문서를 선택하여 라벨 지정 도구를 엽니다.

라벨 도구 왼쪽에 있는 스키마 라벨 목록에서 '추가' 기호를 선택하여 경계 상자 도구를 선택하고 문서의 항목을 강조 표시한 후 라벨에 할당합니다.

다음 스크린샷에서는 문서의 EMPL_SSN, EMPLR_ID_NUMBER, EMPLR_NAME_ADDRESS, FEDERAL_INCOME_TAX_WH, SS_TAX_WH, SS_WAGES, WAGES_TIPS_OTHER_COMP 필드에 라벨이 할당되었습니다.

label-process-1

경계 상자 도구로 체크박스 항목을 선택할 때는 연결된 텍스트가 아닌 체크박스 자체만 선택합니다. 왼쪽에 표시된 체크박스 항목이 문서의 내용과 일치하도록 선택 또는 선택 해제되어 있는지 확인합니다.

label-process-2

상위-하위 항목에 라벨을 지정할 때는 상위 항목에 라벨을 지정하지 마세요. 상위 항목은 하위 항목의 컨테이너일 뿐입니다. 하위 항목에만 라벨을 지정하세요. 상위 항목은 자동으로 업데이트됩니다.

하위 항목에 라벨을 지정할 때는 첫 번째 하위 항목에 라벨을 지정한 다음 관련 하위 항목을 해당 선과 연결합니다. 이러한 항목에 라벨을 처음 지정할 때 두 번째 하위 항목에서 이를 확인할 수 있습니다. 예를 들어 인보이스에서 description(설명) 라벨을 지정하면 다른 항목과 마찬가지로 보입니다. 하지만 다음에 수량을 라벨링하면 상위 요소를 선택하라는 메시지가 표시됩니다.

새 광고 항목마다 새 상위 항목을 선택하여 각 광고 항목에 대해 이 단계를 반복합니다.

상위-하위 항목은 미리보기 기능이며 중첩 레이어가 하나인 테이블에만 지원됩니다. Foundation 모델은 세 가지 수준의 필드 (할아버지, 아버지, 자녀)를 지원하므로 하위 항목은 한 수준의 하위 항목을 가질 수 있습니다.

빠른 표

표에 라벨을 지정할 때 각 행에 라벨을 반복해서 지정하는 것은 지루할 수 있습니다. 행 항목 구조를 복제할 수 있는 매우 편리한 도구가 있습니다. 이 기능은 가로로 정렬된 행에서만 작동합니다.

  1. 먼저 평소와 같이 첫 번째 행에 라벨을 지정합니다.
  2. 그런 다음 행을 나타내는 상위 항목 위에 마우스 포인터를 가져갑니다. 행 추가를 선택합니다. 이 행은 더 많은 행을 만드는 템플릿이 됩니다.

    label-process-3

  3. 표의 나머지 영역을 선택합니다.

    label-process-4

이 도구는 주석을 추측하며 일반적으로 작동합니다. 처리할 수 없는 테이블의 경우 수동으로 주석을 추가합니다.

콘솔에서 단축키 사용하기

사용 가능한 단축키를 보려면 라벨 지정 콘솔의 오른쪽 상단에 있는 메뉴를 선택합니다. 다음 표와 같이 단축키 목록이 표시됩니다.

작업 단축키
확대 Alt + = (macOS: Option + =)
축소 Alt + - (macOS: Option + -)
확대/축소하여 맞추기 Alt + 0 (macOS: Option + 0)
스크롤하여 확대/축소 Alt + 스크롤 (macOS: Option + 스크롤)
화면 이동 스크롤
반전 화면 이동 Shift + 스크롤
드래그하여 화면 이동 스페이스바 + 마우스 드래그
실행취소 Ctrl + Z (macOS: Control + Z)
재실행 Ctrl + Shift + Z (macOS에서는 Control + +Shift + Z)

자동 라벨 지정

가능한 경우 기존 버전의 프로세서를 사용하여 라벨 지정을 시작할 수 있습니다.

  1. 가져오기 중에 자동 라벨을 시작할 수 있습니다. 모든 문서에 지정된 프로세서 버전을 사용하여 주석이 추가됩니다.

    label-process-5

  2. 라벨이 지정되지 않은 문서 또는 자동으로 라벨이 지정된 문서의 경우 가져온 후 자동 라벨 지정을 시작할 수 있습니다. 선택한 모든 문서에 지정된 프로세서 버전을 사용하여 주석이 추가됩니다.

    label-process-6

자동 라벨 지정 문서를 라벨 지정됨으로 표시하지 않고 학습 또는 업트레이닝하거나 테스트 세트에서 사용할 수는 없습니다. 자동으로 라벨이 지정된 주석을 수동으로 검토하고 수정한 후 라벨이 지정됨으로 표시를 선택하여 수정사항을 저장합니다. 그런 다음 적절하게 문서를 할당할 수 있습니다.

사전에 라벨이 지정된 문서 가져오기

JSON Document 파일을 가져올 수 있습니다. 문서의 entity가 프로세서 스키마의 라벨과 일치하면 가져오기 도구에 의해 entity가 라벨 인스턴스로 변환됩니다. JSON 문서 파일을 가져오는 방법에는 여러 가지가 있습니다.

문서 라벨 지정 권장사항

고품질 프로세서를 학습시키려면 일관된 라벨링이 필요합니다. 다음을 권장합니다.

  • 라벨 지정 안내 만들기: 안내에는 일반적인 사례와 특이 사례의 예시가 모두 포함되어야 합니다. 몇 가지 도움말:

    • 주석을 달아야 하는 필드와 정확하게 라벨을 지정하는 방법을 설명합니다. 예를 들어 '금액' 라벨을 지정할 때 통화 기호에 라벨을 지정해야 하는지 지정합니다. 라벨이 일관되지 않으면 프로세서 품질이 저하됩니다.
    • 라벨 유형이 REQUIRED_ONCE 또는 OPTIONAL_ONCE인 경우에도 항목의 모든 인스턴스에 라벨을 지정합니다. 예를 들어 invoice_id가 문서에 두 번 나타나면 모든 인스턴스에 라벨을 지정합니다.
    • 일반적으로 먼저 기본 경계 상자 도구로 라벨을 지정하는 것이 좋습니다. 그래도 작동하지 않으면 텍스트 선택 도구를 사용하세요.
    • OCR에서 라벨 값을 올바르게 감지하지 못한 경우 값을 수동으로 수정하지 마세요. 그러면 학습 목적으로 사용할 수 없게 됩니다.

다음은 라벨 지정 안내의 샘플입니다.

  • 주석 작성자 교육: 주석 작성자가 가이드라인을 이해하고 체계적인 오류 없이 따를 수 있도록 합니다. 이를 실행하는 한 가지 방법은 여러 수습생이 동일한 문서 세트에 주석을 달도록 하는 것입니다. 그러면 트레이너가 각 학습자의 주석 작업의 품질을 확인할 수 있습니다. 학습자가 기준 수준의 정확성을 달성할 때까지 이 과정을 반복해야 할 수 있습니다.
  • 초기 검토: 수정해야 할 실수가 많이 발생하지 않도록 대량의 문서에 라벨을 지정하기 전에 신규 라벨 지정자가 사용 사례에 따라 라벨을 지정한 처음 몇 개 (10개 정도)의 문서를 검토해야 합니다.
  • 주석 품질 검토: 주석은 번거로운 작업이므로 숙련된 주석 작성자도 실수를 할 수 있습니다. 훈련된 주석 작성자 1명 이상이 주석을 확인하는 것이 좋습니다.

데이터 세트 재동기화

재동기화하면 데이터 세트의 Cloud Storage 폴더가 Document AI의 내부 메타데이터 색인과 일치하게 유지됩니다. 실수로 Cloud Storage 폴더를 변경한 후 데이터를 동기화하려는 경우에 유용합니다.

다시 동기화하려면 다음 단계를 따르세요.

프로세서 세부정보 탭의 저장소 위치 행 옆에 있는 를 선택한 후 데이터 세트 다시 동기화를 선택합니다.

label-process-8

사용법 참고사항:

  • Cloud Storage 폴더에서 문서를 삭제하면 재동기화 시 데이터 세트에서 문서가 삭제됩니다.
  • Cloud Storage 폴더에 문서를 추가해도 재동기화하면 데이터 세트에 추가되지 않습니다. 문서를 추가하려면 가져오세요.
  • Cloud Storage 폴더에서 문서 라벨을 수정하면 재동기화를 통해 데이터 세트의 문서 라벨이 업데이트됩니다.

데이터 세트 마이그레이션

가져오기 및 내보내기를 사용하면 데이터 세트의 모든 문서를 한 프로세서에서 다른 프로세서로 이동할 수 있습니다. 이는 서로 다른 리전 또는 Google Cloud 프로젝트에 프로세서가 있거나 스테이징과 프로덕션에 서로 다른 프로세서가 있거나 일반적인 오프라인 소비에 서로 다른 프로세서가 있는 경우에 유용할 수 있습니다.

문서와 라벨만 내보내집니다. 프로세서 스키마, 문서 할당 (학습/테스트/할당되지 않음), 문서 라벨 지정 상태 (라벨 지정됨, 라벨 지정되지 않음, 자동 라벨 지정됨)와 같은 데이터 세트 메타데이터는 내보내지 않습니다.

데이터 세트를 복사 및 가져온 후 대상 프로세서를 학습하는 것은 소스 프로세서를 학습하는 것과 정확히 동일하지 않습니다. 이는 학습 프로세스 시작 시 임의의 값이 사용되기 때문입니다. importProcessorVersion API 호출을 사용하여 프로젝트 간에 정확히 동일한 모델을 가져오기-이전합니다. 정책이 허용하는 경우 프로세서를 상위 환경 (예: 개발에서 스테이징으로, 스테이징에서 프로덕션으로)으로 이전할 때 권장사항입니다.

데이터 세트 내보내기

모든 문서를 JSON Document 파일로 Cloud Storage 폴더에 내보내려면 데이터 세트 내보내기를 선택합니다.

몇 가지 중요한 사항은 다음과 같습니다.

  1. 내보내기 중에 Test, Train, Unassigned라는 세 개의 하위 폴더가 생성됩니다. 문서는 해당 하위 폴더에 배치됩니다.

  2. 문서의 라벨 지정 상태는 내보내지 않습니다. 나중에 문서를 가져오면 자동 라벨이 지정됨으로 표시되지 않습니다.

  3. Cloud Storage가 다른 프로젝트에 있는 경우 Google Cloud Document AI가 해당 위치에 파일을 쓸 수 있도록 액세스 권한을 부여해야 합니다. 특히 Document AI의 핵심 서비스 에이전트 service-{project-id}@gcp-sa-prod-dai-core.iam.gserviceaccount.com스토리지 객체 생성자 역할을 부여해야 합니다. 자세한 내용은 서비스 상담사를 참고하세요.

데이터세트 가져오기

절차는 문서 가져오기와 동일합니다.

선택적 라벨 지정 사용자 가이드

선택적 라벨 지정을 사용하면 라벨을 지정할 문서를 추천받을 수 있습니다. 다양한 학습 및 테스트 데이터 세트를 만들어 대표적인 모델을 학습시킬 수 있습니다. 선택적 라벨링이 실행될 때마다 데이터 세트에서 가장 다양한 (최대 30개) 문서가 선택됩니다.

추천 문서 가져오기

  1. CDE 프로세서를 만들고 문서를 가져옵니다.

    • 학습에는 100개 이상 (테스트에는 25개)이 필요합니다.
    • 충분한 문서를 가져오고 선택적으로 라벨을 지정하면 정보 표시줄이 표시됩니다.

    label-process-9

    label-process-10

  2. 추천 문서가 없는 CDE 프로세서의 경우 샘플링을 위해 두 분할에 충분한 문서가 있도록 더 가져옵니다.

    • 이렇게 하면 추천 카테고리에서 추천 문서가 사용 설정됩니다. 추천 문서를 수동으로 요청할 수 있습니다.
    • 상단에 추천 문서를 필터링하는 새로운 필터가 있습니다.

    label-process-11

추천 문서에 라벨 지정

  1. 왼쪽 라벨 목록 패널에서 추천 카테고리로 이동합니다. 이러한 문서에 라벨을 지정합니다.

    label-process-12

  2. 프로세서가 학습된 경우 정보 표시줄에서 자동 라벨 지정을 선택합니다. 추천 문서에 라벨을 지정합니다.

    label-process-13

  3. 그런 다음 프로세서에서 이동할 문서를 추천하면 막대에서 지금 검토를 선택할 수 있습니다. 자동으로 라벨이 지정된 모든 문서는 정확성을 위해 검토해야 합니다. 검토를 시작합니다.

    label-process-14

모든 추천 문서에 라벨을 지정한 후 학습

정보 표시줄에서 지금 학습으로 이동합니다. 추천된 문서에 라벨이 지정되면 다음과 같이 학습을 권장하는 정보 표시줄이 표시됩니다.

label-process-15

지원되는 기능 및 제한사항

특성 설명 지원됨
이전 프로세서 지원 이전에 가져온 데이터 세트가 있는 이전 프로세서에서는 잘 작동하지 않을 수 있습니다.