프로세서 버전을 학습시키거나 업트레이닝하거나 평가하려면 문서에 라벨이 지정된 데이터 세트가 필요합니다.
이 페이지에서는 프로세서 스키마의 라벨을 데이터 세트의 가져온 문서에 적용하는 방법을 설명합니다.
이 페이지에서는 학습, 업트레이닝 또는 평가를 지원하는 프로세서를 이미 만들었다고 가정합니다. 프로세서가 지원되면 이제 Google Cloud 콘솔에 학습 탭이 표시됩니다. 또한 데이터 세트를 만들고 문서를 가져오고 프로세서 스키마를 정의했다고 가정합니다.
생성형 AI 추출을 위한 이름 필드
필드 이름 지정 방식은 생성형 AI를 사용하여 필드를 추출하는 정확도에 영향을 미칩니다. 필드 이름을 지정할 때는 다음 권장사항을 따르는 것이 좋습니다.
문서에서 설명하는 데 사용된 언어와 동일한 언어로 필드 이름을 지정: 예를 들어 문서에
Employer Address
로 설명된 필드가 있는 경우 필드 이름을employer_address
로 지정합니다.emplr_addr
와 같은 약어는 사용하지 마세요.현재 필드 이름에 공백이 지원되지 않음: 공백 대신
_
를 사용하세요. 예를 들어First Name
의 이름은first_name
가 됩니다.이름을 반복하여 정확도 개선: Document AI에는 필드 이름을 변경할 수 없는 제한사항이 있습니다. 다른 이름을 테스트하려면 엔티티 이름 바꾸기 도구를 사용하여 데이터 세트에서 이전 엔티티의 이름을 새 이름으로 업데이트하고, 데이터 세트를 가져오고, 프로세서에서 새 엔티티를 사용 설정하고, 기존 필드를 사용 중지하거나 삭제합니다.
제로샷 및 퓨샷 학습
Gemini가 적용된 모델에는 제로샷 및 퓨샷 학습이 있어 학습 데이터가 거의 없거나 전혀 없어도 고성능 모델을 만들 수 있습니다.
제로샷 학습은 사전 학습된 모델이 테스트 중에 이전에 접하지 못한 클래스와 항목을 인식하고 분류하는 방법을 학습하는 머신러닝의 예입니다.
퓨샷 학습은 모델이 클래스당 몇 개의 학습 예시만으로 새로운 클래스와 항목을 인식하고 분류하는 방법을 학습하는 것입니다. 대규모의 라벨이 잘 지정된 데이터 세트에 대한 사전 학습된 모델의 지식을 활용하여 소량 학습 작업의 성능을 개선합니다.
학습 데이터 세트가 깔끔하고 신중하게 라벨링되어 있으면 퓨샷이 더 효과적입니다. 일반적으로 이는 모델이 학습할 수 있는 테스트 및 학습 예가 각각 10개 이상 있어야 함을 의미합니다.
라벨 지정 옵션
문서에 라벨을 지정하는 옵션은 다음과 같습니다.
수동: Google Cloud 콘솔에서 문서를 수동으로 라벨링합니다.
자동 라벨 지정: 기존 프로세서 버전을 사용하여 라벨 생성
사전에 라벨이 지정된 문서 가져오기: 이미 라벨이 지정된 문서가 있는 경우 시간을 절약할 수 있습니다.
Google Cloud 콘솔에서 수동으로 라벨 지정
학습 탭에서 문서를 선택하여 라벨 지정 도구를 엽니다.
라벨 지정 도구의 왼쪽 스키마 라벨 목록에서 '추가' 기호를 선택하여 경계 상자 도구를 선택하여 문서의 항목을 강조 표시하고 라벨에 할당합니다.
다음 스크린샷에서는 문서의 EMPL_SSN
, EMPLR_ID_NUMBER
, EMPLR_NAME_ADDRESS
, FEDERAL_INCOME_TAX_WH
, SS_TAX_WH
, SS_WAGES
, WAGES_TIPS_OTHER_COMP
필드에 라벨이 할당되었습니다.
경계 상자 도구로 체크박스 항목을 선택할 때는 체크박스 자체만 선택하고 연결된 텍스트는 선택하지 마세요. 왼쪽에 표시된 체크박스 항목이 문서의 내용과 일치하도록 선택 또는 선택 해제되어 있는지 확인합니다.
상위-하위 항목에 라벨을 지정할 때는 상위 항목에 라벨을 지정하지 마세요. 상위 항목은 하위 항목의 컨테이너일 뿐입니다. 하위 항목에만 라벨을 지정합니다. 상위 항목은 자동으로 업데이트됩니다.
하위 항목에 라벨을 지정할 때는 첫 번째 하위 항목에 라벨을 지정한 다음 관련 하위 항목을 해당 라인과 연결합니다. 이러한 항목에 처음 라벨을 지정할 때 두 번째 하위 항목에서 이를 확인할 수 있습니다. 예를 들어 인보이스에서 설명에 라벨을 지정하면 다른 항목과 마찬가지로 표시됩니다. 하지만 다음에 수량을 라벨로 지정하면 상위 항목을 선택하라는 메시지가 표시됩니다.
새 광고 항목마다 새 상위 항목을 선택하여 각 광고 항목에 대해 이 단계를 반복합니다.
최대 3개 레이어의 중첩이 있는 테이블에 상하위 항목이 지원됩니다. 파운데이션 모델은 3단계 필드 (조상, 상위, 하위)를 지원하므로 하위 항목은 한 단계의 하위 항목을 가질 수 있습니다. 중첩에 대해 자세히 알아보려면 3단계 중첩을 참고하세요.
빠른 표
표에 라벨을 지정할 때 각 행에 반복적으로 라벨을 지정하는 것은 지루한 작업일 수 있습니다. 행 항목 구조를 복제할 수 있는 매우 편리한 도구가 있습니다. 이 기능은 가로로 정렬된 행에서만 작동합니다.
- 먼저 첫 번째 행에 평소와 같이 라벨을 지정합니다.
그런 다음 행을 나타내는 상위 항목 위에 마우스 포인터를 가져갑니다. 행 추가를 선택합니다. 행이 더 많은 행을 만드는 템플릿이 됩니다.
표의 나머지 영역을 선택합니다.
이 도구는 주석을 추측하며 일반적으로 작동합니다. 처리할 수 없는 테이블은 수동으로 주석을 추가합니다.
콘솔에서 단축키 사용하기
사용 가능한 단축키를 보려면 라벨 지정 콘솔의 오른쪽 상단에 있는
메뉴를 선택합니다. 다음 표와 같이 단축키 목록이 표시됩니다.작업 | 단축키 |
---|---|
확대 | Alt + = (macOS: Option + =) |
축소 | Alt + - (macOS의 경우 Option + -) |
확대/축소하여 맞추기 | Alt + 0 (macOS에서는 Option + 0) |
스크롤하여 확대/축소 | Alt + 스크롤 (macOS: Option + 스크롤) |
화면 이동 | 스크롤 |
반전 화면 이동 | Shift + 스크롤 |
드래그하여 화면 이동 | 스페이스바 + 마우스 드래그 |
실행취소 | Ctrl + Z (macOS에서는 Control + Z) |
재실행 | Ctrl + Shift + Z (macOS: Control + Shift + Z) |
자동 라벨 지정
사용 가능한 경우 기존 프로세서 버전을 사용하여 라벨 지정을 시작할 수 있습니다.
가져오기 중에 자동 라벨을 시작할 수 있습니다. 모든 문서에는 지정된 프로세서 버전을 사용하여 주석이 추가됩니다.
라벨이 지정되지 않은 또는 자동으로 라벨이 지정된 카테고리의 문서에 대해 가져오기 후 자동 라벨을 시작할 수 있습니다. 선택한 모든 문서에는 지정된 프로세서 버전이 사용되어 주석이 추가됩니다.
자동 라벨 지정 문서를 라벨 지정됨으로 표시하지 않고는 학습 또는 업트레이닝하거나 테스트 세트에서 사용할 수 없습니다. 자동 라벨이 지정된 주석을 수동으로 검토하고 수정하고 라벨 지정됨으로 표시를 선택하여 수정을 저장합니다. 그런 다음 적절하게 문서를 할당할 수 있습니다.
사전에 라벨이 지정된 문서 가져오기
JSON Document
파일을 가져올 수 있습니다. 문서의 entity
이 프로세서 스키마의 라벨과 일치하면 가져오기 도구에 의해 entity
이 라벨 인스턴스로 변환됩니다. JSON 문서 파일을 가져오는 방법에는 여러 가지가 있습니다.
다른 처리자에서 데이터 세트를 내보내는 경우 데이터 세트 내보내기를 참고하세요.
기존 프로세서에 처리 요청 보내기
가져오기 툴킷을 사용하여 다른 시스템의 기존 라벨(예: CSV 형식 라벨)을 JSON 문서로 변환합니다.
문서 라벨 지정 권장사항
고품질 프로세서를 학습시키려면 일관된 라벨 지정이 필요합니다. 다음과 같이 하는 것이 좋습니다.
라벨 지정 안내 만들기: 안내에는 일반적인 사례와 특이 사례의 예시가 모두 포함되어야 합니다. 도움말:
- 어떤 필드에 주석을 달아야 하는지, 라벨링을 일관되게 하는 방법은 무엇인지 설명합니다. 예를 들어 '금액'에 라벨을 지정할 때 통화 기호에 라벨을 지정해야 하는지 지정합니다. 라벨이 일관되지 않으면 프로세서 품질이 저하됩니다.
- 라벨 유형이
REQUIRED_ONCE
또는OPTIONAL_ONCE
인 경우에도 항목의 모든 발생에 라벨을 지정합니다. 예를 들어invoice_id
가 문서에 두 번 표시되면 모든 항목에 라벨을 지정합니다. - 일반적으로 먼저 기본 경계 상자 도구를 사용하여 라벨을 지정하는 것이 좋습니다. 실패하면 텍스트 선택 도구를 사용합니다.
- OCR에서 라벨 값을 올바르게 감지하지 못하는 경우 값을 수동으로 수정하지 마세요. 이렇게 하면 학습 목적으로 사용할 수 없게 됩니다.
다음은 몇 가지 샘플 라벨링 안내입니다.
- 주석 작성자 교육: 주석 작성자가 체계적인 오류 없이 가이드라인을 이해하고 따를 수 있는지 확인합니다. 이를 달성하는 한 가지 방법은 서로 다른 학습자가 동일한 문서 세트에 주석을 다는 것입니다. 그러면 트레이너가 각 교육생의 주석 작업 품질을 확인할 수 있습니다. 교육생이 기준 정확도 수준에 도달할 때까지 이 과정을 반복해야 할 수 있습니다.
- 초기 검토: 새로운 라벨러가 사용 사례에 따라 라벨을 지정한 처음 몇 개 (10개 정도) 문서는 수정해야 하는 실수가 많이 발생하지 않도록 대량의 문서에 라벨을 지정하기 전에 검토해야 합니다.
- 주석 품질 검토: 주석은 노동 집약적인 작업이므로 숙련된 주석자도 실수를 할 수 있습니다. 주석은 하나 이상의 숙련된 주석 작성자가 확인하는 것이 좋습니다.
설명 프롬프트 추가
맞춤 추출기 및 맞춤 분류기의 스키마에 라벨을 추가할 때 라벨에 대한 설명을 추가할 수 있습니다. 이렇게 하면 라벨을 식별하는 데 사용할 프롬프트를 제공하여 프로세서를 학습시킬 수 있습니다. 조금씩 변형하여 대답의 품질을 테스트할 수 있습니다. 예를 들어 '총액', '총 인보이스 금액' 또는 '인보이스 총액'입니다.
데이터 세트 다시 동기화
다시 동기화하면 데이터 세트의 Cloud Storage 폴더가 Document AI의 내부 메타데이터 색인과 일관되게 유지됩니다. Cloud Storage 폴더를 실수로 변경한 후 데이터를 동기화하려는 경우에 유용합니다.
다시 동기화하려면 다음 단계를 따르세요.
프로세서 세부정보 탭의 스토리지 위치 행 옆에 있는
를 선택한 후 데이터 세트 다시 동기화를 선택합니다.사용법 참고사항:
- Cloud Storage 폴더에서 문서를 삭제하면 다시 동기화할 때 데이터 세트에서 삭제됩니다.
- Cloud Storage 폴더에 문서를 추가해도 다시 동기화하면 데이터 세트에 추가되지 않습니다. 문서를 추가하려면 가져오세요.
- Cloud Storage 폴더에서 문서 라벨을 수정하면 다시 동기화 시 데이터 세트의 문서 라벨이 업데이트됩니다.
데이터 세트 마이그레이션
가져오기 및 내보내기를 사용하면 데이터 세트의 모든 문서를 한 프로세서에서 다른 프로세서로 이동할 수 있습니다. 이는 서로 다른 리전 또는 Google Cloud 프로젝트에 프로세서가 있거나, 스테이징 및 프로덕션에 서로 다른 프로세서가 있거나, 일반적인 오프라인 소비에 서로 다른 프로세서가 있는 경우에 유용합니다.
문서와 라벨만 내보내집니다. 데이터 세트 메타데이터(예: 프로세서 스키마, 문서 할당(학습/테스트/할당되지 않음), 문서 라벨 지정 상태(라벨 지정됨, 라벨 지정되지 않음, 자동 라벨 지정됨))는 내보내지지 않습니다.
데이터 세트를 복사하고 가져온 다음 대상 프로세서를 학습시키는 것은 소스 프로세서를 학습시키는 것과 정확히 동일하지 않습니다. 이는 학습 프로세스 시작 시 무작위 값이 사용되기 때문입니다. importProcessorVersion
API 호출을 사용하여 프로젝트 간에 정확히 동일한 모델을 가져오기-마이그레이션합니다. 정책에서 허용하는 경우 프로세서를 더 높은 환경 (예: 개발에서 스테이징, 프로덕션)으로 이전하는 데 권장되는 방법입니다.
데이터 세트 내보내기
모든 문서를 JSON Document
파일로 Cloud Storage 폴더에 내보내려면 데이터 세트 내보내기를 선택합니다.
몇 가지 중요한 사항을 참고하세요.
내보내기 중에 Test, Train, Unassigned의 세 가지 하위 폴더가 생성됩니다. 문서는 해당 하위 폴더에 배치됩니다.
문서의 라벨링 상태는 내보내지지 않습니다. 나중에 문서를 가져오더라도 자동 라벨 지정으로 표시되지 않습니다.
Cloud Storage가 다른 Google Cloud 프로젝트에 있는 경우 Document AI가 해당 위치에 파일을 쓸 수 있도록 액세스 권한을 부여해야 합니다. 특히 Document AI의 핵심 서비스 에이전트
service-{project-id}@gcp-sa-prod-dai-core.iam.gserviceaccount.com
에 스토리지 객체 생성자 역할을 부여해야 합니다. 자세한 내용은 서비스 에이전트를 참고하세요.
데이터세트 가져오기
절차는 문서 가져오기와 동일합니다.
선택적 라벨 지정 사용자 가이드
선택적 라벨 지정은 라벨을 지정할 문서에 대한 추천을 제공합니다. 다양한 학습 및 테스트 데이터 세트를 만들어 대표 모델을 학습시킬 수 있습니다. 선택적 라벨링이 실행될 때마다 데이터 세트에서 가장 다양한 문서 (최대 30개)가 선택됩니다.
추천 문서 가져오기
CDE 프로세서를 만들고 문서를 가져옵니다.
- 학습에는 100개 이상이 필요합니다 (테스트에는 25개).
- 충분한 문서를 가져오고 선택적 라벨 지정이 완료되면 정보 표시줄이 표시됩니다.
추천 문서가 0개인 CDE 프로세서의 경우 샘플링을 위해 분할된 항목에 충분한 문서가 있도록 더 가져옵니다.
- 이렇게 하면 추천 카테고리에 추천 문서가 표시됩니다. 추천 문서를 수동으로 요청할 수 있어야 합니다.
- 상단에 추천 문서를 필터링하는 새로운 필터가 있습니다.
추천 문서에 라벨 지정
왼쪽 라벨 목록 패널에서 추천 카테고리로 이동합니다. 이 문서에 라벨을 지정합니다.
프로세서가 학습된 경우 정보 표시줄에서 자동 라벨 지정을 선택합니다. 추천 문서에 라벨을 지정합니다.
그런 다음 프로세서에서 추천 문서가 있으면 막대에서 지금 검토를 선택하여 이동할 수 있습니다. 자동으로 라벨이 지정된 모든 문서의 정확성을 검토해야 합니다. 검토를 시작합니다.
추천 문서에 모두 라벨을 지정한 후 학습
정보 표시줄에서 지금 학습으로 이동합니다. 추천 문서에 라벨이 지정되면 학습을 추천하는 다음 정보 표시줄이 표시됩니다.
지원되는 기능 및 제한사항
기능 | 설명 | 지원됨 |
---|---|---|
이전 프로세서 지원 | 이전에 가져온 데이터 세트가 있는 이전 프로세서에서는 제대로 작동하지 않을 수 있음 |