학습 및 평가
Document AI를 사용하면 자체 학습 데이터를 사용하여 새 프로세서 버전을 학습하고 자체 테스트 데이터를 기준으로 프로세서 버전의 품질을 평가할 수 있습니다.
이는 맞춤 프로세서를 사용하려는 경우에 유용합니다. 문서 유형에 맞는 Document AI 프로세서가 있지만 필요에 따라 커스텀 버전을 업트레이닝할 수 있습니다.
학습과 평가는 일반적으로 사용 가능한 고품질 프로세서 버전을 향해 반복적으로 수행됩니다.
Document AI
Document AI를 사용하면 메뉴의 항목이나 이력서의 이름 및 연락처 정보와 같이 특정 유형의 문서에서 항목을 추출하는 자체 맞춤 추출기를 빌드할 수 있습니다.
다른 프로세서와 달리 맞춤 프로세서에는 사전 학습된 프로세서 버전이 제공되지 않으므로 버전을 처음부터 학습할 때까지 문서를 처리할 수 없습니다.
Document AI를 시작하려면 자체 커스텀 프로세서 빌드를 참고하세요.
프로세서 업트레이닝
새 프로세서 버전을 업트레이닝하여 데이터의 정확성을 개선하고, 문서에서 추가 커스텀 필드를 추출하고, 새 언어 지원을 추가할 수 있습니다.
업 학습은 Google의 사전 학습된 프로세서 버전에 전이 학습을 적용하여 작동하며 일반적으로 처음부터 학습하는 것보다 적은 데이터가 필요합니다.
시작하려면 사전 학습된 프로세서 업트레이닝을 참고하세요.
지원되는 프로세서
일부 특수 프로세서에서는 업 트레인을 지원하지 않습니다. 다음은 학습 업데이트를 지원하는 프로세서입니다.
데이터 고려사항 및 권장사항
데이터의 품질과 양에 따라 학습, 업트레인, 평가의 품질이 결정됩니다.
대표적인 실제 문서를 확보하고 충분한 양의 고품질 라벨을 제공하는 작업은 종종 프로세스에서 가장 시간이 많이 걸리고 리소스가 많이 소요되는 부분입니다.
문서 수
문서의 형식이 모두 비슷한 경우 (예: 변동이 매우 적은 고정 양식) 정확성을 달성하는 데 필요한 문서 수가 줄어듭니다. 변형이 많을수록 더 많은 문서가 필요합니다.
다음 차트는 맞춤 문서 추출기가 특정 품질 점수를 달성하는 데 필요한 문서 수를 대략적으로 추정하여 보여줍니다.
낮은 변동성 | 높은 변동성 |
---|---|
![]() |
![]() |
데이터 라벨 지정
문서 라벨 지정 옵션을 고려하고 데이터 세트의 문서에 주석을 달 수 있는 충분한 리소스가 있는지 확인합니다.
모델 학습
맞춤 추출기 프로세서는 특정 사용 사례와 사용 가능한 학습 데이터에 따라 다양한 모델 유형을 사용할 수 있습니다.
- 맞춤 모델: 라벨이 지정된 학습 데이터를 사용하는 모델입니다.
- 템플릿 기반: 고정된 레이아웃이 있는 문서
- 모델 기반: 레이아웃이 약간 다른 문서
- 생성형 AI 모델: 최소한의 추가 학습이 필요한 사전 학습된 기반 모델을 기반으로 합니다.
다음 표에는 각 모델 유형에 해당하는 사용 사례가 나와 있습니다.
맞춤 모델 | 생성형 AI | ||
---|---|---|---|
템플릿 기반 | 모델 기반 | ||
레이아웃 변형 | 없음 | 낮음~중간 | 높음 |
자유 형식 텍스트의 양 (예: 계약의 단락) | 낮음 | 낮음 | 높음 |
필요한 학습 데이터 양 | 낮음 | 높음 | 낮음 |
제한된 학습 데이터의 정확성 | 높음 | 낮음 | 높음 |
속성 설명으로 프로세서를 미세 조정하는 방법을 알아보세요.
다른 프로세서를 사용해야 하는 경우
다음은 Document AI Document AI Workbench 이외의 옵션을 고려하거나 워크플로를 조정해야 하는 경우입니다.
- 특정 텍스트 기반 입력 형식 (.txt, .html, .docx, .md 등)은 Document AI Document AI Workbench에서 지원되지 않습니다. Google Cloud의 다른 사전 빌드된 또는 맞춤 언어 처리 서비스(예: Cloud Natural Language API)를 고려하세요.
- 맞춤 문서 추출기 스키마는 최대 150개의 항목 라벨을 지원합니다. 비즈니스 로직에 스키마 정의에 150개가 넘는 항목이 필요한 경우 각 항목의 하위 집합을 타겟팅하는 여러 프로세서를 학습하는 것이 좋습니다.
프로세서 학습 방법
학습 또는 업트레이닝을 지원하는 프로세서를 이미 만들고 데이터 세트에 라벨을 지정했다고 가정하면 새 프로세서 버전을 처음부터 학습할 수 있습니다. 또는 기존 프로세서를 기반으로 새 프로세서 버전을 업트레이닝할 수 있습니다.
트레인 프로세서 버전
웹 UI
Google Cloud 콘솔에서 프로세서의 학습 탭으로 이동합니다.
스키마 수정을 클릭하여 라벨 관리 페이지를 엽니다. 프로세서의 라벨을 확인합니다.
학습 시 사용 설정된 라벨에 따라 새 프로세서 버전에서 추출하는 항목이 결정됩니다. 스키마에서 라벨이 비활성 상태이면 문서에 라벨이 지정되어 있더라도 프로세서 버전에서 해당 라벨을 추출하지 않습니다.
학습 탭에서 라벨 통계 보기를 클릭하고 테스트 및 학습 세트를 확인합니다. 자동으로 라벨이 지정된, 라벨이 지정되지 않은 또는 할당되지 않은 문서는 학습 및 평가에서 제외됩니다.
새 버전 학습을 클릭합니다.
버전 이름은
processorVersion
의name
필드를 정의합니다.학습 시작을 클릭하고 새 프로세서 버전이 학습 및 평가될 때까지 기다립니다.
버전 관리 탭에서 학습 진행 상황을 모니터링할 수 있습니다.
평가 및 테스트 탭을 클릭하여 테스트 세트에서 새 프로세서 버전의 성능을 확인합니다. 자세한 내용은 프로세서 버전 평가를 참고하세요.
Python
자세한 내용은 Document AI Python API 참조 문서를 참고하세요.
Document AI에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.
프로세서 버전 배포 및 사용
다른 프로세서 버전과 마찬가지로 프로세서 버전을 배포하고 관리할 수 있습니다. 자세한 내용은 프로세서 버전 관리를 참고하세요.
배포된 후에는 커스텀 프로세서에 처리 요청을 전송할 수 있습니다.
프로세서 사용 중지 또는 삭제
프로세서를 더 이상 사용하지 않으려면 프로세서를 사용 중지하거나 삭제하면 됩니다. 프로세서를 사용 중지한 경우 다시 사용 설정할 수 있습니다. 프로세서를 삭제하면 복구할 수 없습니다.
왼쪽의 Document AI 패널에서 내 프로세서를 클릭합니다.
프로세서 이름 오른쪽에 있는 세로 점 3개를 클릭합니다. 프로세서 사용 중지 또는 프로세서 삭제를 클릭합니다.
자세한 내용은 프로세서 버전 관리를 참고하세요.
학습 데이터 암호화
Document AI 학습 데이터는 Cloud Storage에 저장되며 필요한 경우 고객 관리 암호화 키로 암호화할 수 있습니다.
학습 데이터 삭제
Document AI 학습 작업이 완료되면 Cloud Storage에 저장된 모든 학습 데이터는 2일의 보관 기간이 지난 후 만료됩니다. 후속 데이터 삭제 활동은 Google Cloud의 데이터 삭제에 설명된 프로세스를 따릅니다.
가격 책정
교육 또는 업데이트 교육은 무료입니다. 호스팅 및 예측에 대한 비용을 지불합니다. 자세한 내용은 Document AI 가격 책정을 참고하세요.