이 페이지에서는 Document AI Toolbox API용 Cloud 클라이언트 라이브러리를 시작하는 방법을 보여줍니다. 클라이언트 라이브러리를 사용하면 지원되는 언어로Google Cloud API에 쉽게 액세스할 수 있습니다. 원시 요청을 서버에 보내Google Cloud API를 직접 사용할 수 있지만 클라이언트 라이브러리는 작성해야 하는 코드 양을 크게 줄여 주는 간소화 기능을 제공합니다.
클라이언트 라이브러리 설명에서 Cloud 클라이언트 라이브러리 및 이전 Google API 클라이언트 라이브러리에 대해 자세히 알아보세요.
클라이언트 라이브러리 설치
Python
pip install --upgrade google-cloud-documentai-toolbox
자세한 내용은 Python 개발 환경 설정을 참조하세요.
인증 설정
Google Cloud API 호출을 인증하기 위해 클라이언트 라이브러리는 애플리케이션 기본 사용자 인증 정보(ADC)를 지원합니다. 라이브러리는 정의된 위치 집합에서 사용자 인증 정보를 찾고 이러한 사용자 인증 정보를 사용해서 API에 대한 요청을 인증합니다. ADC를 사용하면 애플리케이션 코드를 수정할 필요 없이 로컬 개발 또는 프로덕션과 같은 다양한 환경에서 애플리케이션에 사용자 인증 정보를 제공할 수 있습니다.프로덕션 환경에서 ADC를 설정하는 방법은 서비스와 컨텍스트에 따라 다릅니다. 자세한 내용은 애플리케이션 기본 사용자 인증 정보 설정을 참조하세요.
로컬 개발 환경의 경우 Google 계정과 연결된 사용자 인증 정보를 사용하여 ADC를 설정할 수 있습니다.
-
Install the Google Cloud CLI, then initialize it by running the following command:
gcloud init
-
If you're using a local shell, then create local authentication credentials for your user account:
gcloud auth application-default login
You don't need to do this if you're using Cloud Shell.
로그인 화면이 표시됩니다. 로그인하면 사용자 인증 정보는 ADC에서 사용하는 로컬 사용자 인증 정보 파일에 저장됩니다.
클라이언트 라이브러리 사용
Document AI Toolbox는 문서 응답에서 정보를 관리, 조작, 추출하기 위한 유틸리티 함수를 제공하는 Python용 SDK입니다.
Cloud Storage의 JSON 파일, 로컬 JSON 파일 또는 process_document()
메서드에서 직접 출력한 처리된 문서 응답에서 '래핑된' 문서 객체를 만듭니다.
다음 작업을 실행할 수 있습니다.
- 일괄 처리의 단편화된
Document
JSON 파일을 단일 '래핑된' 문서로 결합합니다. - 샤드를 통합된
Document
로 내보냅니다. -
다음에서
Document
출력을 가져옵니다. Layout
정보를 처리하지 않고Pages
,Lines
,Paragraphs
,FormFields
,Tables
의 텍스트에 액세스합니다.- 타겟 문자열이 포함되어 있거나 정규 표현식과 일치하는
Pages
를 검색합니다. - 이름으로
FormFields
를 검색합니다. - 유형별로
Entities
를 검색합니다. Tables
를 Pandas Dataframe 또는 CSV로 변환합니다.Entities
및FormFields
를 BigQuery 테이블에 삽입합니다.- 분할기/분류기 프로세서의 출력을 기반으로 PDF 파일을 분할합니다.
Document
경계 상자에서 이미지Entities
를 추출합니다.-
Documents
를 일반적으로 사용되는 형식으로 변환합니다.- Cloud Vision API
AnnotateFileResponse
- hOCR
- 서드 파티 문서 처리 형식
- Cloud Vision API
- Cloud Storage 폴더에서 처리할 문서 일괄을 만듭니다.
코드 샘플
다음 코드 샘플은 Document AI Toolbox를 사용하는 방법을 보여줍니다.
빠른 시작
테이블
BigQuery 내보내기
PDF 분할
이미지 추출
비전 전환
hOCR 변환
서드 파티 전환
문서 일괄 처리
문서 샤드 병합
추가 리소스
Python
다음 목록에는 Python용 클라이언트 라이브러리와 관련된 추가 리소스에 대한 링크가 포함되어 있습니다.