Package google.cloud.vision.v1

색인

ImageAnnotator

얼굴, 랜드마크, 로고, 라벨, 텍스트 인식 등 클라이언트 이미지에 대한 Google Cloud Vision API 감지 태스크를 수행하는 서비스입니다. ImageAnnotator 서비스는 이미지에서 감지된 항목을 반환합니다.

BatchAnnotateFiles

rpc BatchAnnotateFiles(BatchAnnotateFilesRequest) returns (BatchAnnotateFilesResponse)

파일 배치에 대한 이미지 감지 및 주석을 수행하는 서비스입니다. 이제 'application/pdf', 'image/tiff', 'image/gif'만 지원됩니다.

이 서비스는 제공된 각 파일에서 최대 5개(AnnotateFileRequest.pages에 지정 가능)의 프레임(gif) 또는 페이지(pdf 또는 tiff)를 추출하고 추출된 각 이미지에 대한 감지 및 주석을 수행합니다.

승인 범위

다음 OAuth 범위 중 하나가 필요합니다.

  • https://www.googleapis.com/auth/cloud-platform
  • https://www.googleapis.com/auth/cloud-vision
BatchAnnotateImages

rpc BatchAnnotateImages(BatchAnnotateImagesRequest) returns (BatchAnnotateImagesResponse)

이미지 배치에 대한 이미지 감지 및 주석을 실행합니다.

승인 범위

다음 OAuth 범위 중 하나가 필요합니다.

  • https://www.googleapis.com/auth/cloud-platform
  • https://www.googleapis.com/auth/cloud-vision

AnnotateFileRequest

PDF, TIFF 또는 GIF 파일 등 단일 파일에 주석을 달기 위한 요청입니다.

필드
input_config

InputConfig

필수 항목입니다. 입력 파일에 대한 정보입니다.

features[]

Feature

필수 항목입니다. 요청한 기능입니다.

image_context

ImageContext

파일의 이미지와 함께 제공될 수 있는 추가 컨텍스트입니다.

pages[]

int32

이미지 주석을 수행할 파일의 페이지입니다.

페이지는 1부터 시작되며 파일의 첫 번째 페이지를 1페이지로 가정합니다. 요청당 최대 5개 페이지가 지원됩니다. 페이지는 음수일 수 있습니다.

1페이지는 첫 번째 페이지를 의미합니다. 2페이지는 두 번째 페이지를 의미합니다. -1페이지는 마지막 페이지를 의미합니다. -2페이지는 마지막 페이지의 두 번째 페이지를 의미합니다.

파일이 PDF 또는 TIFF가 아닌 GIF인 경우 페이지는 GIF 프레임을 의미합니다.

이 필드가 비어 있으면 기본적으로 서비스가 파일의 처음 5 페이지에 대해 이미지 주석을 수행합니다.

AnnotateFileResponse

단일 파일 주석 요청에 대한 응답입니다. 파일에는 개별 응답이 있는 하나 이상의 이미지가 포함될 수 있습니다.

필드
input_config

InputConfig

이 응답이 생성된 파일에 대한 정보입니다.

responses[]

AnnotateImageResponse

파일 내에서 발견된 이미지에 대한 개별 응답입니다. error 필드가 설정된 경우 이 필드는 비어 있습니다.

total_pages

int32

이 필드는 파일의 총 페이지 수를 제공합니다.

error

Status

설정한 경우 실패한 요청의 오류 메시지가 표시됩니다. 이 경우에는 responses 필드가 설정되지 않습니다.

AnnotateImageRequest

사용자가 제공한 기능과 컨텍스트 정보로 사용자가 제공한 이미지에 대한 Google Cloud Vision API 작업을 수행하기 위한 요청입니다.

필드
image

Image

처리할 이미지입니다.

features[]

Feature

요청한 기능입니다.

image_context

ImageContext

이미지와 함께 제공될 수 있는 추가 컨텍스트입니다.

AnnotateImageResponse

이미지 주석 요청에 대한 응답입니다.

필드
text_annotations[]

EntityAnnotation

있는 경우 텍스트(OCR) 인식이 성공적으로 완료된 것입니다.

full_text_annotation

TextAnnotation

있는 경우 텍스트(OCR) 인식 또는 문서(OCR) 텍스트 인식이 성공적으로 완료된 것입니다. 이 주석은 OCR에서 감지한 텍스트의 계층 구조를 보여줍니다.

error

Status

설정한 경우 작업의 오류 메시지가 표시됩니다. error가 설정되어 있더라도 작성된 이미지 주석의 정확성이 보장됩니다.

context

ImageAnnotationContext

있는 경우 이미지의 출처를 파악하기 위해 컨텍스트 정보가 필요합니다.

BatchAnnotateFilesRequest

BatchAnnotateFiles API를 사용하여 파일에 주석을 다는 요청의 목록입니다.

필드
requests[]

AnnotateFileRequest

필수 항목입니다. 파일 주석 요청 목록입니다. 현재는 BatchAnnotateFilesRequest에서 AnnotateFileRequest가 한 개만 지원됩니다.

parent

string

선택사항입니다. 전화를 걸 프로젝트와 위치를 타겟팅합니다.

형식은 projects/{project-id}/locations/{location-id}입니다.

상위 요소를 지정하지 않으면 리전이 자동으로 선택됩니다.

지원되는 위치 ID는 다음과 같습니다. us: 미국 국가에만 해당됩니다. asia: 동아시아 지역입니다(예: 일본, 타이완). eu: 유럽 연합입니다.

예: projects/project-A/locations/eu

BatchAnnotateFilesResponse

파일 주석 응답의 목록입니다.

필드
responses[]

AnnotateFileResponse

파일 주석 응답의 목록으로, 각 응답은 BatchAnnotateFilesRequest의 각 AnnotateFileRequest에 해당합니다.

BatchAnnotateImagesRequest

여러 이미지 주석 요청이 단일 서비스 호출로 일괄 처리됩니다.

필드
requests[]

AnnotateImageRequest

필수 항목입니다. 이 배치에 대한 개별 이미지 주석 요청입니다.

parent

string

선택사항입니다. 전화를 걸 프로젝트와 위치를 타겟팅합니다.

형식은 projects/{project-id}/locations/{location-id}입니다.

상위 요소를 지정하지 않으면 리전이 자동으로 선택됩니다.

지원되는 위치 ID는 다음과 같습니다. us: 미국 국가에만 해당됩니다. asia: 동아시아 지역입니다(예: 일본, 타이완). eu: 유럽 연합입니다.

예: projects/project-A/locations/eu

BatchAnnotateImagesResponse

배치 이미지 주석 요청에 대한 응답입니다.

필드
responses[]

AnnotateImageResponse

배치 내의 이미지 주석 요청에 대한 개별 응답입니다.

차단

페이지의 논리적 요소

필드
property

TextProperty

블록에 대해 인식된 추가 정보입니다.

bounding_box

BoundingPoly

블록의 경계 상자입니다. 꼭짓점은 왼쪽 위, 오른쪽 위, 오른쪽 아래, 왼쪽 아래 순서입니다. 경계 상자의 회전이 감지되면 텍스트를 '자연스러운' 방향으로 읽을 때 정의된 대로 왼쪽 위 모서리를 기준으로 회전하여 표시됩니다. 예를 들면 다음과 같습니다.

  • 가로 텍스트는 다음과 같이 표시됩니다.
    0----1
    |    |
    3----2
  • 왼쪽 위 모서리를 기준으로 180도 회전하면 다음과 같이 됩니다.
    2----3
    |    |
    1----0

꼭짓점 순서는 여전히 (0, 1, 2, 3)입니다.

paragraphs[]

Paragraph

이 블록의 단락 목록입니다(이 블록이 텍스트 유형인 경우).

block_type

BlockType

이 블록에서 인식된 블록 유형(텍스트, 이미지 등)입니다.

confidence

float

블록에 대한 OCR 결과의 신뢰도입니다. 범위 [0, 1]

BlockType

OCR에서 식별한 블록 유형(텍스트, 이미지 등)입니다.

열거형
UNKNOWN 알 수 없는 블록 유형입니다.
TEXT 일반 텍스트 블록입니다.
TABLE 테이블 블록입니다.
PICTURE 이미지 블록입니다.
RULER 가로/세로선 상자입니다.
BARCODE 바코드 블록입니다.

BoundingPoly

인식된 이미지 주석의 경계 다각형입니다.

필드
vertices[]

Vertex

경계 다각형의 꼭짓점입니다.

normalized_vertices[]

NormalizedVertex

경계 다각형의 정규화된 꼭짓점입니다.

EntityAnnotation

감지된 항목 특성 세트입니다.

필드
mid

string

불투명한 항목 ID입니다. 일부 ID는 Google Knowledge Graph Search API에서 확인할 수 있습니다.

locale

string

항목 텍스트 description을 표현하는 데 사용된 언어 코드입니다.

description

string

locale 언어로 표현된 항목 텍스트 설명입니다.

score

float

결과의 전체 지수입니다. 범위 [0, 1]

confidence
(deprecated)

float

지원 중단되었습니다. 대신 score를 사용하세요. 이미지에서 항목 인식의 정확도입니다. 예를 들어 '에펠탑' 항목이 인식된 이미지의 경우 이 필드는 쿼리 이미지에 타워가 있을 확률을 나타냅니다. 범위 [0, 1]

topicality

float

이미지에 대한 ICA(이미지 콘텐츠 주석) 라벨의 관련성입니다. 예를 들어 각 이미지에 타워가 있을 확률이 동일하더라도 멀리 있는 고층 빌딩이 감지된 이미지보다는 '에펠탑'이 감지된 이미지와 '타워'의 관련성이 더 높습니다. 범위 [0, 1]

bounding_poly

BoundingPoly

이 항목이 속한 이미지 영역입니다. LABEL_DETECTION 특성에 대해서는 생성되지 않았습니다.

properties[]

Property

일부 항목에는 항목을 충족하는 점수 또는 문자열과 같이 사용자가 제공한 선택적 Property(이름/값) 필드가 포함될 수 있습니다.

기능

수행할 Google Cloud Vision API 감지 유형과 해당 유형에 반환될 최대 결과 수입니다. features 목록에서 Feature 객체를 여러 개 지정할 수 있습니다.

필드
type

Type

특성 유형입니다.

model

string

이 특성에 사용할 모델입니다. 지원되는 값은 'builtin/stable'(설정되지 않은 경우 기본값) 및 'builtin/latest'입니다. DOCUMENT_TEXT_DETECTIONTEXT_DETECTION은 매주 업데이트되는 최신 버전의 경우 'builtin/weekly'도 지원합니다.

유형

추출할 Google Cloud Vision API 특성의 유형입니다.

열거형
TYPE_UNSPECIFIED 지정되지 않은 특성 유형입니다.
TEXT_DETECTION 텍스트 인식/광학 문자 인식(OCR)을 실행합니다. 텍스트 인식은 큰 이미지 내의 텍스트 영역에 최적화되어 있습니다. 이미지가 문서인 경우 DOCUMENT_TEXT_DETECTION을 대신 사용하세요.
DOCUMENT_TEXT_DETECTION 밀집된 텍스트 문서 OCR을 실행합니다. DOCUMENT_TEXT_DETECTIONTEXT_DETECTION이 모두 존재하는 경우 우선 적용됩니다.

이미지

Google Cloud Vision API 작업을 수행할 클라이언트 이미지입니다.

필드
content

bytes

바이트 스트림으로 나타낸 이미지 내용입니다. 참고: JSON 표현은 base64를 사용하지만, 프로토콜 버퍼는 모든 bytes 필드와 마찬가지로 순수 바이너리 표현을 사용합니다.

현재 이 필드는 BatchAnnotateImages 요청에서만 작동합니다.

ImageAnnotationContext

이미지가 파일(예: PDF)에서 생성된 경우 이 메시지는 이미지의 소스에 대한 정보를 제공합니다.

필드
uri

string

이미지를 생성하는 데 사용된 파일의 URI입니다.

page_number

int32

파일이 PDF 또는 TIFF이면 이 필드는 이미지 생성에 사용된 파일 내의 페이지 번호를 제공합니다.

ImageContext

이미지 컨텍스트 또는 기능별 매개변수입니다.

필드
language_hints[]

string

TEXT_DETECTION에 사용할 언어 목록입니다. 대부분의 경우에는 빈 값으로 두면 자동 언어 감지가 사용되어 최상의 결과를 얻을 수 있습니다. 라틴 알파벳을 사용하는 언어라면 language_hints를 설정할 필요가 없습니다. 드문 경우지만, 이미지에 포함된 텍스트의 언어를 알고 있는 경우 힌트를 설정하면 결과가 나아지기도 합니다. 단, 힌트가 잘못되었다면 심각한 지장이 발생합니다. 지정한 언어 중 지원되는 언어가 아닌 언어가 하나라도 있으면 텍스트 인식 시 오류가 반환됩니다.

text_detection_params

TextDetectionParams

텍스트 인식 및 문서 텍스트 인식을 위한 매개변수입니다.

InputConfig

원하는 입력 위치 및 메타데이터입니다.

필드
content

bytes

바이트 스트림으로 나타낸 파일 내용입니다. 참고: JSON 표현은 base64를 사용하지만, 프로토콜 버퍼는 모든 bytes 필드와 마찬가지로 순수 바이너리 표현을 사용합니다.

현재 이 필드는 BatchAnnotateFiles 요청에서만 작동합니다.

mime_type

string

파일 유형입니다. 현재는 'application/pdf', 'image/tiff', 'image/gif'만 지원됩니다. 와일드 카드는 지원되지 않습니다.

NormalizedVertex

꼭짓점은 이미지의 2D 점을 나타냅니다. 참고: 정규화된 꼭짓점 좌표는 원본 이미지를 기준으로 하며 범위는 0에서 1 사이입니다.

필드
x

float

X 좌표입니다.

y

float

Y 좌표입니다.

페이지

OCR에서 감지된 페이지

필드
property

TextProperty

페이지에서 감지된 추가 정보입니다.

width

int32

페이지 너비입니다. PDF의 단위는 점입니다. 이미지(TIFF 포함)의 단위는 픽셀입니다.

height

int32

페이지 높이입니다. PDF의 단위는 점입니다. 이미지(TIFF 포함)의 단위는 픽셀입니다.

blocks[]

Block

이 페이지에 있는 텍스트, 이미지 등의 블록 목록입니다.

confidence

float

페이지에 대한 OCR 결과의 신뢰도입니다. 범위 [0, 1]

단락

특정 순서로 단어 수를 나타내는 텍스트의 구조적 단위

필드
property

TextProperty

단락에 대해 감지된 추가 정보입니다.

bounding_box

BoundingPoly

단락의 경계 상자입니다. 꼭짓점은 왼쪽 위, 오른쪽 위, 오른쪽 아래, 왼쪽 아래 순서입니다. 경계 상자의 회전이 감지되면 텍스트를 '자연스러운' 방향으로 읽을 때 정의된 대로 왼쪽 위 모서리를 기준으로 회전하여 표시됩니다. 예: * 텍스트가 가로인 경우 다음과 같이 표시됩니다. 0----1 | | 3----2 * 왼쪽 위 모서리를 기준으로 180도 회전하면 2----3 | | 1----0이 되고 꼭짓점 순서는 여전히 (0, 1, 2, 3)입니다.

words[]

Word

이 단락의 모든 단어 목록입니다.

confidence

float

단락의 OCR 결과 신뢰도입니다. 범위 [0, 1]

속성

Property는 사용자가 제공한 이름/값 쌍으로 구성됩니다.

필드
name

string

속성 이름입니다.

value

string

속성 값입니다.

uint64_value

uint64

숫자 속성의 값입니다.

기호

단일 기호 표현

필드
property

TextProperty

기호에 대해 감지된 추가 정보입니다.

bounding_box

BoundingPoly

기호의 경계 상자입니다. 꼭짓점은 왼쪽 위, 오른쪽 위, 오른쪽 아래, 왼쪽 아래 순서입니다. 경계 상자의 회전이 감지되면 텍스트를 '자연스러운' 방향으로 읽을 때 정의된 대로 왼쪽 위 모서리를 기준으로 회전하여 표시됩니다. 예: * 텍스트가 가로인 경우 다음과 같이 표시됩니다. 0----1 | | 3----2 * 왼쪽 위 모서리를 기준으로 180도 회전하면 2----3 | | 1----0이 되고 꼭짓점 순서는 여전히 (0, 1, 2, 3)입니다.

text

string

기호의 실제 UTF-8 표현입니다.

confidence

float

기호의 OCR 결과 신뢰도입니다. 범위 [0, 1]

TextAnnotation

TextAnnotation에는 OCR 추출 텍스트의 구조화된 표현이 포함됩니다. OCR로 추출된 텍스트 구조의 계층 구조는 다음과 같습니다.

TextAnnotation -> 페이지 -> 블록 -> 단락 -> 단어 -> 기호

페이지부터 각 구조적 구성요소에는 인식된 언어, 줄바꿈 등을 설명하는 속성이 있을 수 있습니다. 자세한 내용은 아래의 TextAnnotation.TextProperty 메시지 정의를 참고하세요.

필드
pages[]

Page

OCR에서 감지한 페이지 목록입니다.

text

string

페이지에서 감지된 UTF-8 텍스트입니다.

DetectedBreak

구조적 구성요소의 감지된 시작 또는 끝입니다.

필드
type

BreakType

감지된 줄바꿈 유형입니다.

is_prefix

bool

줄바꿈을 통해 요소가 맨 앞에 오는 경우 참입니다.

BreakType

발견된 줄바꿈 유형을 나타내는 열거형입니다. 새 줄, 공백 등이 여기에 해당합니다.

열거형
UNKNOWN 알 수 없는 줄바꿈 라벨 유형입니다.
SPACE 일반 공백입니다.
SURE_SPACE 확실한 공백입니다(매우 넓음).
EOL_SURE_SPACE 줄바꿈입니다.
HYPHEN 텍스트에 없는 끝행 하이픈으로, SPACE, LEADER_SPACE 또는 LINE_BREAK와 함께 발생하지 않습니다.
LINE_BREAK 단락으로 끝나는 줄바꿈입니다.

DetectedLanguage

구조적 구성요소의 감지된 언어

필드
language_code

string

BCP-47 언어 코드(예: 'en-US' 또는 'sr-Latn') 자세한 내용은 https://www.unicode.org/reports/tr35/#Unicode_locale_identifier를 참고하세요.

confidence

float

감지된 언어의 신뢰도입니다. 범위 [0, 1]

TextProperty

구조적 구성요소에서 감지되는 추가 정보

필드
detected_languages[]

DetectedLanguage

감지된 언어와 신뢰도 목록입니다.

detected_break

DetectedBreak

감지된 텍스트 세그먼트의 시작 또는 끝입니다.

TextDetectionParams

텍스트 감지를 위한 매개변수입니다. TEXT_DETECTION 및 DOCUMENT_TEXT_DETECTION 기능을 제어하기 위해 사용됩니다.

필드
enable_text_detection_confidence_score

bool

기본적으로 Cloud Vision API에는 DOCUMENT_TEXT_DETECTION 결과의 신뢰도 점수만 포함됩니다. TEXT_DETECTION의 신뢰도 점수도 포함하려면 플래그를 true로 설정합니다.

advanced_ocr_options[]

string

OCR 동작을 미세 조정하기 위한 고급 OCR 옵션 목록입니다.

Vertex

꼭짓점은 이미지의 2D 점을 나타냅니다. 참고: 꼭짓점 좌표는 원본 이미지와 축척이 동일합니다.

필드
x

int32

X 좌표입니다.

y

int32

Y 좌표입니다.

Word

단어 표현입니다.

필드
property

TextProperty

단어에 대해 감지된 추가 정보입니다.

bounding_box

BoundingPoly

단어의 경계 상자입니다. 꼭짓점은 왼쪽 위, 오른쪽 위, 오른쪽 아래, 왼쪽 아래 순서입니다. 경계 상자의 회전이 감지되면 텍스트를 '자연스러운' 방향으로 읽을 때 정의된 대로 왼쪽 위 모서리를 기준으로 회전하여 표시됩니다. 예: * 텍스트가 가로인 경우 다음과 같이 표시됩니다. 0----1 | | 3----2 * 왼쪽 위 모서리를 기준으로 180도 회전하면 2----3 | | 1----0이 되고 꼭짓점 순서는 여전히 (0, 1, 2, 3)입니다.

symbols[]

Symbol

단어 내 기호의 목록입니다. 기호의 순서는 자연스럽게 읽는 순서를 따릅니다.

confidence

float

단어의 OCR 결과 신뢰도입니다. 범위 [0, 1]