색인
ImageAnnotator
(인터페이스)AnnotateFileRequest
(메시지)AnnotateFileResponse
(메시지)AnnotateImageRequest
(메시지)AnnotateImageResponse
(메시지)BatchAnnotateFilesRequest
(메시지)BatchAnnotateFilesResponse
(메시지)BatchAnnotateImagesRequest
(메시지)BatchAnnotateImagesResponse
(메시지)Block
(메시지)Block.BlockType
(열거형)BoundingPoly
(메시지)EntityAnnotation
(메시지)Feature
(메시지)Feature.Type
(열거형)Image
(메시지)ImageAnnotationContext
(메시지)ImageContext
(메시지)InputConfig
(메시지)NormalizedVertex
(메시지)Page
(메시지)Paragraph
(메시지)Property
(메시지)Symbol
(메시지)TextAnnotation
(메시지)TextAnnotation.DetectedBreak
(메시지)TextAnnotation.DetectedBreak.BreakType
(열거형)TextAnnotation.DetectedLanguage
(메시지)TextAnnotation.TextProperty
(메시지)TextDetectionParams
(메시지)Vertex
(메시지)Word
(메시지)
ImageAnnotator
얼굴, 랜드마크, 로고, 라벨, 텍스트 인식 등 클라이언트 이미지에 대한 Google Cloud Vision API 감지 태스크를 수행하는 서비스입니다. ImageAnnotator 서비스는 이미지에서 감지된 항목을 반환합니다.
BatchAnnotateFiles |
---|
파일 배치에 대한 이미지 감지 및 주석을 수행하는 서비스입니다. 이제 'application/pdf', 'image/tiff', 'image/gif'만 지원됩니다. 이 서비스는 제공된 각 파일에서 최대 5개(AnnotateFileRequest.pages에 지정 가능)의 프레임(gif) 또는 페이지(pdf 또는 tiff)를 추출하고 추출된 각 이미지에 대한 감지 및 주석을 수행합니다.
|
BatchAnnotateImages |
---|
이미지 배치에 대한 이미지 감지 및 주석을 실행합니다.
|
AnnotateFileRequest
PDF, TIFF 또는 GIF 파일 등 단일 파일에 주석을 달기 위한 요청입니다.
필드 | |
---|---|
input_config |
필수 항목입니다. 입력 파일에 대한 정보입니다. |
features[] |
필수 항목입니다. 요청한 기능입니다. |
image_context |
파일의 이미지와 함께 제공될 수 있는 추가 컨텍스트입니다. |
pages[] |
이미지 주석을 수행할 파일의 페이지입니다. 페이지는 1부터 시작되며 파일의 첫 번째 페이지를 1페이지로 가정합니다. 요청당 최대 5개 페이지가 지원됩니다. 페이지는 음수일 수 있습니다. 1페이지는 첫 번째 페이지를 의미합니다. 2페이지는 두 번째 페이지를 의미합니다. -1페이지는 마지막 페이지를 의미합니다. -2페이지는 마지막 페이지의 두 번째 페이지를 의미합니다. 파일이 PDF 또는 TIFF가 아닌 GIF인 경우 페이지는 GIF 프레임을 의미합니다. 이 필드가 비어 있으면 기본적으로 서비스가 파일의 처음 5 페이지에 대해 이미지 주석을 수행합니다. |
AnnotateFileResponse
단일 파일 주석 요청에 대한 응답입니다. 파일에는 개별 응답이 있는 하나 이상의 이미지가 포함될 수 있습니다.
필드 | |
---|---|
input_config |
이 응답이 생성된 파일에 대한 정보입니다. |
responses[] |
파일 내에서 발견된 이미지에 대한 개별 응답입니다. |
total_pages |
이 필드는 파일의 총 페이지 수를 제공합니다. |
error |
설정한 경우 실패한 요청의 오류 메시지가 표시됩니다. 이 경우에는 |
AnnotateImageRequest
사용자가 제공한 기능과 컨텍스트 정보로 사용자가 제공한 이미지에 대한 Google Cloud Vision API 작업을 수행하기 위한 요청입니다.
필드 | |
---|---|
image |
처리할 이미지입니다. |
features[] |
요청한 기능입니다. |
image_context |
이미지와 함께 제공될 수 있는 추가 컨텍스트입니다. |
AnnotateImageResponse
이미지 주석 요청에 대한 응답입니다.
필드 | |
---|---|
text_annotations[] |
있는 경우 텍스트(OCR) 인식이 성공적으로 완료된 것입니다. |
full_text_annotation |
있는 경우 텍스트(OCR) 인식 또는 문서(OCR) 텍스트 인식이 성공적으로 완료된 것입니다. 이 주석은 OCR에서 감지한 텍스트의 계층 구조를 보여줍니다. |
error |
설정한 경우 작업의 오류 메시지가 표시됩니다. |
context |
있는 경우 이미지의 출처를 파악하기 위해 컨텍스트 정보가 필요합니다. |
BatchAnnotateFilesRequest
BatchAnnotateFiles API를 사용하여 파일에 주석을 다는 요청의 목록입니다.
필드 | |
---|---|
requests[] |
필수 항목입니다. 파일 주석 요청 목록입니다. 현재는 BatchAnnotateFilesRequest에서 AnnotateFileRequest가 한 개만 지원됩니다. |
parent |
선택사항입니다. 전화를 걸 프로젝트와 위치를 타겟팅합니다. 형식은 상위 요소를 지정하지 않으면 리전이 자동으로 선택됩니다. 지원되는 위치 ID는 다음과 같습니다. 예: |
BatchAnnotateFilesResponse
파일 주석 응답의 목록입니다.
필드 | |
---|---|
responses[] |
파일 주석 응답의 목록으로, 각 응답은 BatchAnnotateFilesRequest의 각 AnnotateFileRequest에 해당합니다. |
BatchAnnotateImagesRequest
여러 이미지 주석 요청이 단일 서비스 호출로 일괄 처리됩니다.
필드 | |
---|---|
requests[] |
필수 항목입니다. 이 배치에 대한 개별 이미지 주석 요청입니다. |
parent |
선택사항입니다. 전화를 걸 프로젝트와 위치를 타겟팅합니다. 형식은 상위 요소를 지정하지 않으면 리전이 자동으로 선택됩니다. 지원되는 위치 ID는 다음과 같습니다. 예: |
BatchAnnotateImagesResponse
배치 이미지 주석 요청에 대한 응답입니다.
필드 | |
---|---|
responses[] |
배치 내의 이미지 주석 요청에 대한 개별 응답입니다. |
차단
페이지의 논리적 요소
필드 | |
---|---|
property |
블록에 대해 인식된 추가 정보입니다. |
bounding_box |
블록의 경계 상자입니다. 꼭짓점은 왼쪽 위, 오른쪽 위, 오른쪽 아래, 왼쪽 아래 순서입니다. 경계 상자의 회전이 감지되면 텍스트를 '자연스러운' 방향으로 읽을 때 정의된 대로 왼쪽 위 모서리를 기준으로 회전하여 표시됩니다. 예를 들면 다음과 같습니다.
꼭짓점 순서는 여전히 (0, 1, 2, 3)입니다. |
paragraphs[] |
이 블록의 단락 목록입니다(이 블록이 텍스트 유형인 경우). |
block_type |
이 블록에서 인식된 블록 유형(텍스트, 이미지 등)입니다. |
confidence |
블록에 대한 OCR 결과의 신뢰도입니다. 범위 [0, 1] |
BlockType
OCR에서 식별한 블록 유형(텍스트, 이미지 등)입니다.
열거형 | |
---|---|
UNKNOWN |
알 수 없는 블록 유형입니다. |
TEXT |
일반 텍스트 블록입니다. |
TABLE |
테이블 블록입니다. |
PICTURE |
이미지 블록입니다. |
RULER |
가로/세로선 상자입니다. |
BARCODE |
바코드 블록입니다. |
BoundingPoly
인식된 이미지 주석의 경계 다각형입니다.
필드 | |
---|---|
vertices[] |
경계 다각형의 꼭짓점입니다. |
normalized_vertices[] |
경계 다각형의 정규화된 꼭짓점입니다. |
EntityAnnotation
감지된 항목 특성 세트입니다.
필드 | |
---|---|
mid |
불투명한 항목 ID입니다. 일부 ID는 Google Knowledge Graph Search API에서 확인할 수 있습니다. |
locale |
항목 텍스트 |
description |
|
score |
결과의 전체 지수입니다. 범위 [0, 1] |
confidence |
지원 중단되었습니다. 대신 |
topicality |
이미지에 대한 ICA(이미지 콘텐츠 주석) 라벨의 관련성입니다. 예를 들어 각 이미지에 타워가 있을 확률이 동일하더라도 멀리 있는 고층 빌딩이 감지된 이미지보다는 '에펠탑'이 감지된 이미지와 '타워'의 관련성이 더 높습니다. 범위 [0, 1] |
bounding_poly |
이 항목이 속한 이미지 영역입니다. |
properties[] |
일부 항목에는 항목을 충족하는 점수 또는 문자열과 같이 사용자가 제공한 선택적 |
기능
수행할 Google Cloud Vision API 감지 유형과 해당 유형에 반환될 최대 결과 수입니다. features
목록에서 Feature
객체를 여러 개 지정할 수 있습니다.
필드 | |
---|---|
type |
특성 유형입니다. |
model |
이 특성에 사용할 모델입니다. 지원되는 값은 'builtin/stable'(설정되지 않은 경우 기본값) 및 'builtin/latest'입니다. |
유형
추출할 Google Cloud Vision API 특성의 유형입니다.
열거형 | |
---|---|
TYPE_UNSPECIFIED |
지정되지 않은 특성 유형입니다. |
TEXT_DETECTION |
텍스트 인식/광학 문자 인식(OCR)을 실행합니다. 텍스트 인식은 큰 이미지 내의 텍스트 영역에 최적화되어 있습니다. 이미지가 문서인 경우 DOCUMENT_TEXT_DETECTION 을 대신 사용하세요. |
DOCUMENT_TEXT_DETECTION |
밀집된 텍스트 문서 OCR을 실행합니다. DOCUMENT_TEXT_DETECTION 과 TEXT_DETECTION 이 모두 존재하는 경우 우선 적용됩니다. |
이미지
Google Cloud Vision API 작업을 수행할 클라이언트 이미지입니다.
필드 | |
---|---|
content |
바이트 스트림으로 나타낸 이미지 내용입니다. 참고: JSON 표현은 base64를 사용하지만, 프로토콜 버퍼는 모든 현재 이 필드는 BatchAnnotateImages 요청에서만 작동합니다. |
ImageAnnotationContext
이미지가 파일(예: PDF)에서 생성된 경우 이 메시지는 이미지의 소스에 대한 정보를 제공합니다.
필드 | |
---|---|
uri |
이미지를 생성하는 데 사용된 파일의 URI입니다. |
page_number |
파일이 PDF 또는 TIFF이면 이 필드는 이미지 생성에 사용된 파일 내의 페이지 번호를 제공합니다. |
ImageContext
이미지 컨텍스트 또는 기능별 매개변수입니다.
필드 | |
---|---|
language_hints[] |
TEXT_DETECTION에 사용할 언어 목록입니다. 대부분의 경우에는 빈 값으로 두면 자동 언어 감지가 사용되어 최상의 결과를 얻을 수 있습니다. 라틴 알파벳을 사용하는 언어라면 |
text_detection_params |
텍스트 인식 및 문서 텍스트 인식을 위한 매개변수입니다. |
InputConfig
원하는 입력 위치 및 메타데이터입니다.
필드 | |
---|---|
content |
바이트 스트림으로 나타낸 파일 내용입니다. 참고: JSON 표현은 base64를 사용하지만, 프로토콜 버퍼는 모든 현재 이 필드는 BatchAnnotateFiles 요청에서만 작동합니다. |
mime_type |
파일 유형입니다. 현재는 'application/pdf', 'image/tiff', 'image/gif'만 지원됩니다. 와일드 카드는 지원되지 않습니다. |
NormalizedVertex
꼭짓점은 이미지의 2D 점을 나타냅니다. 참고: 정규화된 꼭짓점 좌표는 원본 이미지를 기준으로 하며 범위는 0에서 1 사이입니다.
필드 | |
---|---|
x |
X 좌표입니다. |
y |
Y 좌표입니다. |
페이지
OCR에서 감지된 페이지
필드 | |
---|---|
property |
페이지에서 감지된 추가 정보입니다. |
width |
페이지 너비입니다. PDF의 단위는 점입니다. 이미지(TIFF 포함)의 단위는 픽셀입니다. |
height |
페이지 높이입니다. PDF의 단위는 점입니다. 이미지(TIFF 포함)의 단위는 픽셀입니다. |
blocks[] |
이 페이지에 있는 텍스트, 이미지 등의 블록 목록입니다. |
confidence |
페이지에 대한 OCR 결과의 신뢰도입니다. 범위 [0, 1] |
단락
특정 순서로 단어 수를 나타내는 텍스트의 구조적 단위
필드 | |
---|---|
property |
단락에 대해 감지된 추가 정보입니다. |
bounding_box |
단락의 경계 상자입니다. 꼭짓점은 왼쪽 위, 오른쪽 위, 오른쪽 아래, 왼쪽 아래 순서입니다. 경계 상자의 회전이 감지되면 텍스트를 '자연스러운' 방향으로 읽을 때 정의된 대로 왼쪽 위 모서리를 기준으로 회전하여 표시됩니다. 예: * 텍스트가 가로인 경우 다음과 같이 표시됩니다. 0----1 | | 3----2 * 왼쪽 위 모서리를 기준으로 180도 회전하면 2----3 | | 1----0이 되고 꼭짓점 순서는 여전히 (0, 1, 2, 3)입니다. |
words[] |
이 단락의 모든 단어 목록입니다. |
confidence |
단락의 OCR 결과 신뢰도입니다. 범위 [0, 1] |
속성
Property
는 사용자가 제공한 이름/값 쌍으로 구성됩니다.
필드 | |
---|---|
name |
속성 이름입니다. |
value |
속성 값입니다. |
uint64_value |
숫자 속성의 값입니다. |
기호
단일 기호 표현
필드 | |
---|---|
property |
기호에 대해 감지된 추가 정보입니다. |
bounding_box |
기호의 경계 상자입니다. 꼭짓점은 왼쪽 위, 오른쪽 위, 오른쪽 아래, 왼쪽 아래 순서입니다. 경계 상자의 회전이 감지되면 텍스트를 '자연스러운' 방향으로 읽을 때 정의된 대로 왼쪽 위 모서리를 기준으로 회전하여 표시됩니다. 예: * 텍스트가 가로인 경우 다음과 같이 표시됩니다. 0----1 | | 3----2 * 왼쪽 위 모서리를 기준으로 180도 회전하면 2----3 | | 1----0이 되고 꼭짓점 순서는 여전히 (0, 1, 2, 3)입니다. |
text |
기호의 실제 UTF-8 표현입니다. |
confidence |
기호의 OCR 결과 신뢰도입니다. 범위 [0, 1] |
TextAnnotation
TextAnnotation
에는 OCR 추출 텍스트의 구조화된 표현이 포함됩니다. OCR로 추출된 텍스트 구조의 계층 구조는 다음과 같습니다.
TextAnnotation
-> 페이지 -> 블록 -> 단락 -> 단어 -> 기호
TextAnnotation.TextProperty
메시지 정의를 참고하세요.
필드 | |
---|---|
pages[] |
OCR에서 감지한 페이지 목록입니다. |
text |
페이지에서 감지된 UTF-8 텍스트입니다. |
DetectedBreak
구조적 구성요소의 감지된 시작 또는 끝입니다.
필드 | |
---|---|
type |
감지된 줄바꿈 유형입니다. |
is_prefix |
줄바꿈을 통해 요소가 맨 앞에 오는 경우 참입니다. |
BreakType
발견된 줄바꿈 유형을 나타내는 열거형입니다. 새 줄, 공백 등이 여기에 해당합니다.
열거형 | |
---|---|
UNKNOWN |
알 수 없는 줄바꿈 라벨 유형입니다. |
SPACE |
일반 공백입니다. |
SURE_SPACE |
확실한 공백입니다(매우 넓음). |
EOL_SURE_SPACE |
줄바꿈입니다. |
HYPHEN |
텍스트에 없는 끝행 하이픈으로, SPACE , LEADER_SPACE 또는 LINE_BREAK 와 함께 발생하지 않습니다. |
LINE_BREAK |
단락으로 끝나는 줄바꿈입니다. |
DetectedLanguage
구조적 구성요소의 감지된 언어
필드 | |
---|---|
language_code |
BCP-47 언어 코드(예: 'en-US' 또는 'sr-Latn') 자세한 내용은 https://www.unicode.org/reports/tr35/#Unicode_locale_identifier를 참고하세요. |
confidence |
감지된 언어의 신뢰도입니다. 범위 [0, 1] |
TextProperty
구조적 구성요소에서 감지되는 추가 정보
필드 | |
---|---|
detected_languages[] |
감지된 언어와 신뢰도 목록입니다. |
detected_break |
감지된 텍스트 세그먼트의 시작 또는 끝입니다. |
TextDetectionParams
텍스트 감지를 위한 매개변수입니다. TEXT_DETECTION 및 DOCUMENT_TEXT_DETECTION 기능을 제어하기 위해 사용됩니다.
필드 | |
---|---|
enable_text_detection_confidence_score |
기본적으로 Cloud Vision API에는 DOCUMENT_TEXT_DETECTION 결과의 신뢰도 점수만 포함됩니다. TEXT_DETECTION의 신뢰도 점수도 포함하려면 플래그를 true로 설정합니다. |
advanced_ocr_options[] |
OCR 동작을 미세 조정하기 위한 고급 OCR 옵션 목록입니다. |
Vertex
꼭짓점은 이미지의 2D 점을 나타냅니다. 참고: 꼭짓점 좌표는 원본 이미지와 축척이 동일합니다.
필드 | |
---|---|
x |
X 좌표입니다. |
y |
Y 좌표입니다. |
Word
단어 표현입니다.
필드 | |
---|---|
property |
단어에 대해 감지된 추가 정보입니다. |
bounding_box |
단어의 경계 상자입니다. 꼭짓점은 왼쪽 위, 오른쪽 위, 오른쪽 아래, 왼쪽 아래 순서입니다. 경계 상자의 회전이 감지되면 텍스트를 '자연스러운' 방향으로 읽을 때 정의된 대로 왼쪽 위 모서리를 기준으로 회전하여 표시됩니다. 예: * 텍스트가 가로인 경우 다음과 같이 표시됩니다. 0----1 | | 3----2 * 왼쪽 위 모서리를 기준으로 180도 회전하면 2----3 | | 1----0이 되고 꼭짓점 순서는 여전히 (0, 1, 2, 3)입니다. |
symbols[] |
단어 내 기호의 목록입니다. 기호의 순서는 자연스럽게 읽는 순서를 따릅니다. |
confidence |
단어의 OCR 결과 신뢰도입니다. 범위 [0, 1] |