Package google.cloud.vision.v1

Índice

ImageAnnotator

Serviço que executa tarefas de detecção da Google Cloud Vision API em imagens de clientes, como detecção de rosto, ponto de referência, logotipo, marcadores e texto. O serviço ImageAnnotator retorna as entidades detectadas das imagens.

BatchAnnotateFiles

rpc BatchAnnotateFiles(BatchAnnotateFilesRequest) returns (BatchAnnotateFilesResponse)

Serviço que realiza detecção e anotação de imagens para um lote de arquivos. Agora, somente "aplicativo/pdf", "imagem/tiff" e "imagem/gif" são compatíveis.

Esse serviço extrairá no máximo 5 (clientes podem especificar quais cinco em frames do AnnotateFileRequest.pages) (gif) ou páginas (pdf ou tiff) de cada arquivo fornecido e realizar a detecção e anotação para cada imagem extraída.

Escopos de autorização

Requer um dos seguintes escopos do OAuth:

  • https://www.googleapis.com/auth/cloud-platform
  • https://www.googleapis.com/auth/cloud-vision
BatchAnnotateImages

rpc BatchAnnotateImages(BatchAnnotateImagesRequest) returns (BatchAnnotateImagesResponse)

Executar detecção e anotação de imagem para um lote de imagens.

Escopos de autorização

Requer um dos seguintes escopos do OAuth:

  • https://www.googleapis.com/auth/cloud-platform
  • https://www.googleapis.com/auth/cloud-vision

AnnotateFileRequest

Uma solicitação para anotar um único arquivo, por exemplo, um arquivo PDF, TIFF ou GIF.

Campos
input_config

InputConfig

Obrigatório. Informações sobre o arquivo de entrada.

features[]

Feature

Obrigatório. Recursos solicitados.

image_context

ImageContext

Contexto adicional que pode acompanhar as imagens no arquivo.

pages[]

int32

Páginas do arquivo para realizar a anotação de imagem.

As páginas começam no número 1, presume-se que a primeira página do arquivo seja a página 1. No máximo, cinco páginas são compatíveis por solicitação. As páginas podem ser negativas.

A página 1 significa a primeira página. "Página 2" significa a segunda página. Página -1 significa a última página. Página -2 significa o segundo para a última página.

Se o arquivo for um GIF em vez de PDF ou TIFF, a página fará referência a frames GIF.

Se este campo estiver vazio, por padrão, o serviço realizará anotações de imagens nas primeiras cinco páginas do arquivo.

AnnotateFileResponse

Resposta a uma única solicitação de anotação de arquivo. Um arquivo pode conter uma ou mais imagens, que têm as próprias respostas individualmente.

Campos
input_config

InputConfig

Informações sobre o arquivo para onde essa resposta é gerada.

responses[]

AnnotateImageResponse

Respostas individuais às imagens encontradas no arquivo. Este campo estará vazio se o campo error estiver definido.

total_pages

int32

Este campo fornece o número total de páginas no arquivo.

error

Status

Se definido, representa a mensagem de erro da solicitação com falha. O campo responses não será definido nesse caso.

AnnotateImageRequest

Solicitação para executar tarefas da Google Cloud Vision API em uma imagem fornecida pelo usuário, com recursos solicitados pelo usuário e com informações de contexto.

Campos
image

Image

A imagem a ser processada.

features[]

Feature

Recursos solicitados.

image_context

ImageContext

Contexto adicional que pode acompanhar a imagem.

AnnotateImageResponse

Resposta a uma solicitação de anotação de imagem.

Campos
text_annotations[]

EntityAnnotation

Se presente, a detecção de texto (OCR) foi concluída com sucesso.

full_text_annotation

TextAnnotation

Se presente, a detecção de texto (OCR) ou de texto de documentos foi concluída com sucesso. Esta anotação fornece a hierarquia estrutural para o texto detectado pelo OCR.

error

Status

Se definido, representa a mensagem de erro da operação. Observe que há uma garantia de que as anotações de imagens preenchidas são corretas, mesmo quando errorestá definido.

context

ImageAnnotationContext

Se presente, as informações contextuais são necessárias para entender de onde vem essa imagem.

BatchAnnotateFilesRequest

Uma lista de solicitações para fazer anotações em arquivos usando a API BatchAnnotateFiles.

Campos
requests[]

AnnotateFileRequest

Obrigatório. A lista de solicitações de anotação de arquivo. Agora, oferecemos suporte apenas a um AnnotateFileRequest em BatchAnnotateFilesRequest.

parent

string

Opcional. Segmente o projeto e o local para fazer uma chamada.

Formato: projects/{project-id}/locations/{location-id}.

Se nenhum pai for especificado, uma região será escolhida automaticamente.

Códigos de local compatíveis us: apenas nos EUA, asia: áreas do leste da Ásia, como Japão e Taiwan, eu: União Europeia.

Exemplo: projects/project-A/locations/eu.

BatchAnnotateFilesResponse

Uma lista de respostas de anotações de arquivos.

Campos
responses[]

AnnotateFileResponse

A lista de respostas de anotação de arquivo, cada resposta correspondente a cada AnnotateFileRequest em BatchAnnotateFilesRequest.

BatchAnnotateImagesRequest

Várias solicitações de anotação de imagem são agrupadas em uma única chamada de serviço.

Campos
requests[]

AnnotateImageRequest

Obrigatório. Solicitações individuais de anotação de imagem para este lote.

parent

string

Opcional. Segmente o projeto e o local para fazer uma chamada.

Formato: projects/{project-id}/locations/{location-id}.

Se nenhum pai for especificado, uma região será escolhida automaticamente.

Códigos de local compatíveis us: apenas nos EUA, asia: áreas do leste da Ásia, como Japão e Taiwan, eu: União Europeia.

Exemplo: projects/project-A/locations/eu.

BatchAnnotateImagesResponse

Resposta a uma solicitação de anotação de imagem em lote.

Campos
responses[]

AnnotateImageResponse

Respostas individuais às solicitações de anotação de imagem no lote.

Block

Elemento lógico na página.

Campos
property

TextProperty

Informações adicionais detectadas para o bloco.

bounding_box

BoundingPoly

A caixa delimitadora do bloco. Os vértices estão na ordem superior esquerda, superior direita, inferior direita e inferior esquerda. Quando uma rotação da caixa delimitadora é detectada, a rotação é representada ao redor do canto superior esquerdo, conforme definido quando o texto é lido na orientação "natural". Exemplo:

  • Quando o texto é horizontal, pode ser semelhante a:
    0----1
    |    |
    3----2
  • quando girada 180 graus em torno do canto superior esquerdo, ela se torna:
    2----3
    |    |
    1----0

e a ordem dos vértices ainda será (0, 1, 2, 3)

paragraphs[]

Paragraph

Lista de parágrafos neste bloco, se ele for do tipo "texto".

block_type

BlockType

Tipo de bloco detectado (texto, imagem etc.) para este bloco.

confidence

float

Confiança dos resultados do OCR no bloco. Intervalo [0, 1].

BlockType

Tipo de um bloco (texto, imagem etc.), conforme identificado pelo OCR.

Enums
UNKNOWN Tipo de bloco desconhecido
TEXT Bloco de texto regular
TABLE Bloco de tabelas
PICTURE Bloco de imagens
RULER Caixa de linha horizontal/vertical
BARCODE Bloco de códigos de barras

BoundingPoly

Um polígono delimitador para a anotação de imagem detectada.

Campos
vertices[]

Vertex

Os vértices do polígono delimitador.

normalized_vertices[]

NormalizedVertex

Os vértices normalizados do polígono delimitador.

EntityAnnotation

Conjunto de recursos detectados da entidade.

Campos
mid

string

Código da entidade opaca. Alguns IDs podem estar disponíveis na API Google Knowledge Graph Search.

locale

string

O código do idioma do local em que o description textual da entidade é expresso.

description

string

Descrição textual da entidade, expressa no respectivo idioma locale.

score

float

Pontuação geral do resultado. Intervalo [0, 1].

confidence
(deprecated)

float

Obsoleto. Use score, em vez disso. A precisão da detecção de entidade em uma imagem. Por exemplo, para uma imagem em que a entidade "Torre Eiffel" é detectada, esse campo representa a confiança de que há uma torre na imagem da consulta. Intervalo [0, 1].

topicality

float

A relevância do marcador de anotação de conteúdo da imagem (ICA, na sigla em inglês) em relação à imagem. Por exemplo, a relevância de "torre" provavelmente é maior em uma imagem que contém a "Torre Eiffel" detectada do que em uma imagem com um prédio alto distante detectado, mesmo que a confiança de que há uma torre em cada imagem possa ser a mesma. Intervalo [0, 1].

bounding_poly

BoundingPoly

Região da imagem à qual esta entidade pertence. Não produzido para os recursos LABEL_DETECTION.

properties[]

Property

Algumas entidades podem ter campos opcionais de Property(nome/valor) fornecidos pelo usuário, como pontuação ou string que qualifica a entidade.

Recurso

O tipo de detecção da API Google Cloud Vision a ser executado e o número máximo de resultados a serem retornados para esse tipo. Vários objetos Feature podem ser especificados na lista features.

Campos
type

Type

O tipo de recurso.

model

string

Modelo para usar com o recurso. Valores aceitos: "builtin/stable", o padrão se não definido, e "builtin/latest". O DOCUMENT_TEXT_DETECTION e o TEXT_DETECTION também oferecem suporte a "builtin/weekly" para a versão mais recente atualizada semanalmente.

Tipo

Tipo de recurso da API Google Cloud Vision que será extraído.

Enums
TYPE_UNSPECIFIED Tipo de recurso não especificado.
TEXT_DETECTION Realizar reconhecimento de caracteres/reconhecimento de caracteres ópticos (OCR, na sigla em inglês). A detecção de texto é otimizada para áreas de texto em uma imagem maior. Se a imagem for um documento, use DOCUMENT_TEXT_DETECTION.
DOCUMENT_TEXT_DETECTION Executar o OCR denso do documento de texto. Tem precedência quando DOCUMENT_TEXT_DETECTION e TEXT_DETECTION estão presentes.

Imagem

Imagem do cliente na qual executar as tarefas da Google Cloud Vision API.

Campos
content

bytes

Conteúdo da imagem, representado como um stream de bytes. Observação: assim como acontece com todos os campos bytes, os protobuffers usam uma representação binária pura, e as representações JSON usam base64.

No momento, esse campo só funciona para solicitações BatchAnnotateImages.

ImageAnnotationContext

Se uma imagem foi produzida com base em um arquivo (por exemplo, um PDF), essa mensagem fornece informações sobre a origem dessa imagem.

Campos
uri

string

O URI do arquivo usado para produzir a imagem.

page_number

int32

Se o arquivo for um PDF ou TIFF, esse campo fornecerá o número da página no arquivo usado para produzir a imagem.

ImageContext

Contexto da imagem e/ou parâmetros específicos do recurso.

Campos
language_hints[]

string

Lista de idiomas a serem usados para TEXT_DETECTION. Na maioria dos casos, um valor vazio produz os melhores resultados, já que ele possibilita a detecção automática do idioma. Para idiomas com base no alfabeto latino, não é necessário definir language_hints. Em alguns casos raros, quando o idioma do texto na imagem é conhecido, você recebe resultados melhores definindo uma dica. No entanto, isso poderá ser um problema se ela for definida incorretamente. A detecção de texto retornará um erro se um ou mais dos idiomas especificados não forem compatíveis.

text_detection_params

TextDetectionParams

Parâmetros para detecção de texto e de texto em documentos.

InputConfig

O local e os metadados da entrada desejados.

Campos
content

bytes

Conteúdo do arquivo, representado como um stream de bytes. Observação: assim como acontece com todos os campos bytes, os protobuffers usam uma representação binária pura, e as representações JSON usam base64.

Atualmente, esse campo só funciona para solicitações BatchAnnotateFiles.

mime_type

string

O tipo do arquivo. Atualmente, apenas "application/pdf", "image/tiff" e "image/gif" são compatíveis. Caracteres curinga não são aceitos.

NormalizedVertex

Um vértice representa um ponto 2D na imagem. OBSERVAÇÃO: as coordenadas do vértice normalizado são relativas à imagem original e variam de 0 a 1.

Campos
x

float

Coordenada X.

y

float

Coordenada Y.

Página

Página detectada do OCR.

Campos
property

TextProperty

Informações adicionais detectadas na página.

width

int32

Largura da página. Nos PDFs, a unidade é a pontuação. Para imagens (incluindo TIFFs), a unidade é pixels

height

int32

Altura da página. Nos PDFs, a unidade é a pontuação. Para imagens (incluindo TIFFs), a unidade é pixels

blocks[]

Block

Lista de blocos de texto, imagens, entre outros, nesta página.

confidence

float

Confiança dos resultados do OCR na página. Intervalo [0, 1].

Paragraph

Unidade estrutural de texto que representa uma série de palavras em determinada ordem.

Campos
property

TextProperty

Informações adicionais detectadas para o parágrafo.

bounding_box

BoundingPoly

A caixa delimitadora do parágrafo. Os vértices estão na ordem superior esquerda, superior direita, inferior direita e inferior esquerda. Quando uma rotação da caixa delimitadora é detectada, a rotação é representada ao redor do canto superior esquerdo, conforme definido quando o texto é lido na orientação "natural". Por exemplo: * quando o texto for horizontal, a aparência será: 0----1 | | 3----2 * quando for girado em 180 graus em torno do canto superior esquerdo, torna-se: 2----3 | | 1----0 e a ordem dos vértices ainda será (0, 1, 2, 3).

words[]

Word

Lista de todas as palavras neste parágrafo.

confidence

float

Confiança dos resultados do OCR para o parágrafo. Intervalo [0, 1].

Propriedade

Uma Property consiste em um par nome/valor fornecido pelo usuário.

Campos
name

string

Nome da propriedade.

value

string

Valor da propriedade.

uint64_value

uint64

Valor das propriedades numéricas.

Símbolo

Uma única representação de símbolo.

Campos
property

TextProperty

Informações adicionais detectadas para o símbolo.

bounding_box

BoundingPoly

A caixa delimitadora do símbolo. Os vértices estão na ordem superior esquerda, superior direita, inferior direita e inferior esquerda. Quando uma rotação da caixa delimitadora é detectada, a rotação é representada ao redor do canto superior esquerdo, conforme definido quando o texto é lido na orientação "natural". Por exemplo: * quando o texto for horizontal, a aparência será: 0----1 | | 3----2 * quando for girado em 180 graus em torno do canto superior esquerdo, torna-se: 2----3 | | 1----0 e a ordem dos vértices ainda será (0, 1, 2, 3).

text

string

A representação UTF-8 real do símbolo.

confidence

float

Confiança dos resultados do OCR para o símbolo. Intervalo [0, 1].

TextAnnotation

TextAnnotation contém uma representação estruturada do texto extraído por OCR. A hierarquia de uma estrutura de texto extraída por OCR é assim:

TextAnnotation -> Página -> Bloco -> Parágrafo -> Palavra -> Símbolo

Cada componente estrutural, começando pela página, pode ter propriedades que descrevem idiomas detectados, quebras de linha etc. Para mais detalhes, consulte a definição da mensagem TextAnnotation.TextProperty a seguir.

Campos
pages[]

Page

Lista de páginas detectadas pelo OCR.

text

string

Texto UTF-8 detectado nas páginas.

DetectedBreak

Início ou fim da detecção de um componente estrutural.

Campos
type

BreakType

Tipo de quebra detectado.

is_prefix

bool

Verdadeiro se a quebra preceder o elemento.

BreakType

Enum para denotar o tipo de quebra encontrado. Nova linha, espaço etc.

Enums
UNKNOWN Tipo de marcador de quebra desconhecido.
SPACE Espaço regular.
SURE_SPACE Espaço garantido (muito largo).
EOL_SURE_SPACE Quebra de linha.
HYPHEN Hífen de fim de linha que não está presente no texto. Não ocorre juntamente com SPACE, LEADER_SPACE ou LINE_BREAK.
LINE_BREAK Quebra de linha que termina um parágrafo.

DetectedLanguage

Idioma detectado para um componente estrutural.

Campos
language_code

string

O código de idioma BCP-47, como "pt-BR" ou "en-US". Para mais informações, consulte https://www.unicode.org/reports/tr35/#Unicode_locale_identifier.

confidence

float

Confiança do idioma detectado. Intervalo [0, 1].

TextProperty

Informações adicionais detectadas sobre o componente estrutural.

Campos
detected_languages[]

DetectedLanguage

Uma lista de idiomas detectados juntamente com a confiança.

detected_break

DetectedBreak

Início ou fim detectado de um segmento de texto.

TextDetectionParams

Parâmetros para detecção de texto. Isso é usado para controlar os recursos TEXT_DETECTION e DOCUMENT_TEXT_DETECTION.

Campos
enable_text_detection_confidence_score

bool

Por padrão, a API Cloud Vision só inclui a pontuação de confiança para o resultado de DOCUMENT_TEXT_DETECTION. Defina a flag como "true" para incluir também a pontuação de confiança para TEXT_DETECTION.

advanced_ocr_options[]

string

Uma lista de opções avançadas de OCR para ajustar o comportamento do OCR.

Vertex

Um vértice representa um ponto 2D na imagem. OBSERVAÇÃO: as coordenadas do vértice estão na mesma escala que a imagem original.

Campos
x

int32

Coordenada X.

y

int32

Coordenada Y.

Word

Uma representação de palavra.

Campos
property

TextProperty

Informações adicionais detectadas para a palavra.

bounding_box

BoundingPoly

A caixa delimitadora da palavra. Os vértices estão na ordem superior esquerda, superior direita, inferior direita e inferior esquerda. Quando uma rotação da caixa delimitadora é detectada, a rotação é representada ao redor do canto superior esquerdo, conforme definido quando o texto é lido na orientação "natural". Por exemplo: * quando o texto for horizontal, a aparência será: 0----1 | | 3----2 * quando for girado em 180 graus em torno do canto superior esquerdo, torna-se: 2----3 | | 1----0 e a ordem dos vértices ainda será (0, 1, 2, 3).

symbols[]

Symbol

Lista de símbolos na palavra. A ordem dos símbolos segue a ordem de leitura natural.

confidence

float

Confiança dos resultados do OCR para a palavra. Intervalo [0, 1].