Package google.cloud.vision.v1

Índice

ImageAnnotator

Serviço que executa tarefas de deteção da Google Cloud Vision API em imagens do cliente, como deteção de caras, pontos de referência, logótipos, etiquetas e texto. O serviço ImageAnnotator devolve entidades detetadas das imagens.

BatchAnnotateFiles

rpc BatchAnnotateFiles(BatchAnnotateFilesRequest) returns (BatchAnnotateFilesResponse)

Serviço que realiza a deteção e a anotação de imagens para um lote de ficheiros. Agora, apenas são suportados os tipos "application/pdf", "image/tiff" e "image/gif".

Este serviço extrai, no máximo, 5 frames (GIF) ou páginas (PDF ou TIFF) de cada ficheiro fornecido e realiza a deteção e a anotação de cada imagem extraída. Os clientes podem especificar que 5 frames ou páginas querem no AnnotateFileRequest.pages.

Âmbitos de autorização

Requer um dos seguintes âmbitos do OAuth:

  • https://www.googleapis.com/auth/cloud-platform
  • https://www.googleapis.com/auth/cloud-vision
BatchAnnotateImages

rpc BatchAnnotateImages(BatchAnnotateImagesRequest) returns (BatchAnnotateImagesResponse)

Executar a deteção e a anotação de imagens para um lote de imagens.

Âmbitos de autorização

Requer um dos seguintes âmbitos do OAuth:

  • https://www.googleapis.com/auth/cloud-platform
  • https://www.googleapis.com/auth/cloud-vision

AnnotateFileRequest

Um pedido para anotar um único ficheiro, por exemplo, um ficheiro PDF, TIFF ou GIF.

Campos
input_config

InputConfig

Obrigatório. Informações sobre o ficheiro de entrada.

features[]

Feature

Obrigatório. Funcionalidades pedidas.

image_context

ImageContext

Contexto adicional que pode acompanhar as imagens no ficheiro.

pages[]

int32

Páginas do ficheiro para fazer a anotação de imagens.

As páginas começam a partir de 1. Presumimos que a primeira página do ficheiro é a página 1. São suportadas, no máximo, 5 páginas por pedido. As páginas podem ser negativas.

Página 1 significa a primeira página. Página 2 significa a segunda página. A página -1 significa a última página. A página -2 significa a penúltima página.

Se o ficheiro for GIF em vez de PDF ou TIFF, a página refere-se a frames GIF.

Se este campo estiver vazio, por predefinição, o serviço realiza a anotação de imagens para as primeiras 5 páginas do ficheiro.

AnnotateFileResponse

Resposta a um pedido de anotação de um único ficheiro. Um ficheiro pode conter uma ou mais imagens, que têm individualmente as suas próprias respostas.

Campos
input_config

InputConfig

Informações sobre o ficheiro para o qual esta resposta é gerada.

responses[]

AnnotateImageResponse

Respostas individuais a imagens encontradas no ficheiro. Este campo fica vazio se o campo error estiver definido.

total_pages

int32

Este campo indica o número total de páginas no ficheiro.

error

Status

Se definido, representa a mensagem de erro do pedido com falha. Neste caso, o campo responses não é definido.

AnnotateImageRequest

Pedido para realizar tarefas da Google Cloud Vision API numa imagem fornecida pelo utilizador, com funcionalidades pedidas pelo utilizador e com informações de contexto.

Campos
image

Image

A imagem a ser processada.

features[]

Feature

Funcionalidades pedidas.

image_context

ImageContext

Contexto adicional que pode acompanhar a imagem.

AnnotateImageResponse

Resposta a um pedido de anotação de imagem.

Campos
text_annotations[]

EntityAnnotation

Se estiver presente, a deteção de texto (OCR) foi concluída com êxito.

full_text_annotation

TextAnnotation

Se estiver presente, a deteção de texto (OCR) ou a deteção de texto de documentos (OCR) foi concluída com êxito. Esta anotação fornece a hierarquia estrutural do texto detetado pelo OCR.

error

Status

Se definido, representa a mensagem de erro da operação. Tenha em atenção que as anotações de imagens preenchidas têm a garantia de estar corretas, mesmo quando error está definido.

context

ImageAnnotationContext

Se estiverem presentes, são necessárias informações contextuais para compreender a origem desta imagem.

BatchAnnotateFilesRequest

Uma lista de pedidos para anotar ficheiros através da API BatchAnnotateFiles.

Campos
requests[]

AnnotateFileRequest

Obrigatório. A lista de pedidos de anotação de ficheiros. Atualmente, só suportamos um AnnotateFileRequest em BatchAnnotateFilesRequest.

parent

string

Opcional. Projeto e localização de destino para fazer uma chamada.

Formato: projects/{project-id}/locations/{location-id}.

Se não for especificado nenhum elemento principal, é escolhida uma região automaticamente.

IDs de localização suportados: us: apenas no país EUA, asia: áreas do leste asiático, como o Japão e Taiwan, eu: a União Europeia.

Exemplo: projects/project-A/locations/eu.

BatchAnnotateFilesResponse

Uma lista de respostas de anotações de ficheiros.

Campos
responses[]

AnnotateFileResponse

A lista de respostas de anotação de ficheiros, cada resposta correspondente a cada AnnotateFileRequest em BatchAnnotateFilesRequest.

BatchAnnotateImagesRequest

Vários pedidos de anotação de imagens são processados em lote numa única chamada de serviço.

Campos
requests[]

AnnotateImageRequest

Obrigatório. Pedidos de anotação de imagens individuais para este lote.

parent

string

Opcional. Projeto e localização de destino para fazer uma chamada.

Formato: projects/{project-id}/locations/{location-id}.

Se não for especificado nenhum elemento principal, é escolhida uma região automaticamente.

IDs de localização suportados: us: apenas no país EUA, asia: áreas do leste asiático, como o Japão e Taiwan, eu: a União Europeia.

Exemplo: projects/project-A/locations/eu.

BatchAnnotateImagesResponse

Resposta a um pedido de anotação de imagens em lote.

Campos
responses[]

AnnotateImageResponse

Respostas individuais a pedidos de anotação de imagens no lote.

Bloquear

Elemento lógico na página.

Campos
property

TextProperty

Foram detetadas informações adicionais para o bloqueio.

bounding_box

BoundingPoly

A caixa limitadora do bloco. Os vértices estão na ordem superior esquerdo, superior direito, inferior direito e inferior esquerdo. Quando é detetada uma rotação da caixa delimitadora, a rotação é representada em torno do canto superior esquerdo, conforme definido quando o texto é lido na orientação "natural". Por exemplo:

  • Quando o texto é horizontal, pode ter o seguinte aspeto:
    0----1
    |    |
    3----2
  • Quando é rodado 180 graus em torno do canto superior esquerdo, torna-se:
    2----3
    |    |
    1----0

e a ordem dos vértices continua a ser (0, 1, 2, 3).

paragraphs[]

Paragraph

Lista de parágrafos neste bloco (se este bloco for do tipo texto).

block_type

BlockType

Tipo de bloco detetado (texto, imagem, etc.) para este bloco.

confidence

float

Confiança dos resultados de OCR no bloco. Intervalo [0, 1].

BlockType

Tipo de um bloco (texto, imagem, etc.) conforme identificado pelo OCR.

Enumerações
UNKNOWN Tipo de bloco desconhecido.
TEXT Bloco de texto normal.
TABLE Bloco de tabela.
PICTURE Bloqueio de imagem.
RULER Caixa de linhas horizontais/verticais.
BARCODE Bloco de código de barras.

BoundingPoly

Um polígono de limite para a anotação de imagem detetada.

Campos
vertices[]

Vertex

Os vértices do polígono delimitador.

normalized_vertices[]

NormalizedVertex

Os vértices normalizados do polígono delimitador.

EntityAnnotation

Conjunto de funcionalidades de entidades detetadas.

Campos
mid

string

ID de entidade opaco. Alguns IDs podem estar disponíveis na API Google Knowledge Graph Search.

locale

string

O código de idioma da região em que o texto da entidade description é expresso.

description

string

Descrição textual da entidade, expressa no respetivo idioma locale.

score

float

Pontuação geral do resultado. Intervalo [0, 1].

confidence
(deprecated)

float

Descontinuado. Em alternativa, use score. A precisão da deteção de entidades numa imagem. Por exemplo, para uma imagem na qual a entidade "Torre Eiffel" é detetada, este campo representa a confiança de que existe uma torre na imagem da consulta. Intervalo [0, 1].

topicality

float

A relevância da etiqueta ICA (anotação de conteúdo de imagem) para a imagem. Por exemplo, a relevância de "torre" é provavelmente superior para uma imagem que contenha a "Torre Eiffel" detetada do que para uma imagem que contenha um edifício alto distante detetado, mesmo que a confiança de que existe uma torre em cada imagem possa ser a mesma. Intervalo [0, 1].

bounding_poly

BoundingPoly

Região da imagem à qual esta entidade pertence. Não produzido para funcionalidades LABEL_DETECTION.

properties[]

Property

Algumas entidades podem ter campos Property (nome/valor) opcionais fornecidos pelo utilizador, como uma pontuação ou uma string que qualifica a entidade.

Funcionalidade

O tipo de deteção da API Google Cloud Vision a realizar e o número máximo de resultados a devolver para esse tipo. Podem ser especificados vários objetos Feature na lista features.

Campos
type

Type

O tipo de funcionalidade.

model

string

Modelo a usar para a funcionalidade. Valores suportados: "builtin/stable" (a predefinição se não estiver definida) e "builtin/latest". DOCUMENT_TEXT_DETECTION e TEXT_DETECTION também suportam "builtin/weekly" para a versão de ponta atualizada semanalmente.

Tipo

Tipo de funcionalidade da API Google Cloud Vision a ser extraída.

Enumerações
TYPE_UNSPECIFIED Tipo de funcionalidade não especificado.
TEXT_DETECTION Executar deteção de texto / reconhecimento ótico de carateres (OCR). A deteção de texto está otimizada para áreas de texto numa imagem maior. Se a imagem for um documento, use DOCUMENT_TEXT_DETECTION.
DOCUMENT_TEXT_DETECTION Executar OCR de documentos de texto denso. Tem precedência quando DOCUMENT_TEXT_DETECTION e TEXT_DETECTION estão presentes.

Imagem

Imagem do cliente para realizar tarefas da Google Cloud Vision API.

Campos
content

bytes

Conteúdo de imagem, representado como um fluxo de bytes. Nota: tal como acontece com todos os campos bytes, os protobuffers usam uma representação binária pura, enquanto as representações JSON usam base64.

Atualmente, este campo só funciona para pedidos BatchAnnotateImages. Não funciona para pedidos AsyncBatchAnnotateImages.

ImageAnnotationContext

Se uma imagem foi produzida a partir de um ficheiro (por exemplo, um PDF), esta mensagem fornece informações sobre a origem dessa imagem.

Campos
uri

string

O URI do ficheiro usado para produzir a imagem.

page_number

int32

Se o ficheiro era um PDF ou um TIFF, este campo indica o número da página no ficheiro usado para produzir a imagem.

ImageContext

Contexto da imagem e/ou parâmetros específicos da funcionalidade.

Campos
language_hints[]

string

Lista de idiomas a usar para TEXT_DETECTION. Na maioria dos casos, um valor vazio produz os melhores resultados, uma vez que permite a deteção automática do idioma. Para idiomas baseados no alfabeto latino, não é necessário definir language_hints. Em casos raros, quando o idioma do texto na imagem é conhecido, a definição de uma sugestão ajuda a obter melhores resultados (embora seja um obstáculo significativo se a sugestão estiver incorreta). A deteção de texto devolve um erro se um ou mais dos idiomas especificados não estiverem entre os idiomas suportados.

text_detection_params

TextDetectionParams

Parâmetros para a deteção de texto e a deteção de texto em documentos.

InputConfig

A localização de entrada e os metadados pretendidos.

Campos
content

bytes

Conteúdo do ficheiro, representado como uma stream de bytes. Nota: tal como acontece com todos os campos bytes, os protobuffers usam uma representação binária pura, enquanto as representações JSON usam base64.

Atualmente, este campo só funciona para pedidos BatchAnnotateFiles. Não funciona para pedidos AsyncBatchAnnotateFiles.

mime_type

string

O tipo de ficheiro. Atualmente, apenas são suportados os tipos "application/pdf", "image/tiff" e "image/gif". Os carateres universais não são compatíveis.

NormalizedVertex

Um vértice representa um ponto 2D na imagem. NOTA: as coordenadas dos vértices normalizadas são relativas à imagem original e variam entre 0 e 1.

Campos
x

float

Coordenada X.

y

float

Coordenada Y.

Página

Página detetada a partir do OCR.

Campos
property

TextProperty

Foram detetadas informações adicionais na página.

width

int32

Largura da página. Para PDFs, a unidade é pontos. Para imagens (incluindo TIFFs), a unidade é píxeis.

height

int32

Altura da página. Para PDFs, a unidade é pontos. Para imagens (incluindo TIFFs), a unidade é píxeis.

blocks[]

Block

Lista de blocos de texto, imagens, etc. nesta página.

confidence

float

Confiança nos resultados de OCR na página. Intervalo [0, 1].

Parágrafo

Unidade estrutural de texto que representa um número de palavras numa determinada ordem.

Campos
property

TextProperty

Foram detetadas informações adicionais para o parágrafo.

bounding_box

BoundingPoly

A caixa limitadora do parágrafo. Os vértices estão na ordem superior esquerdo, superior direito, inferior direito e inferior esquerdo. Quando é detetada uma rotação da caixa delimitadora, a rotação é representada em torno do canto superior esquerdo, conforme definido quando o texto é lido na orientação "natural". Por exemplo: * Quando o texto está na horizontal, pode ter o seguinte aspeto: 0----1 | | 3----2 * Quando é rodado 180 graus em torno do canto superior esquerdo, torna-se: 2----3 | | 1----0 e a ordem dos vértices continua a ser (0, 1, 2, 3).

words[]

Word

Lista de todas as palavras neste parágrafo.

confidence

float

Confiança dos resultados de OCR para o parágrafo. Intervalo [0, 1].

Propriedade

Um Property consiste num par de nome/valor fornecido pelo utilizador.

Campos
name

string

Nome da propriedade.

value

string

Valor da propriedade.

uint64_value

uint64

Valor das propriedades numéricas.

Símbolo

Uma representação de símbolo único.

Campos
property

TextProperty

Foram detetadas informações adicionais para o símbolo.

bounding_box

BoundingPoly

A caixa delimitadora do símbolo. Os vértices estão na ordem superior esquerdo, superior direito, inferior direito e inferior esquerdo. Quando é detetada uma rotação da caixa delimitadora, a rotação é representada em torno do canto superior esquerdo, conforme definido quando o texto é lido na orientação "natural". Por exemplo: * Quando o texto está na horizontal, pode ter o seguinte aspeto: 0----1 | | 3----2 * Quando é rodado 180 graus em torno do canto superior esquerdo, torna-se: 2----3 | | 1----0 e a ordem dos vértices continua a ser (0, 1, 2, 3).

text

string

A representação UTF-8 real do símbolo.

confidence

float

Confiança dos resultados de OCR para o símbolo. Intervalo [0, 1].

TextAnnotation

TextAnnotation contém uma representação estruturada do texto extraído por OCR. A hierarquia de uma estrutura de texto extraída por OCR é a seguinte:

TextAnnotation -> Página -> Bloco -> Parágrafo -> Palavra -> Símbolo

Cada componente estrutural, a partir de Page, pode ter propriedades que descrevem os idiomas detetados, as quebras, etc. Para mais detalhes, consulte a definição da mensagem TextAnnotation.TextProperty que se segue.

Campos
pages[]

Page

Lista de páginas detetadas pelo OCR.

text

string

Texto UTF-8 detetado nas páginas.

DetectedBreak

Início ou fim de um componente estrutural detetado.

Campos
type

BreakType

Tipo de quebra detetado.

is_prefix

bool

Verdadeiro se a quebra preceder o elemento.

BreakType

Enum para denotar o tipo de interrupção encontrado. Nova linha, espaço, etc.

Enumerações
UNKNOWN Tipo de etiqueta de quebra desconhecido.
SPACE Espaço normal.
SURE_SPACE Espaço certo (muito largo).
EOL_SURE_SPACE Quebra de moldagem de linhas.
HYPHEN Hífen no final da linha que não está presente no texto; não ocorre em simultâneo com SPACE, LEADER_SPACE ou LINE_BREAK.
LINE_BREAK Quebra de linha que termina um parágrafo.

DetectedLanguage

Idioma detetado para um componente estrutural.

Campos
language_code

string

O código de idioma BCP-47, como "en-US" ou "sr-Latn". Para mais informações, consulte https://www.unicode.org/reports/tr35/#Unicode_locale_identifier.

confidence

float

Confiança do idioma detetado. Intervalo [0, 1].

TextProperty

Foram detetadas informações adicionais no componente estrutural.

Campos
detected_languages[]

DetectedLanguage

Uma lista de idiomas detetados juntamente com a confiança.

detected_break

DetectedBreak

Início ou fim detetado de um segmento de texto.

TextDetectionParams

Parâmetros para deteções de texto. Isto é usado para controlar as funcionalidades TEXT_DETECTION e DOCUMENT_TEXT_DETECTION.

Campos
enable_text_detection_confidence_score

bool

Por predefinição, a Cloud Vision API inclui apenas a pontuação de confiança para o resultado DOCUMENT_TEXT_DETECTION. Defina a flag como true para incluir também a pontuação de confiança para TEXT_DETECTION.

advanced_ocr_options[]

string

Uma lista de opções avançadas de OCR para ajustar o comportamento do OCR.

Vertex

Um vértice representa um ponto 2D na imagem. NOTA: as coordenadas dos vértices estão na mesma escala que a imagem original.

Campos
x

int32

Coordenada X.

y

int32

Coordenada Y.

Word

Uma representação de palavras.

Campos
property

TextProperty

Foram detetadas informações adicionais para a palavra.

bounding_box

BoundingPoly

A caixa limitadora da palavra. Os vértices estão na ordem superior esquerdo, superior direito, inferior direito e inferior esquerdo. Quando é detetada uma rotação da caixa delimitadora, a rotação é representada em torno do canto superior esquerdo, conforme definido quando o texto é lido na orientação "natural". Por exemplo: * Quando o texto está na horizontal, pode ter o seguinte aspeto: 0----1 | | 3----2 * Quando é rodado 180 graus em torno do canto superior esquerdo, torna-se: 2----3 | | 1----0 e a ordem dos vértices continua a ser (0, 1, 2, 3).

symbols[]

Symbol

Lista de símbolos na palavra. A ordem dos símbolos segue a ordem de leitura natural.

confidence

float

Confiança dos resultados de OCR para a palavra. Intervalo [0, 1].