Package google.cloud.vision.v1

Índice

ImageAnnotator

Servicio que realiza tareas de detección de la API Cloud Vision de Google en imágenes de clientes, como la detección de caras, puntos de referencia, logotipos, etiquetas y texto. El servicio ImageAnnotator devuelve las entidades detectadas en las imágenes.

BatchAnnotateFiles

rpc BatchAnnotateFiles(BatchAnnotateFilesRequest) returns (BatchAnnotateFilesResponse)

Servicio que realiza la detección y la anotación de imágenes en un lote de archivos. Ahora solo se admiten "application/pdf", "image/tiff" e "image/gif".

Este servicio extraerá un máximo de 5 fotogramas (GIF) o páginas (PDF o TIFF) de cada archivo proporcionado y realizará la detección y la anotación de cada imagen extraída. Los clientes pueden especificar qué 5 fotogramas o páginas se extraerán en AnnotateFileRequest.pages.

Permisos de autorización

Debes disponer de uno de los siguientes permisos de OAuth:

  • https://www.googleapis.com/auth/cloud-platform
  • https://www.googleapis.com/auth/cloud-vision
BatchAnnotateImages

rpc BatchAnnotateImages(BatchAnnotateImagesRequest) returns (BatchAnnotateImagesResponse)

Ejecuta la detección y la anotación de imágenes en un lote de imágenes.

Permisos de autorización

Debes disponer de uno de los siguientes permisos de OAuth:

  • https://www.googleapis.com/auth/cloud-platform
  • https://www.googleapis.com/auth/cloud-vision

AnnotateFileRequest

Una solicitud para anotar un solo archivo, como un archivo PDF, TIFF o GIF.

Campos
input_config

InputConfig

Obligatorio. Información sobre el archivo de entrada.

features[]

Feature

Obligatorio. Funciones solicitadas.

image_context

ImageContext

Contexto adicional que puede acompañar a las imágenes del archivo.

pages[]

int32

Páginas del archivo para realizar la anotación de imágenes.

Las páginas empiezan por 1. Suponemos que la primera página del archivo es la página 1. Se admiten 5 páginas como máximo por solicitud. Las páginas pueden ser negativas.

Página 1 significa la primera página. Página 2 significa la segunda página. La página -1 significa la última página. La página -2 es la penúltima.

Si el archivo es GIF en lugar de PDF o TIFF, la página hace referencia a los fotogramas GIF.

Si este campo está vacío, el servicio realizará de forma predeterminada la anotación de imagen de las 5 primeras páginas del archivo.

AnnotateFileResponse

Respuesta a una solicitud de anotación de un solo archivo. Un archivo puede contener una o varias imágenes, que tienen sus propias respuestas.

Campos
input_config

InputConfig

Información sobre el archivo para el que se genera esta respuesta.

responses[]

AnnotateImageResponse

Respuestas individuales a las imágenes encontradas en el archivo. Este campo estará vacío si se define el campo error.

total_pages

int32

Este campo indica el número total de páginas del archivo.

error

Status

Si se define, representa el mensaje de error de la solicitud fallida. En este caso, el campo responses no se definirá.

AnnotateImageRequest

Solicitud para realizar tareas de la API Cloud Vision de Google en una imagen proporcionada por el usuario, con las funciones solicitadas por el usuario y con información de contexto.

Campos
image

Image

La imagen que se va a procesar.

features[]

Feature

Funciones solicitadas.

image_context

ImageContext

Contexto adicional que puede acompañar a la imagen.

AnnotateImageResponse

Respuesta a una solicitud de anotación de imagen.

Campos
text_annotations[]

EntityAnnotation

Si está presente, la detección de texto (OCR) se ha completado correctamente.

full_text_annotation

TextAnnotation

Si está presente, la detección de texto (OCR) o la detección de texto en documentos (OCR) se ha completado correctamente. Esta anotación proporciona la jerarquía estructural del texto detectado por OCR.

error

Status

Si se define, representa el mensaje de error de la operación. Ten en cuenta que las anotaciones de imagen rellenadas son correctas, incluso cuando se ha definido error.

context

ImageAnnotationContext

Si está presente, se necesita información contextual para saber de dónde procede la imagen.

BatchAnnotateFilesRequest

Lista de solicitudes para anotar archivos mediante la API BatchAnnotateFiles.

Campos
requests[]

AnnotateFileRequest

Obligatorio. Lista de solicitudes de anotación de archivos. Por el momento, solo admitimos un AnnotateFileRequest en BatchAnnotateFilesRequest.

parent

string

Opcional. Proyecto y ubicación de destino para hacer una llamada.

Formato: projects/{project-id}/locations/{location-id}.

Si no se especifica ningún elemento superior, se elegirá una región automáticamente.

IDs de ubicación admitidos: us: solo en EE. UU., asia: zonas del este de Asia, como Japón y Taiwán, eu: la Unión Europea.

Ejemplo: projects/project-A/locations/eu

BatchAnnotateFilesResponse

Lista de respuestas de anotaciones de archivos.

Campos
responses[]

AnnotateFileResponse

Lista de respuestas de anotación de archivos. Cada respuesta corresponde a un AnnotateFileRequest de BatchAnnotateFilesRequest.

BatchAnnotateImagesRequest

Varias solicitudes de anotación de imágenes se agrupan en una sola llamada de servicio.

Campos
requests[]

AnnotateImageRequest

Obligatorio. Solicitudes de anotación de imágenes individuales de este lote.

parent

string

Opcional. Proyecto y ubicación de destino para hacer una llamada.

Formato: projects/{project-id}/locations/{location-id}.

Si no se especifica ningún elemento superior, se elegirá una región automáticamente.

IDs de ubicación admitidos: us: solo en EE. UU., asia: zonas del este de Asia, como Japón y Taiwán, eu: la Unión Europea.

Ejemplo: projects/project-A/locations/eu

BatchAnnotateImagesResponse

Respuesta a una solicitud de anotación de imágenes por lotes.

Campos
responses[]

AnnotateImageResponse

Respuestas individuales a las solicitudes de anotación de imágenes del lote.

Bloquear

Elemento lógico de la página.

Campos
property

TextProperty

Se ha detectado información adicional sobre el bloque.

bounding_box

BoundingPoly

Cuadro delimitador del bloque. Los vértices se indican en el siguiente orden: superior izquierda, superior derecha, inferior derecha e inferior izquierda. Cuando se detecta una rotación del cuadro delimitador, se representa alrededor de la esquina superior izquierda, tal como se define cuando el texto se lee en la orientación "natural". Por ejemplo:

  • Si el texto es horizontal, puede tener este aspecto:
    0----1
    |    |
    3----2
  • Cuando se gira 180 grados alrededor de la esquina superior izquierda, se convierte en lo siguiente:
    2----3
    |    |
    1----0

y el orden de los vértices seguirá siendo (0, 1, 2, 3).

paragraphs[]

Paragraph

Lista de párrafos de este bloque (si el bloque es de tipo texto).

block_type

BlockType

Tipo de bloque detectado (texto, imagen, etc.) de este bloque.

confidence

float

Confianza de los resultados de OCR en el bloque. Intervalo [0, 1].

BlockType

Tipo de bloque (texto, imagen, etc.) identificado por el OCR.

Enumeraciones
UNKNOWN Tipo de bloque desconocido.
TEXT Bloque de texto normal.
TABLE Bloque de tabla.
PICTURE Bloque de imagen.
RULER Cuadro de línea horizontal o vertical.
BARCODE Bloque de código de barras.

BoundingPoly

Polígono delimitador de la anotación de imagen detectada.

Campos
vertices[]

Vertex

Vértices del polígono delimitador.

normalized_vertices[]

NormalizedVertex

Vértices normalizados del polígono delimitador.

EntityAnnotation

Conjunto de características de la entidad detectada.

Campos
mid

string

ID de entidad opaco. Algunos IDs pueden estar disponibles en la API Search de gráfico de conocimiento de Google.

locale

string

Código de idioma de la configuración regional en la que se expresa el texto de la entidad description.

description

string

Descripción textual de la entidad, expresada en su idioma locale.

score

float

Puntuación general del resultado. Intervalo [0, 1].

confidence
(deprecated)

float

Obsoleto. En su lugar, usa score. La precisión de la detección de entidades en una imagen. Por ejemplo, en una imagen en la que se detecta la entidad "Torre Eiffel", este campo representa la confianza de que hay una torre en la imagen de la consulta. Intervalo [0, 1].

topicality

float

La relevancia de la etiqueta ICA (anotación de contenido de imagen) para la imagen. Por ejemplo, la relevancia de "torre" es probablemente mayor para una imagen que contiene la "Torre Eiffel" detectada que para una imagen que contiene un edificio alto detectado a lo lejos, aunque la confianza de que hay una torre en cada imagen sea la misma. Intervalo [0, 1].

bounding_poly

BoundingPoly

Región de la imagen a la que pertenece esta entidad. No se ha producido para las funciones de LABEL_DETECTION.

properties[]

Property

Algunas entidades pueden tener campos Property (nombre/valor) opcionales proporcionados por el usuario, como una puntuación o una cadena que califique a la entidad.

Función

El tipo de detección de la API Cloud Vision de Google que se va a realizar y el número máximo de resultados que se devolverán para ese tipo. Se pueden especificar varios objetos Feature en la lista features.

Campos
type

Type

El tipo de función.

model

string

Modelo que se usará para la función. Valores admitidos: "builtin/stable" (valor predeterminado si no se define) y "builtin/latest". DOCUMENT_TEXT_DETECTION y TEXT_DETECTION también admiten "builtin/weekly" para la versión de vanguardia, que se actualiza semanalmente.

Tipo

Tipo de función de la API Google Cloud Vision que se va a extraer.

Enumeraciones
TYPE_UNSPECIFIED Tipo de función no especificado.
TEXT_DETECTION Ejecuta la detección de texto o el reconocimiento óptico de caracteres (OCR). La detección de texto está optimizada para las partes en las que el texto está disperso dentro de una imagen más grande. Si la imagen es un documento, utiliza DOCUMENT_TEXT_DETECTION en su lugar.
DOCUMENT_TEXT_DETECTION Aplica OCR a documentos con mucho texto. Tiene prioridad cuando tanto DOCUMENT_TEXT_DETECTION como TEXT_DETECTION están presentes.

Imagen

Imagen de cliente para realizar tareas de la API Cloud Vision de Google.

Campos
content

bytes

Contenido de la imagen, representado como un flujo de bytes. Nota: Al igual que con todos los campos bytes, los protobuffers usan una representación binaria pura, mientras que las representaciones JSON usan base64.

Actualmente, este campo solo funciona con solicitudes BatchAnnotateImages. No funciona con las solicitudes AsyncBatchAnnotateImages.

ImageAnnotationContext

Si una imagen se ha generado a partir de un archivo (por ejemplo, un PDF), este mensaje proporciona información sobre la fuente de la imagen.

Campos
uri

string

El URI del archivo usado para generar la imagen.

page_number

int32

Si el archivo era un PDF o un TIFF, este campo indica el número de página del archivo que se ha usado para generar la imagen.

ImageContext

Contexto de la imagen o parámetros específicos de la función.

Campos
language_hints[]

string

Lista de idiomas que se van a usar para TEXT_DETECTION. En la mayoría de los casos, un valor vacío da los mejores resultados, ya que permite la detección automática del idioma. En los idiomas basados en el alfabeto latino, no es necesario definir language_hints. En casos excepcionales, cuando se conoce el idioma del texto de la imagen, definir una pista ayudará a obtener mejores resultados (aunque será un obstáculo importante si la pista es incorrecta). La detección de texto devuelve un error si uno o varios de los idiomas especificados no se encuentran entre los idiomas admitidos.

text_detection_params

TextDetectionParams

Parámetros para la detección de texto y la detección de texto en documentos.

InputConfig

La ubicación de entrada y los metadatos que quieras.

Campos
content

bytes

Contenido del archivo, representado como un flujo de bytes. Nota: Al igual que con todos los campos bytes, los protobuffers usan una representación binaria pura, mientras que las representaciones JSON usan base64.

Por el momento, este campo solo funciona en las solicitudes BatchAnnotateFiles. No funciona con las solicitudes AsyncBatchAnnotateFiles.

mime_type

string

El tipo de archivo. Actualmente, solo se admiten "application/pdf", "image/tiff" e "image/gif". No se admiten comodines.

NormalizedVertex

Un vértice representa un punto 2D de la imagen. NOTA: Las coordenadas de los vértices normalizadas son relativas a la imagen original y están comprendidas entre 0 y 1.

Campos
x

float

Coordenada X.

y

float

Coordenada Y.

Página

Página detectada mediante OCR.

Campos
property

TextProperty

Se ha detectado información adicional en la página.

width

int32

Ancho de la página. En el caso de los PDFs, la unidad son puntos. En el caso de las imágenes (incluidos los TIFFs), la unidad son los píxeles.

height

int32

Altura de la página. En el caso de los PDFs, la unidad son puntos. En el caso de las imágenes (incluidos los TIFFs), la unidad son los píxeles.

blocks[]

Block

Lista de bloques de texto, imágenes, etc. de esta página.

confidence

float

Confianza de los resultados de OCR en la página. Intervalo [0, 1].

Párrafo

Unidad estructural de texto que representa un número de palabras en un orden determinado.

Campos
property

TextProperty

Información adicional detectada en el párrafo.

bounding_box

BoundingPoly

El cuadro delimitador del párrafo. Los vértices se indican en el siguiente orden: superior izquierda, superior derecha, inferior derecha e inferior izquierda. Cuando se detecta una rotación del cuadro delimitador, se representa alrededor de la esquina superior izquierda, tal como se define cuando el texto se lee en la orientación "natural". Por ejemplo: * Si el texto es horizontal, podría tener este aspecto: 0----1 | | 3----2 * Si se gira 180 grados alrededor de la esquina superior izquierda, se convierte en: 2----3 | | 1----0 y el orden de los vértices seguirá siendo (0, 1, 2, 3).

words[]

Word

Lista de todas las palabras de este párrafo.

confidence

float

Confianza de los resultados de OCR del párrafo. Intervalo [0, 1].

Propiedad

Un Property consta de un par nombre/valor proporcionado por el usuario.

Campos
name

string

Nombre de la propiedad.

value

string

Valor de la propiedad.

uint64_value

uint64

Valor de las propiedades numéricas.

Símbolo

Representación de un solo símbolo.

Campos
property

TextProperty

Se ha detectado información adicional sobre el símbolo.

bounding_box

BoundingPoly

Cuadro delimitador del símbolo. Los vértices se indican en el siguiente orden: superior izquierda, superior derecha, inferior derecha e inferior izquierda. Cuando se detecta una rotación del cuadro delimitador, se representa alrededor de la esquina superior izquierda, tal como se define cuando el texto se lee en la orientación "natural". Por ejemplo: * Si el texto es horizontal, podría tener este aspecto: 0----1 | | 3----2 * Si se gira 180 grados alrededor de la esquina superior izquierda, se convierte en: 2----3 | | 1----0 y el orden de los vértices seguirá siendo (0, 1, 2, 3).

text

string

La representación UTF-8 real del símbolo.

confidence

float

Confianza de los resultados de OCR del símbolo. Intervalo [0, 1].

TextAnnotation

TextAnnotation contiene una representación estructurada del texto extraído mediante OCR. La jerarquía de una estructura de texto extraída mediante OCR es la siguiente:

TextAnnotation -> Página -> Bloque -> Párrafo -> Palabra -> Símbolo

Cada componente estructural, empezando por Page, puede tener propiedades que describan los idiomas detectados, los saltos, etc. Para obtener más información, consulta la definición del mensaje TextAnnotation.TextProperty que se muestra a continuación.

Campos
pages[]

Page

Lista de páginas detectadas por OCR.

text

string

Se ha detectado texto UTF-8 en las páginas.

DetectedBreak

Se ha detectado el inicio o el final de un componente estructural.

Campos
type

BreakType

Tipo de salto detectado.

is_prefix

bool

Devuelve el valor true si el salto precede al elemento.

BreakType

Enum para indicar el tipo de salto encontrado. Nueva línea, espacio, etc.

Enumeraciones
UNKNOWN Tipo de etiqueta de salto desconocido.
SPACE Espacio normal.
SURE_SPACE Espacio seguro (muy amplio).
EOL_SURE_SPACE Salto de ajuste de línea.
HYPHEN Guion de final de línea que no está presente en el texto. No se da simultáneamente con SPACE, LEADER_SPACE ni LINE_BREAK.
LINE_BREAK Salto de línea que termina un párrafo.

Idioma detectado

Idioma detectado de un componente estructural.

Campos
language_code

string

Se trata del código de idioma BCP-47, como "en-US" o "sr-Latn". Para obtener más información, consulta https://www.unicode.org/reports/tr35/#Unicode_locale_identifier.

confidence

float

Confianza del idioma detectado. Intervalo [0, 1].

TextProperty

Se ha detectado información adicional en el componente estructural.

Campos
detected_languages[]

DetectedLanguage

Lista de idiomas detectados junto con la confianza.

detected_break

DetectedBreak

Se ha detectado el inicio o el final de un segmento de texto.

TextDetectionParams

Parámetros de las detecciones de texto. Se usa para controlar las funciones TEXT_DETECTION y DOCUMENT_TEXT_DETECTION.

Campos
enable_text_detection_confidence_score

bool

De forma predeterminada, la API Cloud Vision solo incluye la puntuación de confianza del resultado DOCUMENT_TEXT_DETECTION. Asigna el valor "true" a la marca para incluir también la puntuación de confianza de TEXT_DETECTION.

advanced_ocr_options[]

string

Lista de opciones avanzadas de OCR para ajustar el comportamiento del OCR.

Vertex

Un vértice representa un punto 2D de la imagen. NOTA: Las coordenadas de los vértices están en la misma escala que la imagen original.

Campos
x

int32

Coordenada X.

y

int32

Coordenada Y.

Word

Representación de una palabra.

Campos
property

TextProperty

Se ha detectado información adicional sobre la palabra.

bounding_box

BoundingPoly

El cuadro delimitador de la palabra. Los vértices se indican en el siguiente orden: superior izquierda, superior derecha, inferior derecha e inferior izquierda. Cuando se detecta una rotación del cuadro delimitador, se representa alrededor de la esquina superior izquierda, tal como se define cuando el texto se lee en la orientación "natural". Por ejemplo: * Si el texto es horizontal, podría tener este aspecto: 0----1 | | 3----2 * Si se gira 180 grados alrededor de la esquina superior izquierda, se convierte en: 2----3 | | 1----0 y el orden de los vértices seguirá siendo (0, 1, 2, 3).

symbols[]

Symbol

Lista de símbolos de la palabra. El orden de los símbolos sigue el orden de lectura natural.

confidence

float

Confianza de los resultados de OCR de la palabra. Intervalo [0, 1].