Package google.cloud.vision.v1

Índice

ImageAnnotator

Servicio que realiza tareas de detección de la API de Google Cloud Vision a través de imágenes de clientes, como detección de rostros, puntos de referencia, logotipos, etiquetas y texto. El servicio ImageAnnotator muestra entidades detectadas a partir de las imágenes.

BatchAnnotateFiles

rpc BatchAnnotateFiles(BatchAnnotateFilesRequest) returns (BatchAnnotateFilesResponse)

Servicio que realiza la detección y anotación de imágenes para un lote de archivos. Ahora solo se admiten "application/pdf", "image/tiff".

Este servicio extraerá como máximo 5 marcos (gif) o páginas (pdf o tiff) (los clientes pueden especificar los 5 en AnnotateFileRequest.pages) de cada archivo proporcionado y realizará la detección y anotación para cada imagen extraída.

Alcances de autorización

Se necesita uno de los siguientes permisos de OAuth:

  • https://www.googleapis.com/auth/cloud-platform
  • https://www.googleapis.com/auth/cloud-vision
BatchAnnotateImages

rpc BatchAnnotateImages(BatchAnnotateImagesRequest) returns (BatchAnnotateImagesResponse)

Ejecuta la detección y anotación de imágenes para un lote de imágenes.

Alcances de autorización

Se necesita uno de los siguientes permisos de OAuth:

  • https://www.googleapis.com/auth/cloud-platform
  • https://www.googleapis.com/auth/cloud-vision

AnnotateFileRequest

Una solicitud para anotar un solo archivo (p. ej., un archivo PDF, TIFF o GIF).

Campos
input_config

InputConfig

Obligatorio. Información sobre el archivo de entrada.

features[]

Feature

Obligatorio. Funciones solicitadas.

image_context

ImageContext

Contexto adicional, que puede acompañar a las imágenes en el archivo.

pages[]

int32

Páginas del archivo en las que se realizarán las anotaciones de imagen.

Las páginas comienzan desde 1, supongamos que la primera página del archivo es la página 1. Se admiten como máximo 5 páginas por solicitud. Las páginas pueden ser negativas.

La página 1 significa la primera página. La página 2 significa la segunda página. Page -1 significa la última página. Page -2 significa la segunda página.

Si el archivo es GIF en lugar de PDF o TIFF, la página hace referencia a los marcos del GIF.

Si este campo está vacío, de forma predeterminada, el servicio realiza anotaciones de imagen para las primeras 5 páginas del archivo.

AnnotateFileResponse

Respuesta a una solicitud de anotación de archivo único. Un archivo puede contener una o más imágenes, que tienen sus propias respuestas individuales.

Campos
input_config

InputConfig

Información sobre el archivo para el que se genera esta respuesta.

responses[]

AnnotateImageResponse

Respuestas individuales a las imágenes que se encuentran en el archivo. Este campo estará vacío si se configura el campo error.

total_pages

int32

Este campo proporciona la cantidad total de páginas en el archivo.

error

Status

Si se configura, representa el mensaje de error de la solicitud con errores. En este caso, no se establecerá el campo responses.

AnnotateImageRequest

Solicitud para realizar tareas de la API de Google Cloud Vision con una imagen proporcionada por el usuario, con funciones solicitadas por el usuario y con información del contexto.

Campos
image

Image

La imagen que se procesará.

features[]

Feature

Funciones solicitadas.

image_context

ImageContext

Contexto adicional, que puede acompañar a la imagen.

AnnotateImageResponse

Respuesta a una solicitud de anotación de imagen.

Campos
text_annotations[]

EntityAnnotation

Si está presente, la detección de texto (OCR) se completó correctamente.

full_text_annotation

TextAnnotation

Si está presente, la detección de texto (OCR) o la detección de texto (OCR) se completó correctamente. Esta anotación proporciona la jerarquía estructural del texto detectado de OCR.

error

Status

Si se configura, representa el mensaje de error de la operación. Ten en cuenta que se garantiza que las anotaciones de imagen completadas sean correctas, incluso cuando se establece error.

context

ImageAnnotationContext

Si está presente, se necesita información contextual para comprender de dónde proviene esta imagen.

BatchAnnotateFilesRequest

Una lista de solicitudes para anotar archivos mediante la API de BatchAnnotateFiles.

Campos
requests[]

AnnotateFileRequest

Obligatorio. La lista de solicitudes de anotación de archivos. En este momento, solo se admite una AnnotateFileRequest en BatchAnnotateFilesRequest.

parent

string

Opcional. Proyecto de destino y ubicación para realizar una llamada.

Formato: projects/{project-id}/locations/{location-id}.

Si no se especifica un elemento superior, se seleccionará una región de forma automática.

location_id [id_ubicación] admitidos: us: Solo países de EE.UU., asia: Áreas del este de Asia, como Japón y Taiwán, eu: La Unión Europea.

Ejemplo: projects/project-A/locations/eu.

BatchAnnotateFilesResponse

Una lista de respuestas de anotación de archivos.

Campos
responses[]

AnnotateFileResponse

La lista de respuestas de anotación de archivos, cada respuesta corresponde a cada AnnotateFileRequest en BatchAnnotateFilesRequest.

BatchAnnotateImagesRequest

Las solicitudes de anotaciones de imágenes se agrupan en una sola llamada de servicio.

Campos
requests[]

AnnotateImageRequest

Obligatorio. Solicitudes de anotación de imágenes individuales para este lote.

parent

string

Opcional. Proyecto de destino y ubicación para realizar una llamada.

Formato: projects/{project-id}/locations/{location-id}.

Si no se especifica un elemento superior, se seleccionará una región de forma automática.

location_id [id_ubicación] admitidos: us: Solo países de EE.UU., asia: Áreas del este de Asia, como Japón y Taiwán, eu: La Unión Europea.

Ejemplo: projects/project-A/locations/eu.

BatchAnnotateImagesResponse

Respuesta a una solicitud de anotación de imágenes por lotes.

Campos
responses[]

AnnotateImageResponse

Respuestas individuales a las solicitudes de anotación de imágenes dentro del lote.

Bloquear

Elemento lógico en la página.

Campos
property

TextProperty

Se detectó información adicional para el bloque.

bounding_box

BoundingPoly

El cuadro de límite del bloque. Los vértices están en el orden de la parte superior izquierda, la parte superior derecha, la parte inferior derecha y la parte inferior izquierda. Cuando se detecta una rotación del cuadro de límite, esta se representa como alrededor de la esquina superior izquierda, según se define cuando el texto se lee en la orientación “natural”. Por ejemplo:

  • Cuando el texto sea horizontal, podría verse de la siguiente manera:
    0----1
    |    |
    3----2
  • Cuando se rota 180 grados alrededor de la esquina superior izquierda, se convierte en:
    2----3
    |    |
    1----0

y el orden de vértices se mantendrá como (0, 1, 2, 3).

paragraphs[]

Paragraph

Lista de párrafos en este bloque (si este bloque es de tipo de texto).

block_type

BlockType

Se detectó un tipo de bloque (texto, imagen, etc.) para este bloque.

confidence

float

La confianza de los resultados de OCR en el bloque. Rango [0, 1].

BlockType

Tipo de bloque (texto, imagen, etc.) que identifica el OCR.

Enums
UNKNOWN Tipo de bloqueo desconocido.
TEXT Bloque de texto común.
TABLE Bloque de tabla.
PICTURE Bloque de imagen.
RULER Cuadro de línea horizontal/vertical.
BARCODE Bloque de código de barras.

BoundingPoly

Un polígono de límite para la anotación de imagen detectada.

Campos
vertices[]

Vertex

Vértices del polígono de límite.

normalized_vertices[]

NormalizedVertex

Vértices normalizados del polígono de límite.

EntityAnnotation

Conjunto de atributos de la entidad detectada.

Campos
mid

string

ID de entidad opaco. Es posible que algunos ID estén disponibles en la API de búsqueda en el Gráfico de conocimiento de Google.

locale

string

El código de idioma de la configuración regional en la que se expresa la description textual de la entidad.

description

string

Descripción textual de la entidad, expresada en su idioma de locale.

score

float

Puntuación general del resultado. Rango [0, 1].

confidence
(deprecated)

float

Obsoleto. Utiliza score en lugar de esta función. La precisión de la detección de entidades en una imagen. Por ejemplo, en el caso de una imagen en la que se detecta la entidad "Torre Eiffel", este campo representa la confianza en que hay una altura en la imagen de la consulta. Rango [0, 1].

topicality

float

La relevancia de la etiqueta ICA (Anotación del contenido de la imagen) de la imagen. Por ejemplo, la relevancia de "torre" probablemente sea más alta para una imagen que contiene la "Torre Eiffel", que para una imagen que contiene un edificio alto alejado detectado, aunque la confianza en que exista una torre en cada imagen puede ser la misma. Rango [0, 1].

bounding_poly

BoundingPoly

Región de la imagen a la que pertenece esta entidad. No se produjo para características LABEL_DETECTION.

properties[]

Property

Algunas entidades pueden tener campos Property (nombre/valor) opcionales proporcionados por el usuario, como una puntuación o string que califica a la entidad.

Función

El tipo de detección de la API de Google Cloud Vision que se debe realizar y la cantidad máxima de resultados que se mostrarán para ese tipo. Se pueden especificar varios objetos Feature en la lista features.

Campos
type

Type

El tipo de característica.

model

string

Modelo que se usará para la función. Valores admitidos: "integrado/estable" (predeterminado si no se configura) y "integrado/más reciente". DOCUMENT_TEXT_DETECTION y TEXT_DETECTION también admiten "builtin/weekly" para la versión de vanguardia que se actualiza semanalmente.

Tipo

Tipo de característica de la API de Google Cloud Vision que se extraerá.

Enums
TYPE_UNSPECIFIED Tipo de característica no especificada.
TEXT_DETECTION Ejecutar detección de texto / reconocimiento óptico de caracteres (OCR). La detección de texto está optimizada para áreas de texto dentro de una imagen más grande. Si la imagen es un documento, usa DOCUMENT_TEXT_DETECTION en su lugar.
DOCUMENT_TEXT_DETECTION Ejecuta el OCR de documentos de texto denso. Tiene prioridad cuando están presentes DOCUMENT_TEXT_DETECTION y TEXT_DETECTION.

Imagen

Imagen de cliente en la que se realizarán tareas de la API de Google Cloud Vision.

Campos
content

bytes

Contenido de imagen, representado como un flujo de bytes. Nota: Al igual que con todos los campos de bytes, los buffers de protocolos usan una representación binaria pura, mientras que las representaciones JSON usan Base64.

Actualmente, este campo solo funciona para solicitudes BatchAnnotateImages.

ImageAnnotationContext

Si se produjo una imagen a partir de un archivo (p. ej., un PDF), este mensaje contiene información sobre la fuente de la imagen.

Campos
uri

string

El URI del archivo que se usa para producir la imagen.

page_number

int32

Si el archivo era PDF o TIFF, este campo indica el número de página dentro del archivo que se usó para producir la imagen.

ImageContext

Contexto de imagen o parámetros específicos de las características.

Campos
language_hints[]

string

Lista de idiomas que se usan en TEXT_DETECTION. En la mayoría de los casos, un valor vacío genera mejores resultados, ya que permite la detección automática del idioma. Para los idiomas que se basan en el alfabeto latino, no es necesario configurar language_hints. En casos excepcionales, cuando se conoce el idioma del texto en la imagen, establecer una sugerencia ayudará a obtener mejores resultados (aunque será un impedimento importante si la sugerencia no es correcta). La detección de texto muestra un error si uno o más de los idiomas especificados no es uno de los idiomas compatibles.

text_detection_params

TextDetectionParams

Parámetros para la detección de texto y la detección de texto en documentos.

InputConfig

La ubicación y los metadatos de entrada deseados.

Campos
content

bytes

Contenido de archivos, representado como un flujo de bytes. Nota: Al igual que con todos los campos de bytes, los buffers de protocolos usan una representación binaria pura, mientras que las representaciones JSON usan Base64.

Actualmente, este campo solo funciona para solicitudes BatchAnnotateFiles.

mime_type

string

El tipo de archivo. Ahora solo se admiten "application/pdf", "image/tiff". Los comodines no son compatibles.

NormalizedVertex

Un vértice representa un punto 2D en la imagen. NOTA: Las coordenadas de vértices normalizadas están relacionadas con la imagen original y varían de 0 a 1.

Campos
x

float

Coordenada de X.

y

float

Coordenada de Y.

Página

Página detectada de OCR.

Campos
property

TextProperty

Información adicional detectada en la página.

width

int32

Ancho de página. Para los archivos PDF, la unidad es puntos. Para las imágenes (incluidos los TIFF), la unidad es de píxeles.

height

int32

Altura de la página. Para los archivos PDF, la unidad es puntos. Para las imágenes (incluidos los TIFF), la unidad es de píxeles.

blocks[]

Block

Lista de bloques de texto, imágenes, etc. en esta página.

confidence

float

La confianza de los resultados de OCR en la página Rango [0, 1].

Párrafo

Unidad estructural de texto que representa un número de palabras en cierto orden.

Campos
property

TextProperty

Se detectó información adicional para el párrafo.

bounding_box

BoundingPoly

El cuadro de límite del párrafo. Los vértices están en el orden de la parte superior izquierda, la parte superior derecha, la parte inferior derecha y la parte inferior izquierda. Cuando se detecta una rotación del cuadro de límite, esta se representa como alrededor de la esquina superior izquierda, según se define cuando el texto se lee en la orientación “natural”. Por ejemplo: * cuando el texto es horizontal, puede verse así: 0----1 | | 3----2 * cuando se rota 180 grados alrededor de la esquina superior izquierda se convierte en: 2----3 | | 1----0 y el orden de vértices se mantendrá como (0, 1, 2, 3).

words[]

Word

Lista de todas las palabras de este párrafo.

confidence

float

La confianza de los resultados de OCR del párrafo. Rango [0, 1].

Propiedad

Un objeto Property consta de un par nombre/valor proporcionado por el usuario.

Campos
name

string

El nombre de la propiedad.

value

string

Valor de la propiedad.

uint64_value

uint64

Valor de propiedades numéricas.

Símbolo

Representación de un solo símbolo.

Campos
property

TextProperty

Se detectó información adicional para el símbolo.

bounding_box

BoundingPoly

El cuadro de límite del símbolo. Los vértices están en el orden de la parte superior izquierda, la parte superior derecha, la parte inferior derecha y la parte inferior izquierda. Cuando se detecta una rotación del cuadro de límite, esta se representa como alrededor de la esquina superior izquierda, según se define cuando el texto se lee en la orientación “natural”. Por ejemplo: * cuando el texto es horizontal, puede verse así: 0----1 | | 3----2 * cuando se rota 180 grados alrededor de la esquina superior izquierda se convierte en: 2----3 | | 1----0 y el orden de vértices se mantendrá como (0, 1, 2, 3).

text

string

La representación UTF-8 real del símbolo.

confidence

float

Se obtiene la confianza de los resultados de OCR para el símbolo. Rango [0, 1].

TextAnnotation

TextAnnotation contiene una representación estructurada del texto extraído con OCR. La jerarquía de una estructura de texto extraída de OCR es la siguiente:

TextAnnotation -> Page -> Block -> Paragraph -> Word -> Symbol

Cada componente estructural, a partir de la página, puede tener propiedades que describen los idiomas detectados, los saltos de línea, etcétera. Para obtener más detalles, consulta la definición del mensaje TextAnnotation.TextProperty que se incluye a continuación.

Campos
pages[]

Page

Lista de páginas detectadas por OCR.

text

string

Texto UTF-8 detectado en las páginas.

DetectedBreak

Inicio o final detectado de un componente estructural.

Campos
type

BreakType

Se detectó un tipo de salto.

is_prefix

bool

Tiene el valor verdadero si el salto antecede al elemento.

BreakType

Enumeración que indica el tipo de salto encontrado. Línea nueva, espacio, etcétera.

Enums
UNKNOWN Tipo de etiqueta de salto desconocida.
SPACE Espacio normal.
SURE_SPACE Espacio grueso (muy ancho).
EOL_SURE_SPACE Salto de línea.
HYPHEN Guion de línea que no está presente en el texto no coincide con SPACE, LEADER_SPACE ni LINE_BREAK.
LINE_BREAK Salto de línea que termina en un párrafo.

DetectedLanguage

Idioma detectado en un componente estructural.

Campos
language_code

string

El código de idioma BCP-47, como "en-US" o "sr-Latn". Para obtener más información, consulta https://www.unicode.org/reports/tr35/#Unicode_locale_identifier.

confidence

float

La confianza del idioma detectado. Rango [0, 1].

TextProperty

Información adicional detectada en el componente estructural.

Campos
detected_languages[]

DetectedLanguage

Una lista de idiomas detectados y la confianza.

detected_break

DetectedBreak

El inicio y el final detectados de un segmento de texto.

TextDetectionParams

Parámetros para las detecciones de texto. Se usa para controlar las funciones TEXT_DETECTION y DOCUMENT_TEXT_DETECTION.

Campos
enable_text_detection_confidence_score

bool

De forma predeterminada, la API de Cloud Vision solo incluye la puntuación de confianza para el resultado de DOCUMENT_TEXT_DETECTION. Establece el parámetro en verdadero para incluir también la puntuación de confianza de TEXT_DETECTION.

advanced_ocr_options[]

string

Es una lista de opciones avanzadas de OCR para ajustar el comportamiento del OCR.

Vertex

Un vértice representa un punto 2D en la imagen. NOTA: Las coordenadas de los vértices se encuentran en la misma escala que la imagen original.

Campos
x

int32

Coordenada de X.

y

int32

Coordenada de Y.

Word

Representación de palabras.

Campos
property

TextProperty

Información adicional para la palabra.

bounding_box

BoundingPoly

El cuadro de límite de la palabra. Los vértices están en el orden de la parte superior izquierda, la parte superior derecha, la parte inferior derecha y la parte inferior izquierda. Cuando se detecta una rotación del cuadro de límite, esta se representa como alrededor de la esquina superior izquierda, según se define cuando el texto se lee en la orientación “natural”. Por ejemplo: * cuando el texto es horizontal, puede verse así: 0----1 | | 3----2 * cuando se rota 180 grados alrededor de la esquina superior izquierda se convierte en: 2----3 | | 1----0 y el orden de vértices se mantendrá como (0, 1, 2, 3).

symbols[]

Symbol

Lista de símbolos de la palabra. El orden de los símbolos sigue el orden natural de lectura.

confidence

float

La confianza de los resultados de OCR para la palabra. Rango [0, 1].