AnnotateImageResponse

Respuesta a una solicitud de anotación de imagen.

Representación JSON
{
  "textAnnotations": [
    {
      object (EntityAnnotation)
    }
  ],
  "fullTextAnnotation": {
    object (TextAnnotation)
  },
  "error": {
    object (Status)
  },
  "context": {
    object (ImageAnnotationContext)
  }
}
Campos
textAnnotations[]

object (EntityAnnotation)

Si está presente, la detección de texto (OCR) se completó correctamente.

fullTextAnnotation

object (TextAnnotation)

Si está presente, la detección de texto (OCR) o la detección de texto (OCR) se completó correctamente. Esta anotación proporciona la jerarquía estructural del texto detectado de OCR.

error

object (Status)

Si se configura, representa el mensaje de error de la operación. Ten en cuenta que se garantiza que las anotaciones de imagen completadas sean correctas, incluso cuando se establece error.

context

object (ImageAnnotationContext)

Si está presente, se necesita información contextual para comprender de dónde proviene esta imagen.

EntityAnnotation

Conjunto de atributos de la entidad detectada.

Representación JSON
{
  "mid": string,
  "locale": string,
  "description": string,
  "score": number,
  "confidence": number,
  "topicality": number,
  "boundingPoly": {
    object (BoundingPoly)
  },
  "properties": [
    {
      object (Property)
    }
  ]
}
Campos
mid

string

ID de entidad opaco. Es posible que algunos ID estén disponibles en la API de búsqueda en el Gráfico de conocimiento de Google.

locale

string

El código de idioma de la configuración regional en la que se expresa la description textual de la entidad.

description

string

Descripción textual de la entidad, expresada en su idioma de locale.

score

number

Puntuación general del resultado. Rango [0, 1].

confidence
(deprecated)

number

Obsoleto. Utiliza score en lugar de esta función. La precisión de la detección de entidades en una imagen. Por ejemplo, en el caso de una imagen en la que se detecta la entidad "Torre Eiffel", este campo representa la confianza en que hay una altura en la imagen de la consulta. Rango [0, 1].

topicality

number

La relevancia de la etiqueta ICA (Anotación del contenido de la imagen) de la imagen. Por ejemplo, la relevancia de "torre" probablemente sea más alta para una imagen que contiene la "Torre Eiffel", que para una imagen que contiene un edificio alto alejado detectado, aunque la confianza en que exista una torre en cada imagen puede ser la misma. Rango [0, 1].

boundingPoly

object (BoundingPoly)

Región de la imagen a la que pertenece esta entidad. No se produjo para características LABEL_DETECTION.

properties[]

object (Property)

Algunas entidades pueden tener campos Property (nombre/valor) opcionales proporcionados por el usuario, como una puntuación o string que califica a la entidad.

BoundingPoly

Un polígono de límite para la anotación de imagen detectada.

Representación JSON
{
  "vertices": [
    {
      object (Vertex)
    }
  ],
  "normalizedVertices": [
    {
      object (NormalizedVertex)
    }
  ]
}
Campos
vertices[]

object (Vertex)

Vértices del polígono de límite.

normalizedVertices[]

object (NormalizedVertex)

Vértices normalizados del polígono de límite.

Vertex

Un vértice representa un punto 2D en la imagen. NOTA: Las coordenadas de los vértices se encuentran en la misma escala que la imagen original.

Representación JSON
{
  "x": integer,
  "y": integer
}
Campos
x

integer

Coordenada de X.

y

integer

Coordenada de Y.

NormalizedVertex

Un vértice representa un punto 2D en la imagen. NOTA: Las coordenadas de vértices normalizadas están relacionadas con la imagen original y varían de 0 a 1.

Representación JSON
{
  "x": number,
  "y": number
}
Campos
x

number

Coordenada de X.

y

number

Coordenada de Y.

Propiedad

Un objeto Property consta de un par nombre/valor proporcionado por el usuario.

Representación JSON
{
  "name": string,
  "value": string,
  "uint64Value": string
}
Campos
name

string

El nombre de la propiedad.

value

string

Valor de la propiedad.

uint64Value

string

Valor de propiedades numéricas.

TextAnnotation

TextAnnotation contiene una representación estructurada del texto extraído con OCR. La jerarquía de una estructura de texto extraída de OCR es la siguiente:

TextAnnotation-> Page -> Block -> Paragraph -> Word -> Symbol

Cada componente estructural, a partir de la página, puede tener propiedades que describen los idiomas detectados, los saltos de línea, etcétera. Para obtener más información, consulta la definición del mensaje TextAnnotation.TextProperty que se incluye a continuación.

Representación JSON
{
  "pages": [
    {
      object (Page)
    }
  ],
  "text": string
}
Campos
pages[]

object (Page)

Lista de páginas detectadas por OCR.

text

string

Texto UTF-8 detectado en las páginas.

Página

Página detectada de OCR.

Representación JSON
{
  "property": {
    object (TextProperty)
  },
  "width": integer,
  "height": integer,
  "blocks": [
    {
      object (Block)
    }
  ],
  "confidence": number
}
Campos
property

object (TextProperty)

Información adicional detectada en la página.

width

integer

Ancho de página. Para los archivos PDF, la unidad es puntos. Para las imágenes (incluidos los TIFF), la unidad es de píxeles.

height

integer

Altura de la página. Para los archivos PDF, la unidad es puntos. Para las imágenes (incluidos los TIFF), la unidad es de píxeles.

blocks[]

object (Block)

Lista de bloques de texto, imágenes, etc. en esta página.

confidence

number

La confianza de los resultados de OCR en la página Rango [0, 1].

TextProperty

Información adicional detectada en el componente estructural.

Representación JSON
{
  "detectedLanguages": [
    {
      object (DetectedLanguage)
    }
  ],
  "detectedBreak": {
    object (DetectedBreak)
  }
}
Campos
detectedLanguages[]

object (DetectedLanguage)

Una lista de idiomas detectados y la confianza.

detectedBreak

object (DetectedBreak)

El inicio y el final detectados de un segmento de texto.

DetectedLanguage

Idioma detectado en un componente estructural.

Representación JSON
{
  "languageCode": string,
  "confidence": number
}
Campos
languageCode

string

El código de idioma BCP-47, como "en-US" o "sr-Latn". Para obtener más información, consulta https://www.unicode.org/reports/tr35/#Unicode_locale_identifier.

confidence

number

La confianza del idioma detectado. Rango [0, 1].

DetectedBreak

Inicio o final detectado de un componente estructural.

Representación JSON
{
  "type": enum (BreakType),
  "isPrefix": boolean
}
Campos
type

enum (BreakType)

Se detectó un tipo de salto.

isPrefix

boolean

Tiene el valor verdadero si el salto antecede al elemento.

BreakType

Enumeración que indica el tipo de salto encontrado. Línea nueva, espacio, etcétera.

Enums
UNKNOWN Tipo de etiqueta de salto desconocida.
SPACE Espacio normal.
SURE_SPACE Espacio grueso (muy ancho).
EOL_SURE_SPACE Salto de línea.
HYPHEN Guion de línea que no está presente en el texto no coincide con SPACE, LEADER_SPACE ni LINE_BREAK.
LINE_BREAK Salto de línea que termina en un párrafo.

Bloquear

Elemento lógico en la página.

Representación JSON
{
  "property": {
    object (TextProperty)
  },
  "boundingBox": {
    object (BoundingPoly)
  },
  "paragraphs": [
    {
      object (Paragraph)
    }
  ],
  "blockType": enum (BlockType),
  "confidence": number
}
Campos
property

object (TextProperty)

Se detectó información adicional para el bloque.

boundingBox

object (BoundingPoly)

El cuadro de límite del bloque. Los vértices están en el orden de la parte superior izquierda, la parte superior derecha, la parte inferior derecha y la parte inferior izquierda. Cuando se detecta una rotación del cuadro de límite, esta se representa como alrededor de la esquina superior izquierda, según se define cuando el texto se lee en la orientación “natural”. Por ejemplo:

  • Cuando el texto sea horizontal, podría verse de la siguiente manera:
    0----1
    |    |
    3----2
  • Cuando se rota 180 grados alrededor de la esquina superior izquierda, se convierte en:
    2----3
    |    |
    1----0

y el orden de vértices se mantendrá como (0, 1, 2, 3).

paragraphs[]

object (Paragraph)

Lista de párrafos en este bloque (si este bloque es de tipo de texto).

blockType

enum (BlockType)

Se detectó un tipo de bloque (texto, imagen, etc.) para este bloque.

confidence

number

La confianza de los resultados de OCR en el bloque. Rango [0, 1].

Párrafo

Unidad estructural de texto que representa un número de palabras en cierto orden.

Representación JSON
{
  "property": {
    object (TextProperty)
  },
  "boundingBox": {
    object (BoundingPoly)
  },
  "words": [
    {
      object (Word)
    }
  ],
  "confidence": number
}
Campos
property

object (TextProperty)

Se detectó información adicional para el párrafo.

boundingBox

object (BoundingPoly)

El cuadro de límite del párrafo. Los vértices están en el orden de la parte superior izquierda, la parte superior derecha, la parte inferior derecha y la parte inferior izquierda. Cuando se detecta una rotación del cuadro de límite, esta se representa como alrededor de la esquina superior izquierda, según se define cuando el texto se lee en la orientación “natural”. Por ejemplo: * cuando el texto es horizontal, puede verse así: 0----1 | | 3----2 * cuando se rota 180 grados alrededor de la esquina superior izquierda se convierte en: 2----3 | | 1----0 y el orden de vértices se mantendrá como (0, 1, 2, 3).

words[]

object (Word)

Lista de todas las palabras de este párrafo.

confidence

number

La confianza de los resultados de OCR del párrafo. Rango [0, 1].

Word

Representación de palabras.

Representación JSON
{
  "property": {
    object (TextProperty)
  },
  "boundingBox": {
    object (BoundingPoly)
  },
  "symbols": [
    {
      object (Symbol)
    }
  ],
  "confidence": number
}
Campos
property

object (TextProperty)

Información adicional para la palabra.

boundingBox

object (BoundingPoly)

El cuadro de límite de la palabra. Los vértices están en el orden de la parte superior izquierda, la parte superior derecha, la parte inferior derecha y la parte inferior izquierda. Cuando se detecta una rotación del cuadro de límite, esta se representa como alrededor de la esquina superior izquierda, según se define cuando el texto se lee en la orientación “natural”. Por ejemplo: * cuando el texto es horizontal, puede verse así: 0----1 | | 3----2 * cuando se rota 180 grados alrededor de la esquina superior izquierda se convierte en: 2----3 | | 1----0 y el orden de vértices se mantendrá como (0, 1, 2, 3).

symbols[]

object (Symbol)

Lista de símbolos de la palabra. El orden de los símbolos sigue el orden natural de lectura.

confidence

number

La confianza de los resultados de OCR para la palabra. Rango [0, 1].

Símbolo

Representación de un solo símbolo.

Representación JSON
{
  "property": {
    object (TextProperty)
  },
  "boundingBox": {
    object (BoundingPoly)
  },
  "text": string,
  "confidence": number
}
Campos
property

object (TextProperty)

Se detectó información adicional para el símbolo.

boundingBox

object (BoundingPoly)

El cuadro de límite del símbolo. Los vértices están en el orden de la parte superior izquierda, la parte superior derecha, la parte inferior derecha y la parte inferior izquierda. Cuando se detecta una rotación del cuadro de límite, esta se representa como alrededor de la esquina superior izquierda, según se define cuando el texto se lee en la orientación “natural”. Por ejemplo: * cuando el texto es horizontal, puede verse así: 0----1 | | 3----2 * cuando se rota 180 grados alrededor de la esquina superior izquierda se convierte en: 2----3 | | 1----0 y el orden de vértices se mantendrá como (0, 1, 2, 3).

text

string

La representación UTF-8 real del símbolo.

confidence

number

Se obtiene la confianza de los resultados de OCR para el símbolo. Rango [0, 1].

BlockType

Tipo de bloque (texto, imagen, etc.) que identifica el OCR.

Enums
UNKNOWN Tipo de bloqueo desconocido.
TEXT Bloque de texto común.
TABLE Bloque de tabla.
PICTURE Bloque de imagen.
RULER Cuadro de línea horizontal/vertical.
BARCODE Bloque de código de barras.

ImageAnnotationContext

Si se produjo una imagen a partir de un archivo (p. ej., un PDF), este mensaje contiene información sobre la fuente de la imagen.

Representación JSON
{
  "uri": string,
  "pageNumber": integer
}
Campos
uri

string

El URI del archivo que se usa para producir la imagen.

pageNumber

integer

Si el archivo era PDF o TIFF, este campo indica el número de página dentro del archivo que se usó para producir la imagen.