AnnotateImageResponse

Respuesta a una solicitud de anotación de imagen.

Representación JSON
{
  "textAnnotations": [
    {
      object (EntityAnnotation)
    }
  ],
  "fullTextAnnotation": {
    object (TextAnnotation)
  },
  "error": {
    object (Status)
  },
  "context": {
    object (ImageAnnotationContext)
  }
}
Campos
textAnnotations[]

object (EntityAnnotation)

Si está presente, la detección de texto (OCR) se ha completado correctamente.

fullTextAnnotation

object (TextAnnotation)

Si está presente, la detección de texto (OCR) o la detección de texto en documentos (OCR) se ha completado correctamente. Esta anotación proporciona la jerarquía estructural del texto detectado por OCR.

error

object (Status)

Si se define, representa el mensaje de error de la operación. Ten en cuenta que las anotaciones de imagen rellenadas son correctas, incluso cuando se ha definido error.

context

object (ImageAnnotationContext)

Si está presente, se necesita información contextual para saber de dónde procede la imagen.

EntityAnnotation

Conjunto de características de la entidad detectada.

Representación JSON
{
  "mid": string,
  "locale": string,
  "description": string,
  "score": number,
  "confidence": number,
  "topicality": number,
  "boundingPoly": {
    object (BoundingPoly)
  },
  "properties": [
    {
      object (Property)
    }
  ]
}
Campos
mid

string

ID de entidad opaco. Algunos IDs pueden estar disponibles en la API Search de gráfico de conocimiento de Google.

locale

string

Código de idioma de la configuración regional en la que se expresa el texto de la entidad description.

description

string

Descripción textual de la entidad, expresada en su idioma locale.

score

number

Puntuación general del resultado. Intervalo [0, 1].

confidence
(deprecated)

number

Obsoleto. En su lugar, usa score. La precisión de la detección de entidades en una imagen. Por ejemplo, en una imagen en la que se detecta la entidad "Torre Eiffel", este campo representa la confianza de que hay una torre en la imagen de la consulta. Intervalo [0, 1].

topicality

number

La relevancia de la etiqueta ICA (anotación de contenido de imagen) para la imagen. Por ejemplo, la relevancia de "torre" es probablemente mayor para una imagen que contiene la "Torre Eiffel" detectada que para una imagen que contiene un edificio alto detectado a lo lejos, aunque la confianza de que hay una torre en cada imagen sea la misma. Intervalo [0, 1].

boundingPoly

object (BoundingPoly)

Región de la imagen a la que pertenece esta entidad. No se ha producido para las funciones de LABEL_DETECTION.

properties[]

object (Property)

Algunas entidades pueden tener campos Property (nombre/valor) opcionales proporcionados por el usuario, como una puntuación o una cadena que califique a la entidad.

BoundingPoly

Polígono delimitador de la anotación de imagen detectada.

Representación JSON
{
  "vertices": [
    {
      object (Vertex)
    }
  ],
  "normalizedVertices": [
    {
      object (NormalizedVertex)
    }
  ]
}
Campos
vertices[]

object (Vertex)

Vértices del polígono delimitador.

normalizedVertices[]

object (NormalizedVertex)

Vértices normalizados del polígono delimitador.

Vertex

Un vértice representa un punto 2D de la imagen. NOTA: Las coordenadas de los vértices están en la misma escala que la imagen original.

Representación JSON
{
  "x": integer,
  "y": integer
}
Campos
x

integer

Coordenada X.

y

integer

Coordenada Y.

NormalizedVertex

Un vértice representa un punto 2D de la imagen. NOTA: Las coordenadas de los vértices normalizadas son relativas a la imagen original y están comprendidas entre 0 y 1.

Representación JSON
{
  "x": number,
  "y": number
}
Campos
x

number

Coordenada X.

y

number

Coordenada Y.

Propiedad

Un Property consta de un par nombre/valor proporcionado por el usuario.

Representación JSON
{
  "name": string,
  "value": string,
  "uint64Value": string
}
Campos
name

string

Nombre de la propiedad.

value

string

Valor de la propiedad.

uint64Value

string

Valor de las propiedades numéricas.

TextAnnotation

TextAnnotation contiene una representación estructurada del texto extraído mediante OCR. La jerarquía de una estructura de texto extraída mediante OCR es la siguiente:

TextAnnotation-> Página -> Bloque -> Párrafo -> Palabra -> Símbolo

Cada componente estructural, empezando por Page, puede tener propiedades que describan los idiomas detectados, los saltos, etc. Para obtener más información, consulta la definición del mensaje TextAnnotation.TextProperty que se muestra a continuación.

Representación JSON
{
  "pages": [
    {
      object (Page)
    }
  ],
  "text": string
}
Campos
pages[]

object (Page)

Lista de páginas detectadas por OCR.

text

string

Se ha detectado texto UTF-8 en las páginas.

Página

Página detectada mediante OCR.

Representación JSON
{
  "property": {
    object (TextProperty)
  },
  "width": integer,
  "height": integer,
  "blocks": [
    {
      object (Block)
    }
  ],
  "confidence": number
}
Campos
property

object (TextProperty)

Se ha detectado información adicional en la página.

width

integer

Ancho de la página. En el caso de los PDFs, la unidad son puntos. En el caso de las imágenes (incluidos los TIFFs), la unidad son los píxeles.

height

integer

Altura de la página. En el caso de los PDFs, la unidad son puntos. En el caso de las imágenes (incluidos los TIFFs), la unidad son los píxeles.

blocks[]

object (Block)

Lista de bloques de texto, imágenes, etc. de esta página.

confidence

number

Confianza de los resultados de OCR en la página. Intervalo [0, 1].

TextProperty

Se ha detectado información adicional en el componente estructural.

Representación JSON
{
  "detectedLanguages": [
    {
      object (DetectedLanguage)
    }
  ],
  "detectedBreak": {
    object (DetectedBreak)
  }
}
Campos
detectedLanguages[]

object (DetectedLanguage)

Lista de idiomas detectados junto con la confianza.

detectedBreak

object (DetectedBreak)

Se ha detectado el inicio o el final de un segmento de texto.

Idioma detectado

Idioma detectado de un componente estructural.

Representación JSON
{
  "languageCode": string,
  "confidence": number
}
Campos
languageCode

string

Se trata del código de idioma BCP-47, como "en-US" o "sr-Latn". Para obtener más información, consulta https://www.unicode.org/reports/tr35/#Unicode_locale_identifier.

confidence

number

Confianza del idioma detectado. Intervalo [0, 1].

DetectedBreak

Se ha detectado el inicio o el final de un componente estructural.

Representación JSON
{
  "type": enum (BreakType),
  "isPrefix": boolean
}
Campos
type

enum (BreakType)

Tipo de salto detectado.

isPrefix

boolean

Devuelve el valor true si el salto precede al elemento.

BreakType

Enum para indicar el tipo de salto encontrado. Nueva línea, espacio, etc.

Enumeraciones
UNKNOWN Tipo de etiqueta de salto desconocido.
SPACE Espacio normal.
SURE_SPACE Espacio seguro (muy amplio).
EOL_SURE_SPACE Salto de ajuste de línea.
HYPHEN Guion de final de línea que no está presente en el texto. No se da simultáneamente con SPACE, LEADER_SPACE ni LINE_BREAK.
LINE_BREAK Salto de línea que termina un párrafo.

Bloquear

Elemento lógico de la página.

Representación JSON
{
  "property": {
    object (TextProperty)
  },
  "boundingBox": {
    object (BoundingPoly)
  },
  "paragraphs": [
    {
      object (Paragraph)
    }
  ],
  "blockType": enum (BlockType),
  "confidence": number
}
Campos
property

object (TextProperty)

Se ha detectado información adicional sobre el bloque.

boundingBox

object (BoundingPoly)

Cuadro delimitador del bloque. Los vértices se indican en el siguiente orden: superior izquierda, superior derecha, inferior derecha e inferior izquierda. Cuando se detecta una rotación del cuadro delimitador, se representa alrededor de la esquina superior izquierda, tal como se define cuando el texto se lee en la orientación "natural". Por ejemplo:

  • Si el texto es horizontal, puede tener este aspecto:
    0----1
    |    |
    3----2
  • Cuando se gira 180 grados alrededor de la esquina superior izquierda, se convierte en lo siguiente:
    2----3
    |    |
    1----0

y el orden de los vértices seguirá siendo (0, 1, 2, 3).

paragraphs[]

object (Paragraph)

Lista de párrafos de este bloque (si el bloque es de tipo texto).

blockType

enum (BlockType)

Tipo de bloque detectado (texto, imagen, etc.) de este bloque.

confidence

number

Confianza de los resultados de OCR en el bloque. Intervalo [0, 1].

Párrafo

Unidad estructural de texto que representa un número de palabras en un orden determinado.

Representación JSON
{
  "property": {
    object (TextProperty)
  },
  "boundingBox": {
    object (BoundingPoly)
  },
  "words": [
    {
      object (Word)
    }
  ],
  "confidence": number
}
Campos
property

object (TextProperty)

Información adicional detectada en el párrafo.

boundingBox

object (BoundingPoly)

El cuadro delimitador del párrafo. Los vértices se indican en el siguiente orden: superior izquierda, superior derecha, inferior derecha e inferior izquierda. Cuando se detecta una rotación del cuadro delimitador, se representa alrededor de la esquina superior izquierda, tal como se define cuando el texto se lee en la orientación "natural". Por ejemplo: * Si el texto es horizontal, podría tener este aspecto: 0----1 | | 3----2 * Si se gira 180 grados alrededor de la esquina superior izquierda, se convierte en: 2----3 | | 1----0 y el orden de los vértices seguirá siendo (0, 1, 2, 3).

words[]

object (Word)

Lista de todas las palabras de este párrafo.

confidence

number

Confianza de los resultados de OCR del párrafo. Intervalo [0, 1].

Word

Representación de una palabra.

Representación JSON
{
  "property": {
    object (TextProperty)
  },
  "boundingBox": {
    object (BoundingPoly)
  },
  "symbols": [
    {
      object (Symbol)
    }
  ],
  "confidence": number
}
Campos
property

object (TextProperty)

Se ha detectado información adicional sobre la palabra.

boundingBox

object (BoundingPoly)

El cuadro delimitador de la palabra. Los vértices se indican en el siguiente orden: superior izquierda, superior derecha, inferior derecha e inferior izquierda. Cuando se detecta una rotación del cuadro delimitador, se representa alrededor de la esquina superior izquierda, tal como se define cuando el texto se lee en la orientación "natural". Por ejemplo: * Si el texto es horizontal, podría tener este aspecto: 0----1 | | 3----2 * Si se gira 180 grados alrededor de la esquina superior izquierda, se convierte en: 2----3 | | 1----0 y el orden de los vértices seguirá siendo (0, 1, 2, 3).

symbols[]

object (Symbol)

Lista de símbolos de la palabra. El orden de los símbolos sigue el orden de lectura natural.

confidence

number

Confianza de los resultados de OCR de la palabra. Intervalo [0, 1].

Símbolo

Representación de un solo símbolo.

Representación JSON
{
  "property": {
    object (TextProperty)
  },
  "boundingBox": {
    object (BoundingPoly)
  },
  "text": string,
  "confidence": number
}
Campos
property

object (TextProperty)

Se ha detectado información adicional sobre el símbolo.

boundingBox

object (BoundingPoly)

Cuadro delimitador del símbolo. Los vértices se indican en el siguiente orden: superior izquierda, superior derecha, inferior derecha e inferior izquierda. Cuando se detecta una rotación del cuadro delimitador, se representa alrededor de la esquina superior izquierda, tal como se define cuando el texto se lee en la orientación "natural". Por ejemplo: * Si el texto es horizontal, podría tener este aspecto: 0----1 | | 3----2 * Si se gira 180 grados alrededor de la esquina superior izquierda, se convierte en: 2----3 | | 1----0 y el orden de los vértices seguirá siendo (0, 1, 2, 3).

text

string

La representación UTF-8 real del símbolo.

confidence

number

Confianza de los resultados de OCR del símbolo. Intervalo [0, 1].

BlockType

Tipo de bloque (texto, imagen, etc.) identificado por el OCR.

Enumeraciones
UNKNOWN Tipo de bloque desconocido.
TEXT Bloque de texto normal.
TABLE Bloque de tabla.
PICTURE Bloque de imagen.
RULER Cuadro de línea horizontal o vertical.
BARCODE Bloque de código de barras.

ImageAnnotationContext

Si una imagen se ha generado a partir de un archivo (por ejemplo, un PDF), este mensaje proporciona información sobre la fuente de la imagen.

Representación JSON
{
  "uri": string,
  "pageNumber": integer
}
Campos
uri

string

El URI del archivo usado para generar la imagen.

pageNumber

integer

Si el archivo era un PDF o un TIFF, este campo indica el número de página del archivo que se ha usado para generar la imagen.