Lista de funciones

En la actualidad, la API de Vision te permite usar las siguientes funciones:

Todos los tipos de funciones

Detección de textos

Imagen de una señal de tráfico
  • Reconocimiento óptico de caracteres (OCR) para una imagen; reconocimiento de texto y conversión a texto codificado para máquina. Identifica y extrae texto UTF-8 en una imagen.
  • Imágenes: Optimizado para áreas de texto dispersas dentro de una imagen más grande.
  • Respuesta: Muestra una lista de palabras identificadas con texto, cuadros de límite y puntuaciones de confianza (textAnnotations), así como la jerarquía estructural del texto detectado de OCR (fullTextAnnotation).
    • Jerarquía de la estructura de texto extraída:
      • Atribución de texto -> Página -> Bloque -> Párrafo -> Palabra -> Símbolo.
      • Cada componente estructural de la página puede tener sus propias características, como idiomas detectados, saltos de línea, etcétera.
  • Idiomas admitidos: Funciona con idiomas experimentales, asignados y admitidos en la actualidad.
  • Valor enumerado de la función: TEXT_DETECTION.

Detección de texto en documentos (texto denso/escritura a mano)

Imagen densa con anotaciones
Imagen de escritura a mano
  • Reconocimiento óptico de caracteres (OCR) para un archivo (PDF/TIFF) o imagen de texto denso; reconocimiento de texto denso y conversión a texto codificado para máquina.
  • Archivos: Optimizado para archivos de documentos (PDF/TIFF).
  • Imágenes: Optimizado para áreas de texto densas en una imagen (imágenes que son documentos) e imágenes que contienen escritura a mano.
  • Respuesta: Muestra la jerarquía estructural del texto detectado de OCR (fullTextAnnotation).
    • Jerarquía de la estructura de texto extraída:
      • Atribución de texto -> Página -> Bloque -> Párrafo -> Palabra -> Símbolo.
      • Cada componente estructural de la página puede tener sus propias características, como idiomas detectados, saltos de línea, etcétera.
  • Idiomas admitidos: Funciona con idiomas experimentales, asignados y admitidos en la actualidad.
  • Valor enumerado de la función: DOCUMENT_TEXT_DETECTION.
    • Tiene prioridad cuando se solicitan DOCUMENT_TEXT_DETECTION y TEXT_DETECTION.

Detección de puntos de referencia 1

Imagen de la Catedral de San Basilio
  • Proporciona el nombre del punto de referencia, una puntuación de confianza y un cuadro de límite en la imagen del punto de referencia.
  • Proporciona coordenadas para la entidad detectada.

Detección de logotipos 2

logotipo anotado
  • Proporciona una descripción textual de la entidad identificada, una puntuación de confianza y un polígono de límite para el logotipo en el archivo.

Detección de etiquetas 3

Imagen de una calle en Shanghái
  • Proporciona etiquetas generalizadas para una imagen.
  • Para cada etiqueta, se muestra una descripción textual, una puntuación de confianza y una calificación del tema.

Propiedades de imágenes 4

Imagen de Bali con propiedades
  • Muestra los colores predominantes de una imagen.
  • Cada color está representado en el espacio de color RGBA, tiene una puntuación de confianza y muestra la fracción de píxeles ocupados por el color [0, 1].

Ubicación de objetos 5

Imagen con cuadros de límite
  • Proporciona etiquetas generales y anotaciones de cuadro de límite para varios objetos reconocidos en una sola imagen.
  • Para cada objeto detectado, se muestran los siguientes elementos: una descripción textual, una puntuación de confianza y vértices normalizados [0,1] para el polígono delimitador alrededor del objeto.

Detección de sugerencia de recorte 6

Imagen con versión recortada
  • Proporciona un polígono de límite para la imagen recortada, una puntuación de confianza y una fracción de importancia de esta región destacada con respecto a la imagen original para cada solicitud.
  • Puedes proporcionar hasta 16 valores de proporción de imagen (ancho:alto) para una sola imagen.

Páginas y entidades web 7

Imagen con tabla de entidades web
  • Proporciona una serie de contenido web relacionado con una imagen.
  • Muestra la siguiente información:
    • Entidades web: Entidades inferidas (etiquetas/descripciones) a partir de imágenes similares en la Web.
    • Imágenes completas que coinciden: Una lista de URL de imágenes que coinciden por completo de cualquier tamaño en Internet.
    • Imágenes de coincidencia parcial: Una lista de URL de imágenes que comparten características de punto clave, como una versión recortada de la imagen original.
    • Páginas con imágenes coincidentes: Una lista de páginas web (que se identifican por la URL de la página, título de la página, URL de la imagen coincidente) con una imagen que cuenta con las condiciones que se describieron antes.
    • Imágenes visualmente similares: Una lista de URL de imágenes que comparten algunas características con la imagen original.
    • Etiqueta de mejor estimación: Una estimación aproximada del tema de la imagen solicitada inferida de imágenes similares de Internet.

Detección de contenido explícito (SafeSearch)

  • Proporciona clasificaciones de probabilidad para las siguientes categorías de contenido explícito: adult, spoof, medical, violence y racy.
  • Las calificaciones de probabilidad se expresan en 6 valores diferentes: UNKNOWN, VERY_UNLIKELY, UNLIKELY, POSSIBLE, LIKELY o VERY_LIKELY.

Detección de rostro

Imagen de muestra con detección de rostro
  • Ubica los rostros con polígonos de límite y, también, identifica “puntos de referencia” faciales específicos, como ojos, oídos, nariz, boca, etc., junto con los valores de confianza correspondientes.
  • Muestra clasificaciones de probabilidad para la emoción (alegría, tristeza, enojo, sorpresa) y las propiedades generales de la imagen (subexpuesta, desenfocada, sombrero presente).
  • Las calificaciones de probabilidad se expresan en 6 valores diferentes: UNKNOWN, VERY_UNLIKELY, UNLIKELY, POSSIBLE, LIKELY o VERY_LIKELY.
  • No se admite el Reconocimiento facial individual específico.

1. Crédito de la imagen: Nikolay Vorobyev en Unsplash (anotaciones agregadas).

2. Crédito de la imagen: Robert Scoble (CC BY 2.0, anotación agregada).

3. Crédito de la imagen: Alex Knight en Unsplash.

4. Crédito de la imagen: Jeremy Bishop en Unsplash.

5. Crédito de la imagen: Bogdan Dada en Unsplash (anotaciones agregadas).

6. Crédito de la imagen: Yasmin Dangor en Unsplash (se muestra la imagen original y la imagen recortada).

7. Crédito de la imagen: Quinten de Graaf en Unsplash.