Lista de funciones

Actualmente, la API Vision te permite usar las siguientes funciones:

Todos los tipos de funciones

Detección de texto

Imagen de señal de tráfico
  • Reconocimiento óptico de caracteres (OCR) de una imagen: reconocimiento de texto y conversión a texto codificado automáticamente. Identifica y extrae texto UTF-8 de una imagen.
  • Imágenes: optimizadas para las zonas dispersas de texto dentro de una imagen más grande.
  • Respuesta: devuelve una lista de palabras identificadas con texto, cuadros delimitadores y textAnnotations, así como la jerarquía estructural del texto detectado por OCR (fullTextAnnotation).
    • Jerarquía de la estructura del texto extraído:
      • TextAnnotation -> Page -> Block -> Paragraph -> Word -> Symbol.
      • Cada componente estructural de Page on puede tener sus propias propiedades, como los idiomas detectados, los saltos, etc.
  • Idiomas admitidos: funciona con los idiomas admitidos, asignados y experimentales.
  • Valor de enumeración de la función: TEXT_DETECTION.

Detección de texto en documentos (texto denso o escritura a mano)

Imagen densa con anotaciones
imagen de escritura a mano
  • Reconocimiento óptico de caracteres (OCR) de un archivo (PDF o TIFF) o de una imagen con mucho texto. Reconocimiento de texto denso y conversión a texto codificado automáticamente.
  • Archivos: optimizado para archivos de documentos (PDF o TIFF).
  • Imágenes: optimizada para las zonas densas de texto de una imagen (imágenes que son documentos) e imágenes que contienen escritura a mano.
  • Respuesta: devuelve la jerarquía estructural del texto detectado por OCR (fullTextAnnotation).
    • Jerarquía de la estructura del texto extraído:
      • TextAnnotation -> Page -> Block -> Paragraph -> Word -> Symbol.
      • Cada componente estructural de Page on puede tener sus propias propiedades, como los idiomas detectados, los saltos, etc.
  • Idiomas admitidos: funciona con los idiomas admitidos, asignados y experimentales.
  • Valor de enumeración de la función: DOCUMENT_TEXT_DETECTION.
    • Tiene prioridad cuando se solicitan tanto DOCUMENT_TEXT_DETECTION como TEXT_DETECTION.

Detección de puntos de referencia 1

Imagen de la catedral de San Basilio
  • Proporciona el nombre del monumento, una puntuación de confianza y un cuadro delimitador en la imagen del monumento.
  • Proporciona las coordenadas de la entidad detectada.

Detección de logotipos 2

Logotipo anotado
  • Proporciona una descripción textual de la entidad identificada, una puntuación de confianza y un polígono delimitador del logotipo en el archivo.

Detección de etiquetas 3

Imagen de una calle de Shanghái
  • Proporciona etiquetas generalizadas para una imagen.
  • Por cada etiqueta, se devuelve una descripción textual, una puntuación de confianza y una valoración de actualidad.

Propiedades de la imagen 4

Imagen de Bali con propiedades
  • Devuelve los colores predominantes de una imagen.
  • Cada color se representa en el espacio de color RGBA, tiene una puntuación de confianza y muestra la fracción de píxeles que ocupa el color [0, 1].

Localización de objetos 5

Imagen con cuadros delimitadores
  • Proporciona etiquetas generales y anotaciones de cuadros delimitadores para varios objetos reconocidos en una sola imagen.
  • Por cada objeto detectado, se devuelven los siguientes elementos: una descripción textual, una puntuación de confianza y vértices normalizados [0,1] del polígono envolvente del objeto.

Detección de sugerencias de recorte 6

Imagen con versión recortada
  • Proporciona un polígono delimitador de la imagen recortada, una puntuación de confianza y una fracción de importancia de esta región destacada con respecto a la imagen original en cada solicitud.
  • Puede proporcionar hasta 16 valores de relación de aspecto de imagen (anchura:altura) para una sola imagen.

Entidades y páginas web 7

Imagen con la tabla de entidades web
  • Proporciona una serie de contenido web relacionado con una imagen.
  • Devuelve la siguiente información:
    • Entidades web: entidades inferidas (etiquetas o descripciones) a partir de imágenes similares en la Web.
    • Imágenes de coincidencia completa: una lista de URLs de imágenes de coincidencia completa de cualquier tamaño en Internet.
    • Imágenes con coincidencias parciales: lista de URLs de imágenes que comparten características de puntos clave, como una versión recortada de la imagen original.
    • Páginas con imágenes coincidentes: lista de páginas web (identificadas por la URL de la página, el título de la página y la URL de la imagen coincidente) con una imagen que cumpla las condiciones descritas anteriormente.
    • Imágenes visualmente similares: una lista de URLs de imágenes que comparten algunas características con la imagen original.
    • Etiqueta de mejor opción: la mejor opción para el tema de la imagen solicitada, inferida a partir de imágenes similares en Internet.

Detección de contenido explícito (Búsqueda Segura)

  • Proporciona clasificaciones de probabilidad para las siguientes categorías de contenido explícito: adult, spoof, medical, violence y racy.
  • Las clasificaciones de probabilidad se expresan con 6 valores diferentes: UNKNOWN, VERY_UNLIKELY, UNLIKELY, POSSIBLE, LIKELY o VERY_LIKELY.

Detección de caras

Imagen de muestra con detección de caras
  • Localiza caras con polígonos delimitadores e identifica puntos de referencia faciales específicos, como los ojos, las orejas, la nariz o la boca, entre otros, junto con sus valores de confianza correspondientes.
  • Devuelve las puntuaciones de probabilidad de las emociones (alegría, tristeza, enfado y sorpresa) y las propiedades generales de la imagen (subexpuesta, borrosa y con tocado).
  • Las clasificaciones de probabilidad se expresan con 6 valores diferentes: UNKNOWN, VERY_UNLIKELY, UNLIKELY, POSSIBLE, LIKELY o VERY_LIKELY.
  • Persona concreta Reconocimiento facial no se admite.

1. Crédito de la imagen: Nikolay Vorobyev en Unsplash (anotaciones añadidas).

2. Crédito de la imagen: Robert Scoble (CC BY 2.0, anotación añadida).

3. Crédito de la imagen: Alex Knight en Unsplash.

4. Créditos de la imagen: Jeremy Bishop en Unsplash.

5. Atribución de la imagen: Bogdan Dada en Unsplash (anotaciones añadidas).

6. Crédito de la imagen: Yasmin Dangor en Unsplash (se muestra la imagen original y la recortada).

7. Crédito de la imagen: Quinten de Graaf en Unsplash.