Esta página se ha traducido con Cloud Translation API.

Lista de funciones

Actualmente, la API Vision te permite usar las siguientes funciones:

Todos los tipos de funciones
Detección de texto	Reconocimiento óptico de caracteres (OCR) de una imagen: reconocimiento de texto y conversión a texto codificado automáticamente. Identifica y extrae texto UTF-8 de una imagen. Imágenes: optimizadas para las zonas dispersas de texto dentro de una imagen más grande. Respuesta: devuelve una lista de palabras identificadas con texto, cuadros delimitadores y `textAnnotations`, así como la jerarquía estructural del texto detectado por el OCR (`fullTextAnnotation`). Jerarquía de la estructura del texto extraído: TextAnnotation -> Page -> Block -> Paragraph -> Word -> Symbol. Cada componente estructural de Page on puede tener sus propias propiedades, como los idiomas detectados, los saltos, etc. Idiomas admitidos: funciona con los idiomas admitidos, asignados y experimentales. Valor de enumeración de la función: `TEXT_DETECTION`.
Detección de texto en documentos (texto denso o escritura a mano)	Reconocimiento óptico de caracteres (OCR) de un archivo (PDF o TIFF) o de una imagen con mucho texto. Reconocimiento de texto denso y conversión a texto codificado automáticamente. Archivos: optimizado para archivos de documentos (PDF o TIFF). Imágenes: optimizada para las zonas *densas* de texto en una imagen (imágenes que son documentos) e imágenes que contienen escritura a mano. Respuesta: devuelve la jerarquía estructural del texto detectado por OCR (`fullTextAnnotation`). Jerarquía de la estructura del texto extraído: TextAnnotation -> Page -> Block -> Paragraph -> Word -> Symbol. Cada componente estructural de Page on puede tener sus propias propiedades, como los idiomas detectados, los saltos, etc. Idiomas admitidos: funciona con los idiomas admitidos, asignados y experimentales. Valor de enumeración de la función: `DOCUMENT_TEXT_DETECTION`. Tiene prioridad cuando se solicitan tanto `DOCUMENT_TEXT_DETECTION` como `TEXT_DETECTION`. Si quieres detectar texto en documentos escaneados, prueba Document AI para el reconocimiento óptico de caracteres, el análisis de formularios estructurados y la extracción de entidades. Puedes usar la caja de herramientas de Document AI para convertir la salida del formato de Document AI al formato de Cloud Vision.
Detección de puntos de referencia ¹	Proporciona el nombre del punto de referencia, una puntuación de confianza y un cuadro delimitador en la imagen del punto de referencia. Proporciona las coordenadas de la entidad detectada.
Detección de logotipos ²	Proporciona una descripción textual de la entidad identificada, una puntuación de confianza y un polígono delimitador del logotipo en el archivo.
Detección de etiquetas ³	Proporciona etiquetas generalizadas para una imagen. Por cada etiqueta, se devuelve una descripción textual, una puntuación de confianza y una valoración de actualidad.
Propiedades de la imagen ⁴	Devuelve los colores predominantes de una imagen. Cada color se representa en el espacio de color RGBA, tiene una puntuación de confianza y muestra la fracción de píxeles que ocupa el color [0, 1].
Localización de objetos ⁵	Proporciona etiquetas generales y anotaciones de cuadros delimitadores para varios objetos reconocidos en una sola imagen. Por cada objeto detectado, se devuelven los siguientes elementos: una descripción textual, una puntuación de confianza y vértices normalizados [0,1] del polígono envolvente del objeto. ¿Necesitas una detección de objetos personalizada? Con la detección de objetos de AutoML Vision puedes crear un modelo personalizado de aprendizaje automático para tu caso práctico específico de detección de objetos en imágenes.
Detección de sugerencias de recorte ⁶	Proporciona un polígono delimitador de la imagen recortada, una puntuación de confianza y una fracción de importancia de esta región destacada con respecto a la imagen original en cada solicitud. Puede proporcionar hasta 16 valores de relación de aspecto de imagen (anchura:altura) para una sola imagen.
Entidades y páginas web ⁷	Proporciona una serie de contenido web relacionado con una imagen. Devuelve la siguiente información: Entidades web: entidades inferidas (etiquetas o descripciones) a partir de imágenes similares en la Web. Imágenes de coincidencia completa: una lista de URLs de imágenes de coincidencia completa de cualquier tamaño en Internet. Imágenes con coincidencias parciales: lista de URLs de imágenes que comparten características de puntos clave, como una versión recortada de la imagen original. Páginas con imágenes coincidentes: una lista de páginas web (identificadas por la URL de la página, el título de la página y la URL de la imagen coincidente) con una imagen que cumpla las condiciones descritas anteriormente. Imágenes visualmente similares: una lista de URLs de imágenes que comparten algunas características con la imagen original. Etiqueta de mejor opción: la mejor opción para el tema de la imagen solicitada, inferida a partir de imágenes similares en Internet.
Detección de contenido explícito (Búsqueda Segura)	Proporciona clasificaciones de probabilidad para las siguientes categorías de contenido explícito: `adult`, `spoof`, `medical`, `violence` y `racy`. Las clasificaciones de probabilidad se expresan con 6 valores diferentes: `UNKNOWN`, `VERY_UNLIKELY`, `UNLIKELY`, `POSSIBLE`, `LIKELY` o `VERY_LIKELY`.
Detección de caras	Localiza caras con polígonos delimitadores e identifica puntos de referencia faciales específicos, como los ojos, las orejas, la nariz o la boca, entre otros, junto con sus valores de confianza correspondientes. Devuelve las puntuaciones de probabilidad de las emociones (alegría, tristeza, enfado y sorpresa) y las propiedades generales de la imagen (subexpuesta, borrosa y con tocado). Las clasificaciones de probabilidad se expresan con 6 valores diferentes: `UNKNOWN`, `VERY_UNLIKELY`, `UNLIKELY`, `POSSIBLE`, `LIKELY` o `VERY_LIKELY`. Persona específica Reconocimiento facial no se admite.

^{1.
Crédito de la imagen:
Nikolay Vorobyev en
Unsplash (se han añadido anotaciones).
↩}

^{2.
Crédito de la imagen:
Robert Scoble
(CC BY 2.0, anotación añadida).
↩}

^{3.
Crédito de la imagen:
Alex Knight en Unsplash.
↩}

^{4.
Créditos de la imagen:
Jeremy Bishop en Unsplash.
↩}

^{5.
Atribución de la imagen:
Bogdan Dada en Unsplash
(se han añadido anotaciones).
↩}

^{6.
Crédito de la imagen:

Yasmin Dangor en Unsplash (se muestra la imagen original y la recortada).
↩}

^{7.
Crédito de la imagen:
Quinten de Graaf en
Unsplash.
↩}