Prueba Gemini 1.5 Pro, nuestro modelo multimodal más avanzado en Vertex AI, y descubre lo que puedes compilar con una ventana de contexto de un millón de tokens. Prueba Gemini 1.5 Pro, nuestro modelo multimodal más avanzado en Vertex AI, y descubre lo que puedes compilar con una ventana de contexto de un millón de tokens.

Lista de funciones

En la actualidad, la API de Vision te permite usar las siguientes funciones:

Todos los tipos de funciones
Detección de textos	Reconocimiento óptico de caracteres (OCR) para una imagen; reconocimiento de texto y conversión a texto codificado para máquina. Identifica y extrae texto UTF-8 en una imagen. Imágenes: Optimizado para áreas de texto dispersas dentro de una imagen más grande. Respuesta: Muestra una lista de palabras identificadas con texto, cuadros de límite y puntuaciones de confianza (`textAnnotations`), así como la jerarquía estructural del texto detectado de OCR (`fullTextAnnotation`). Jerarquía de la estructura de texto extraída: Atribución de texto -> Página -> Bloque -> Párrafo -> Palabra -> Símbolo. Cada componente estructural de la página puede tener sus propias características, como idiomas detectados, saltos de línea, etcétera. Idiomas admitidos: Funciona con idiomas experimentales, asignados y admitidos en la actualidad. Valor enumerado de la función: `TEXT_DETECTION`.
Detección de texto en documentos (texto denso/escritura a mano)	Reconocimiento óptico de caracteres (OCR) para un archivo (PDF/TIFF) o imagen de texto denso; reconocimiento de texto denso y conversión a texto codificado para máquina. Archivos: Optimizado para archivos de documentos (PDF/TIFF). Imágenes: Optimizado para áreas de texto *densas* en una imagen (imágenes que son documentos) e imágenes que contienen escritura a mano. Respuesta: Muestra la jerarquía estructural del texto detectado de OCR (`fullTextAnnotation`). Jerarquía de la estructura de texto extraída: Atribución de texto -> Página -> Bloque -> Párrafo -> Palabra -> Símbolo. Cada componente estructural de la página puede tener sus propias características, como idiomas detectados, saltos de línea, etcétera. Idiomas admitidos: Funciona con idiomas experimentales, asignados y admitidos en la actualidad. Valor enumerado de la función: `DOCUMENT_TEXT_DETECTION`. Tiene prioridad cuando se solicitan `DOCUMENT_TEXT_DETECTION` y `TEXT_DETECTION`. Si detectas texto en documentos escaneados, prueba Document AI para el reconocimiento óptico de caracteres, el análisis de formularios estructurados y la extracción de entidades. Puedes usar la caja de herramientas de Document AI para convertir el resultado del formato de Document AI al formato de Cloud Vision.
Detección de puntos de referencia ¹	Proporciona el nombre del punto de referencia, una puntuación de confianza y un cuadro de límite en la imagen del punto de referencia. Proporciona coordenadas para la entidad detectada.
Detección de logotipos ²	Proporciona una descripción textual de la entidad identificada, una puntuación de confianza y un polígono de límite para el logotipo en el archivo.
Detección de etiquetas ³	Proporciona etiquetas generalizadas para una imagen. Para cada etiqueta, se muestra una descripción textual, una puntuación de confianza y una calificación del tema.
Propiedades de imágenes ⁴	Muestra los colores predominantes de una imagen. Cada color está representado en el espacio de color RGBA, tiene una puntuación de confianza y muestra la fracción de píxeles ocupados por el color [0, 1].
Ubicación de objetos ⁵	Proporciona etiquetas generales y anotaciones de cuadro de límite para varios objetos reconocidos en una sola imagen. Para cada objeto detectado, se muestran los siguientes elementos: una descripción textual, una puntuación de confianza y vértices normalizados [0,1] para el polígono delimitador alrededor del objeto. ¿Necesitas la detección personalizada de objetos? Con la detección de objetos de AutoML Vision, puedes crear un modelo de aprendizaje automático personalizado para el caso práctico específico de detección de objetos de imagen.
Detección de sugerencia de recorte ⁶	Proporciona un polígono de límite para la imagen recortada, una puntuación de confianza y una fracción de importancia de esta región destacada con respecto a la imagen original para cada solicitud. Puedes proporcionar hasta 16 valores de proporción de imagen (ancho:alto) para una sola imagen.
Páginas y entidades web ⁷	Proporciona una serie de contenido web relacionado con una imagen. Muestra la siguiente información: Entidades web: Entidades inferidas (etiquetas/descripciones) a partir de imágenes similares en la Web. Imágenes completas que coinciden: Una lista de URL de imágenes que coinciden por completo de cualquier tamaño en Internet. Imágenes de coincidencia parcial: Una lista de URL de imágenes que comparten características de punto clave, como una versión recortada de la imagen original. Páginas con imágenes coincidentes: Una lista de páginas web (que se identifican por la URL de la página, título de la página, URL de la imagen coincidente) con una imagen que cuenta con las condiciones que se describieron antes. Imágenes visualmente similares: Una lista de URL de imágenes que comparten algunas características con la imagen original. Etiqueta de mejor estimación: Una estimación aproximada del tema de la imagen solicitada inferida de imágenes similares de Internet.
Detección de contenido explícito (SafeSearch)	Proporciona clasificaciones de probabilidad para las siguientes categorías de contenido explícito: `adult`, `spoof`, `medical`, `violence` y `racy`. Las calificaciones de probabilidad se expresan en 6 valores diferentes: `UNKNOWN`, `VERY_UNLIKELY`, `UNLIKELY`, `POSSIBLE`, `LIKELY` o `VERY_LIKELY`.
Detección de rostro	Ubica los rostros con polígonos de límite y, también, identifica “puntos de referencia” faciales específicos, como ojos, oídos, nariz, boca, etc., junto con los valores de confianza correspondientes. Muestra clasificaciones de probabilidad para la emoción (alegría, tristeza, enojo, sorpresa) y las propiedades generales de la imagen (subexpuesta, desenfocada, sombrero presente). Las calificaciones de probabilidad se expresan en 6 valores diferentes: `UNKNOWN`, `VERY_UNLIKELY`, `UNLIKELY`, `POSSIBLE`, `LIKELY` o `VERY_LIKELY`. No se admite el Reconocimiento facial individual específico.

^{1.
Crédito de la imagen: Nikolay Vorobyev en Unsplash (anotaciones agregadas).
↩}

^{2.
Crédito de la imagen: Robert Scoble (CC BY 2.0, anotación agregada).
↩}

^{3.
Crédito de la imagen: Alex Knight en Unsplash.
↩}

^{4.
Crédito de la imagen: Jeremy Bishop en Unsplash.
↩}

^{5.
Crédito de la imagen: Bogdan Dada en Unsplash (anotaciones agregadas).
↩}

^{6.
Crédito de la imagen: Yasmin Dangor en Unsplash (se muestra la imagen original y la imagen recortada).
↩}

^{7.
Crédito de la imagen: Quinten de Graaf en Unsplash.
↩}