Prueba Gemini 3, nuestro mejor modelo para el razonamiento, la programación y la comprensión multimodal en Gemini Enterprise Agent Platform

Vision AI

Extrae estadísticas de imágenes, documentos y videos

Accede a modelos de vision avanzados a través de APIs para automatizar las tareas de vision, optimizar el análisis y obtener estadísticas prácticas. O bien, crea apps personalizadas con entrenamiento de modelos sin código y bajo costo en un entorno administrado.

Los clientes nuevos obtienen hasta $300 en créditos gratuitos para probar Vision AI y otros productos de Google Cloud.

También puedes intentar implementar las soluciones de resumen de documentos y de procesamiento de imágenes con IA/AA recomendadas por Google.

Descripción general

¿Qué es la visión artificial?

La visión artificial es un campo de la Inteligencia Artificial (IA) que permite que las computadoras y los sistemas interpreten y analicen datos visuales y obtengan información significativa a partir de imágenes digitales, videos y otras entradas visuales. Algunas de sus aplicaciones típicas en el mundo real incluyen: detección de objetos, procesamiento de contenido visual (imágenes, documentos, videos), comprensión y análisis, búsqueda de productos, clasificación y búsqueda de imágenes, y moderación de contenido.

IA generativa multimodal avanzada

Gemini Enterprise Agent Platform de Google Cloud ofrece acceso a Gemini, una familia de modelos multimodales de vanguardia que son capaces de comprender prácticamente cualquier entrada, combinar diferentes tipos de información y generar casi cualquier resultado.

IA generativa enfocada en vision

Imagen en Agent Platform ofrece las funciones de IA generativa de imágenes de vanguardia de Google a los desarrolladores de aplicaciones a través de una API. Algunas de sus funciones clave incluyen la generación de imágenes con instrucciones de texto, la edición de imágenes con instrucciones de texto, la descripción de una imagen en texto y el ajuste del modelo de tema.

Vision AI listo para usar

Con la tecnología de los modelos de AA de visión artificial previamente entrenados de Google, la API de Cloud Vision es una API disponible (REST y RPC) que permite a los desarrolladores integrar fácilmente funciones comunes de detección de visión en las aplicaciones, incluidas las siguientes: etiquetado de imágenes, detección de rostros y puntos de referencia, reconocimiento óptico de caracteres (OCR) y etiquetado de contenido explícito.

Cada función que aplicas a una imagen es una unidad facturable; la API de Cloud Vision te permite usar 1,000 unidades de sus funciones de forma gratuita cada mes. Consulta los detalles de precios.

IA generativa para interpretar documentos

Document AI es una plataforma de comprensión de documentos que combina la visión artificial y otras tecnologías, como el procesamiento de lenguaje natural, para extraer texto y datos de documentos escaneados, lo que transforma los datos no estructurados en información estructurada y estadísticas empresariales.

Ofrece una amplia variedad de procesadores previamente entrenados optimizados para diferentes tipos de documentos. También facilita la compilación de procesadores personalizados para clasificar, dividir y extraer datos estructurados de documentos mediante Document AI Workbench.

orador junto al título del video: Document AI: el futuro de los documentos

Introducción a Document AI

4:37

Vision AI lista para usar para videos

Con la tecnología de visión artificial en esencia, la API de Video Intelligence es una forma fácil de procesar, analizar y comprender el contenido de video.

Sus modelos de AA previamente entrenados reconocen automáticamente una gran cantidad de objetos, lugares y acciones en videos en streaming o almacenados, con una calidad excepcional. Es muy eficiente para casos de uso comunes, como la moderación y recomendación de contenido, archivos multimedia y anuncios contextuales. También puedes entrenar modelos personalizados de AA con Agent Platform Vision para satisfacer tus necesidades específicas.

título del video “Usa AA para crear un archivo de video” sobre un collage de fotos familiares

Demostración: Cómo usar la API de Video Intelligence para crear un archivo de videos que se puedan buscar

6:21

Seguridad y privacidad de los datos

Google Cloud cuenta con capacidades líderes en la industria que les brindan a ustedes, nuestros clientes, el control de sus datos y proporcionan visibilidad sobre cuándo y cómo se accede a ellos.

Como cliente de Google Cloud, eres propietario de los datos de tus clientes. Implementamos medidas de seguridad estrictas para proteger tus datos de cliente y te proporcionamos herramientas y funciones para que los controles según tus condiciones. Los datos de cliente son de tu propiedad, no de Google. Solo procesamos tus datos en función de tus acuerdos.

Obtén más información en nuestro Centro de recursos de privacidad.

Comparar productos de visión artificial

Oferta	Ideal para	Características clave
API de Cloud Vision	Integración rápida y sencilla de funciones básicas de vision.	Funciones prediseñadas como etiquetado de imágenes, detección de rostros y puntos de referencia, OCR y búsqueda segura. Rentabilidad, pago por uso.
Document AI	Extrae estadísticas de imágenes y documentos escaneados, lo que automatiza los flujos de trabajo de los documentos.	OCR (con la tecnología de IA generativa), PLN y AA para la comprensión de documentos, la extracción de texto, la identificación de entidades y la categorización de documentos.
API de Video Intelligence	Análisis de contenido de video, moderación y recomendación de contenido, archivos multimedia y anuncios contextuales.	Detección y seguimiento de objetos, comprensión de escenas, reconocimiento de actividad, detección y análisis de rostros, detección y reconocimiento de texto.
Imagen en Gemini Enterprise Agent Platform	Obtén descripciones de imágenes automáticas. Búsqueda y clasificación de imágenes. Moderación de contenido y recomendaciones.	Generación de imágenes, edición de imágenes, incorporaciones multimodales y subtítulos visuales. Consulta la lista completa de funciones y sus etapas de lanzamiento.

Estos productos, optimizados para diferentes propósitos, te permiten aprovechar los modelos de AA previamente entrenados y ponerte en marcha con la habilidad de ajustarlos fácilmente.

API de Cloud Vision

Ideal para

Integración rápida y sencilla de funciones básicas de vision.

Características clave

Funciones prediseñadas como etiquetado de imágenes, detección de rostros y puntos de referencia, OCR y búsqueda segura.

Rentabilidad, pago por uso.

Document AI

Ideal para

Extrae estadísticas de imágenes y documentos escaneados, lo que automatiza los flujos de trabajo de los documentos.

Características clave

OCR (con la tecnología de IA generativa), PLN y AA para la comprensión de documentos, la extracción de texto, la identificación de entidades y la categorización de documentos.

API de Video Intelligence

Ideal para

Análisis de contenido de video, moderación y recomendación de contenido, archivos multimedia y anuncios contextuales.

Características clave

Detección y seguimiento de objetos, comprensión de escenas, reconocimiento de actividad, detección y análisis de rostros, detección y reconocimiento de texto.

Imagen en Gemini Enterprise Agent Platform

Ideal para

Obtén descripciones de imágenes automáticas.

Búsqueda y clasificación de imágenes.

Moderación de contenido y recomendaciones.

Características clave

Generación de imágenes, edición de imágenes, incorporaciones multimodales y subtítulos visuales.

Consulta la lista completa de funciones y sus etapas de lanzamiento.

Estos productos, optimizados para diferentes propósitos, te permiten aprovechar los modelos de AA previamente entrenados y ponerte en marcha con la habilidad de ajustarlos fácilmente.

Cómo funciona

El paquete de herramientas Vision AI de Google Cloud combina la visión artificial con otras tecnologías para comprender y analizar videos, así como integrar fácilmente funciones de detección de vision en las aplicaciones, como el etiquetado de imágenes, la detección de rostros y puntos de referencia, el reconocimiento óptico de caracteres (OCR) y el etiquetado de contenido explícito.
Estas herramientas están disponibles a través de APIs y se pueden personalizar según necesidades específicas.

Cómo funciona la visión artificial

Demostración

Ve cómo funciona la visión artificial con tus propios archivos

Usos comunes

Detecta texto en archivos sin procesar y resume automáticamente

Resume documentos de gran tamaño con la IA generativa

La solución que se muestra en el diagrama de arquitectura de la derecha implementa una canalización que se activa cuando agregas un documento PDF nuevo a tu bucket de Cloud Storage. La canalización extrae texto de tu documento, crea un resumen a partir del texto extraído y almacena el resumen en una base de datos para que puedas verlo y buscarlo.

Puedes invocar a la aplicación subiendo archivos a través de Jupyter Notebook o directamente a Cloud Storage en la consola de Google Cloud.

Arquitectura de referencia del resumen de documentos con la IA generativa

Arquitectura de referencia: Resumen de documentos con IA generativa

Tiempo estimado de implementación: 11 min (1 min para configurar y 10 min para implementar).

Instructivos

Resume documentos de gran tamaño con la IA generativa

La solución que se muestra en el diagrama de arquitectura de la derecha implementa una canalización que se activa cuando agregas un documento PDF nuevo a tu bucket de Cloud Storage. La canalización extrae texto de tu documento, crea un resumen a partir del texto extraído y almacena el resumen en una base de datos para que puedas verlo y buscarlo.

Puedes invocar a la aplicación subiendo archivos a través de Jupyter Notebook o directamente a Cloud Storage en la consola de Google Cloud.

Arquitectura de referencia: Resumen de documentos con IA generativa

Tiempo estimado de implementación: 11 min (1 min para configurar y 10 min para implementar).

Compila una canalización de procesamiento de imágenes

Procesamiento escalable de imágenes en una arquitectura sin servidores

En la solución, que se muestra en el diagrama de la derecha, se usan modelos de aprendizaje automático previamente entrenados para analizar imágenes proporcionadas por los usuarios y generar anotaciones de imágenes. La implementación de esta solución crea un servicio de procesamiento de imágenes que puede ayudarte a controlar el contenido no seguro o dañino que generan los usuarios, digitalizar el texto de documentos físicos, detectar y clasificar objetos en imágenes, y mucho más.

Podrás revisar la configuración y los ajustes de seguridad para comprender cómo adaptar el servicio de procesamiento de imágenes a diferentes necesidades.

arquitectura de referencia: canalización de procesamiento de imágenes

Tiempo de implementación estimado: 12 min (2 min para configurar y 10 min para implementar)

Instructivos

Procesamiento escalable de imágenes en una arquitectura sin servidores

En la solución, que se muestra en el diagrama de la derecha, se usan modelos de aprendizaje automático previamente entrenados para analizar imágenes proporcionadas por los usuarios y generar anotaciones de imágenes. La implementación de esta solución crea un servicio de procesamiento de imágenes que puede ayudarte a controlar el contenido no seguro o dañino que generan los usuarios, digitalizar el texto de documentos físicos, detectar y clasificar objetos en imágenes, y mucho más.

Podrás revisar la configuración y los ajustes de seguridad para comprender cómo adaptar el servicio de procesamiento de imágenes a diferentes necesidades.

Tiempo de implementación estimado: 12 min (2 min para configurar y 10 min para implementar)

Obtén descripciones de imágenes automáticas con la IA generativa

La función de subtítulos visuales de Imagen te permite generar una descripción relevante para una imagen. Puedes usarla para obtener metadatos más detallados sobre las imágenes a fin de almacenarlas y buscarlas, generar subtítulos automáticos. para respaldar casos de uso de accesibilidad y recibir descripciones rápidas de productos y recursos visuales.

Se puede acceder a esta función, que está disponible en alemán, español, francés, inglés e italiano, desde la consola de Google Cloud o mediante una llamada a la API.

Instructivos

La función de subtítulos visuales de Imagen te permite generar una descripción relevante para una imagen. Puedes usarla para obtener metadatos más detallados sobre las imágenes a fin de almacenarlas y buscarlas, generar subtítulos automáticos. para respaldar casos de uso de accesibilidad y recibir descripciones rápidas de productos y recursos visuales.

Se puede acceder a esta función, que está disponible en alemán, español, francés, inglés e italiano, desde la consola de Google Cloud o mediante una llamada a la API.

Extrae texto y estadísticas de documentos con la IA generativa

Obtén estadísticas de documentos específicos con Document AI

Con la tecnología de un modelo de base, el extractor personalizado de Document AI extrae texto y datos de documentos genéricos y específicos de dominios, de forma más rápida y con mayor precisión. Configúralos fácilmente con solo 5 a 10 documentos para lograr un rendimiento aún mejor.

Si quieres entrenar tu propio modelo, etiqueta automáticamente tus conjuntos de datos con el modelo de base para acelerar el tiempo de salida.

También puedes optar por usar procesadores especializados previamente entrenados. Consulta la lista completa de procesadores.

Instructivos

Obtén estadísticas de documentos específicos con Document AI

Con la tecnología de un modelo de base, el extractor personalizado de Document AI extrae texto y datos de documentos genéricos y específicos de dominios, de forma más rápida y con mayor precisión. Configúralos fácilmente con solo 5 a 10 documentos para lograr un rendimiento aún mejor.

Si quieres entrenar tu propio modelo, etiqueta automáticamente tus conjuntos de datos con el modelo de base para acelerar el tiempo de salida.

También puedes optar por usar procesadores especializados previamente entrenados. Consulta la lista completa de procesadores.

Precios

Cómo funcionan los precios de Vision AI	Cada oferta de vision tiene un conjunto de funciones o procesadores con precios diferentes. Consulta las páginas de precios detallados para obtener más información.
Nivel gratuito	Producto/Servicio	Precios con descuento	Detalles
API de Vision	Las primeras 1,000 unidades todos los meses son gratis	Más de 5,000,001 unidades por mes	Página de detalles de precios
Document AI	N/A El precio depende del procesador.	Más de 5,000,001 páginas al mes por el procesador Enterprise Document OCR	Página de detalles de precios
API de Video Intelligence	Primeros 1,000 minutos por mes son gratis	Más de 100,000 minutos por mes	Página de detalles de precios
Imagen: incorporaciones multimodales			$0.0001 (USD) por entrada de imagen
Imagen: subtítulos visuales			$0.0015 (USD) por imagen
Gemini Pro Vision			Página de detalles de precios

Cómo funcionan los precios de Vision AI

Cada oferta de vision tiene un conjunto de funciones o procesadores con precios diferentes. Consulta las páginas de precios detallados para obtener más información.

API de Vision

Producto/Servicio

Las primeras 1,000 unidades

todos los meses son gratis

Precios con descuento

Más de 5,000,001 unidades

por mes

Detalles

Página de detalles de precios

Document AI

Producto/Servicio

N/A

El precio depende del procesador.

Precios con descuento

Más de 5,000,001 páginas

al mes por el procesador Enterprise Document OCR

Detalles

Página de detalles de precios

API de Video Intelligence

Producto/Servicio

Primeros 1,000 minutos

por mes son gratis

Precios con descuento

Más de 100,000 minutos

por mes

Detalles

Página de detalles de precios

Imagen: incorporaciones multimodales

Producto/Servicio

Precios con descuento

Detalles

$0.0001 (USD)

por entrada de imagen

Imagen: subtítulos visuales

Producto/Servicio

Precios con descuento

Detalles

$0.0015 (USD)

por imagen

Gemini Pro Vision

Producto/Servicio

Precios con descuento

Detalles

Página de detalles de precios

CALCULADORA DE PRECIOS

Obtén todas las herramientas que necesitas en un solo lugar para estimar el costo de tu proyecto.

COTIZACIÓN PERSONALIZADA

Comunícate con nuestro equipo de Ventas a fin de obtener una cotización personalizada para las necesidades únicas de tu organización.

Vision AI

Extrae estadísticas de imágenes, documentos y videos

Aspectos destacados

¿Qué es la visión artificial?

IA generativa multimodal avanzada

IA generativa enfocada en vision

Vision AI listo para usar

IA generativa para interpretar documentos

Vision AI lista para usar para videos

Seguridad y privacidad de los datos

Ve cómo funciona la visión artificial con tus propios archivos

Detecta texto en archivos sin procesar y resume automáticamente

Resume documentos de gran tamaño con la IA generativa

Instructivos

Resume documentos de gran tamaño con la IA generativa

Compila una canalización de procesamiento de imágenes

Procesamiento escalable de imágenes en una arquitectura sin servidores

Instructivos

Procesamiento escalable de imágenes en una arquitectura sin servidores

Obtén descripciones de imágenes automáticas con la IA generativa

Instructivos

Extrae texto y estadísticas de documentos con la IA generativa

Obtén estadísticas de documentos específicos con Document AI

Instructivos

Obtén estadísticas de documentos específicos con Document AI

CALCULADORA DE PRECIOS

COTIZACIÓN PERSONALIZADA

Comienza tu prueba de concepto

Los clientes nuevos obtienen hasta $300 en créditos gratuitos para probar Vision AI y otros productos de Google Cloud

1,000 páginas por mes son gratuitas con el OCR de documentos

Aprende a transmitir videos en vivo con la API de Video Intelligence

Aprende a crear una app de detección de objetos en Gemini Enterprise Agent Platform

Obtén muestras de código para la API de Vision