Prueba Gemini 3, nuestro mejor modelo de razonamiento, programación y comprensión multimodal en Gemini Enterprise Agent Platform

Vision AI

Extrae información valiosa de imágenes, documentos y vídeos

Accede a modelos de visión avanzados a través de APIs para automatizar tareas de visión, optimizar los análisis y obtener métricas útiles. También puedes crear aplicaciones personalizadas sin código de preparación de modelos y de bajo coste en un entorno gestionado.

Los nuevos clientes reciben hasta 300 USD en crédito sin coste para probar Vision AI y otros productos de Google Cloud.

También puedes probar a desplegar las soluciones de resumen de documentos y de procesamiento de imágenes con IA y aprendizaje automático recomendadas por Google.

Información general

¿Qué es la visión artificial?

La visión artificial es un campo de la inteligencia artificial (IA) que permite a los ordenadores y sistemas interpretar y analizar datos visuales y obtener información pertinente a partir de imágenes digitales, vídeos y otros datos visuales. Algunas de sus aplicaciones habituales en el mundo real son la detección de objetos, el procesamiento de contenido visual (imágenes, documentos, vídeos), la comprensión y el análisis, la búsqueda de productos, la clasificación y búsqueda de imágenes y la moderación de contenido.

IA generativa multimodal avanzada

Gemini Enterprise Agent Platform de Google Cloud ofrece acceso a Gemini, una familia de modelos multimodales y vanguardistas que pueden comprender prácticamente cualquier tipo de entrada, combinar diferentes tipos de información y generar casi cualquier salida.

IA generativa centrada en la visión

Imagen en Agent Platform ofrece a los desarrolladores de aplicaciones las funciones de IA generativa de imágenes de vanguardia de Google a través de una API. Algunas de sus funciones clave son la generación de imágenes con peticiones de texto, la edición de imágenes con peticiones de texto, la descripción de una imagen en texto y el ajuste del modelo sujeto.

Vision AI lista para usar

La API de Cloud Vision, que usa la tecnología de Google de modelos de aprendizaje automático de visión artificial entrenados previamente, es una API de disponibilidad inmediata (REST y RPC) que permite a los desarrolladores integrar fácilmente funciones habituales de detección de visión en sus aplicaciones, como etiquetado de imágenes, detección de caras y puntos de referencia, reconocimiento óptico de caracteres (OCR) y etiquetado de contenido explícito.

Cada función que aplicas a una imagen es una unidad facturable: la API de Cloud Vision te permite usar 1000 unidades de sus funciones sin coste económico al mes. Consulta la información sobre precios.

IA generativa para interpretar documentos

Document AI es una plataforma de comprensión de documentos que combina la visión artificial y otras tecnologías, como el procesamiento del lenguaje natural, para extraer texto y datos de documentos escaneados y transformar los datos no estructurados en información estructurada y estadísticas empresariales.

Ofrece una amplia gama de procesadores entrenados previamente optimizados para diferentes tipos de documentos. También facilita la creación de procesadores personalizados para clasificar, dividir y extraer datos estructurados de documentos mediante Document AI Workbench.

ponente junto al título del vídeo: Document AI: el futuro de los documentos

Introducción a Document AI

4:37

Vision AI lista para usar en vídeos

La API de Video Intelligence, centrada en la tecnología de visión artificial, permite procesar, analizar y comprender fácilmente el contenido de vídeo.

Sus modelos de aprendizaje automático preentrenados reconocen automáticamente una gran cantidad de objetos, lugares y acciones en vídeos almacenados y en streaming con una calidad excepcional. Es muy eficaz en casos prácticos habituales, como la moderación y las recomendaciones de contenido, los archivos multimedia y los anuncios contextuales. También puedes entrenar modelos de aprendizaje automático personalizados con Agent Platform Vision según tus necesidades.

Título del vídeo "Usa aprendizaje automático para crear un archivo de vídeo" sobre un collage de fotos familiares

Demostración: cómo usar la API de Video Intelligence para crear un archivo de vídeo disponible para búsquedas

6:21

Privacidad y seguridad de los datos

Google Cloud cuenta con funciones punteras en el sector que permiten a nuestros clientes controlar sus datos y saber cuándo y cómo se accede a ellos.

Como cliente de Google Cloud, tú eres el propietario de tus datos de clientes Por tanto, implementamos unas medidas de seguridad estrictas para proteger tus datos de clientes y te proporcionamos las herramientas y funciones para que puedas controlar esos datos como desees. Tú eres el propietario de los datos de clientes, no Google. A la hora de tratar tus datos, seguimos estrictamente tus contratos.

Consulta más información en nuestro centro de recursos de privacidad.

Compara productos de visión artificial

Producto	Dispositivos admitidos	Características principales
API de Cloud Vision	Integración rápida y sencilla de funciones de visión básicas.	Funciones predefinidas como el etiquetado de imágenes, la detección de caras y puntos de referencia, el OCR y la búsqueda segura. Es rentable y se paga por uso.
Document AI	Extrae información valiosa de documentos e imágenes escaneados y automatiza los flujos de trabajo de los documentos.	OCR (con tecnología de IA generativa), PLN y aprendizaje automático para comprender documentos, extraer texto, identificar entidades y categoriza documentos.
API de Video Intelligence	Analizar el contenido de los vídeos, moderación y recomendación de contenido, archivos multimedia y anuncios contextuales.	Detección y seguimiento de objetos, comprensión de escenas, reconocimiento de actividades, análisis y detección de caras, detección y reconocimiento de texto.
Imagen en Gemini Enterprise Agent Platform	Obtén descripciones de imágenes de forma automática. Clasificación y búsqueda de imágenes. Recomendaciones y moderación de contenido.	Creación de imágenes, edición de imágenes, descripciones visuales e incrustaciones multimodales. Consulta la lista completa de funciones y sus fases de lanzamiento.

Estos productos, optimizados para diferentes propósitos, te permiten aprovechar los modelos de aprendizaje automático preentrenados y dar los primeros pasos con la posibilidad de hacer ajustes fácilmente.

API de Cloud Vision

Dispositivos admitidos

Integración rápida y sencilla de funciones de visión básicas.

Características principales

Funciones predefinidas como el etiquetado de imágenes, la detección de caras y puntos de referencia, el OCR y la búsqueda segura.

Es rentable y se paga por uso.

Document AI

Dispositivos admitidos

Extrae información valiosa de documentos e imágenes escaneados y automatiza los flujos de trabajo de los documentos.

Características principales

OCR (con tecnología de IA generativa), PLN y aprendizaje automático para comprender documentos, extraer texto, identificar entidades y categoriza documentos.

API de Video Intelligence

Dispositivos admitidos

Analizar el contenido de los vídeos, moderación y recomendación de contenido, archivos multimedia y anuncios contextuales.

Características principales

Detección y seguimiento de objetos, comprensión de escenas, reconocimiento de actividades, análisis y detección de caras, detección y reconocimiento de texto.

Imagen en Gemini Enterprise Agent Platform

Dispositivos admitidos

Obtén descripciones de imágenes de forma automática.

Clasificación y búsqueda de imágenes.

Recomendaciones y moderación de contenido.

Características principales

Creación de imágenes, edición de imágenes, descripciones visuales e incrustaciones multimodales.

Consulta la lista completa de funciones y sus fases de lanzamiento.

Estos productos, optimizados para diferentes propósitos, te permiten aprovechar los modelos de aprendizaje automático preentrenados y dar los primeros pasos con la posibilidad de hacer ajustes fácilmente.

Cómo funciona

El paquete de herramientas Vision AI de Google Cloud combina la visión artificial con otras tecnologías para comprender y analizar vídeos e integrar fácilmente funciones de detección de visión en las aplicaciones, como el etiquetado de imágenes, la detección de caras y puntos de referencia, el reconocimiento óptico de caracteres (OCR) y el etiquetado de contenido explícito.
Estas herramientas están disponibles mediante APIs, pero se pueden personalizar según necesidades concretas.

Cómo funciona la visión artificial

Demo

Descubre cómo funciona la visión artificial con tus propios archivos

Usos habituales

Detecta texto en archivos sin procesar y resúmelo automáticamente

Resume documentos extensos con IA generativa

La solución que se muestra en el diagrama de arquitectura de la derecha despliega un flujo de procesamiento que se activa cuando añades un nuevo documento PDF a tu segmento de Cloud Storage. El flujo de procesamiento extrae el texto del documento, crea un resumen a partir del texto extraído y almacena el resumen en una base de datos para que puedas verlo y buscarlo.

Puedes invocar la aplicación subiendo archivos a través de Jupyter Notebook o directamente a Cloud Storage en la consola de Google Cloud.

Arquitectura de referencia para el resumen de documentos mediante la IA generativa

Arquitectura de referencia: resumen de documentos mediante IA generativa

Tiempo estimado del despliegue: 11 min (1 min para configurar, 10 min para desplegar).

Instrucciones

Resume documentos extensos con IA generativa

La solución que se muestra en el diagrama de arquitectura de la derecha despliega un flujo de procesamiento que se activa cuando añades un nuevo documento PDF a tu segmento de Cloud Storage. El flujo de procesamiento extrae el texto del documento, crea un resumen a partir del texto extraído y almacena el resumen en una base de datos para que puedas verlo y buscarlo.

Puedes invocar la aplicación subiendo archivos a través de Jupyter Notebook o directamente a Cloud Storage en la consola de Google Cloud.

Arquitectura de referencia: resumen de documentos mediante IA generativa

Tiempo estimado del despliegue: 11 min (1 min para configurar, 10 min para desplegar).

Crea un flujo de procesamiento de imágenes

Procesamiento de imágenes escalable en una arquitectura sin servidor

La solución, que se muestra en el diagrama de la derecha, utiliza modelos de aprendizaje automático preentrenados para analizar imágenes proporcionadas por los usuarios y generar anotaciones de imágenes. Al desplegar esta solución, se crea un servicio de procesamiento de imágenes que puede ayudarte a gestionar contenido peligroso o dañino creado por los usuarios, digitalizar texto de documentos físicos, detectar y clasificar objetos en imágenes y mucho más.

Podrás revisar los ajustes de configuración y seguridad para saber cómo adaptar el servicio de procesamiento de imágenes a distintas necesidades.

arquitectura de referencia: flujo de procesamiento de imágenes

Tiempo estimado del despliegue: 12 min (2 min para configurar, 10 min para desplegar).

Instrucciones

Procesamiento de imágenes escalable en una arquitectura sin servidor

La solución, que se muestra en el diagrama de la derecha, utiliza modelos de aprendizaje automático preentrenados para analizar imágenes proporcionadas por los usuarios y generar anotaciones de imágenes. Al desplegar esta solución, se crea un servicio de procesamiento de imágenes que puede ayudarte a gestionar contenido peligroso o dañino creado por los usuarios, digitalizar texto de documentos físicos, detectar y clasificar objetos en imágenes y mucho más.

Podrás revisar los ajustes de configuración y seguridad para saber cómo adaptar el servicio de procesamiento de imágenes a distintas necesidades.

Tiempo estimado del despliegue: 12 min (2 min para configurar, 10 min para desplegar).

Consigue descripciones de imágenes automatizadas con la IA generativa

La función de descripción visual de Imagen te permite generar una descripción pertinente de una imagen. Puedes utilizarla para obtener metadatos más detallados sobre las imágenes que puedes almacenar y buscar, o para crear subtítulos automáticos. en casos prácticos de accesibilidad y recibir descripciones rápidas de productos y recursos visuales.

Esta función está disponible en alemán, español, francés, inglés e italiano. Puedes acceder a ella en la consola de Google Cloud o a través de una llamada a la API.

Instrucciones

La función de descripción visual de Imagen te permite generar una descripción pertinente de una imagen. Puedes utilizarla para obtener metadatos más detallados sobre las imágenes que puedes almacenar y buscar, o para crear subtítulos automáticos. en casos prácticos de accesibilidad y recibir descripciones rápidas de productos y recursos visuales.

Esta función está disponible en alemán, español, francés, inglés e italiano. Puedes acceder a ella en la consola de Google Cloud o a través de una llamada a la API.

Extrae texto y estadísticas de documentos con IA generativa

Descubre información valiosa a partir de documentos específicos con Document AI

El extractor personalizado de Document AI se basa en un modelo básico que extrae texto y datos de documentos genéricos y específicos de un dominio, de forma más rápida y precisa. Ajusta fácilmente entre 5 y 10 documentos para mejorar el rendimiento.

Si quieres entrenar tu propio modelo, etiqueta automáticamente tus conjuntos de datos con el modelo básico para agilizar la producción.

También puedes utilizar procesadores especializados entrenados previamente. Consulta la lista completa de procesadores.

Instrucciones

Descubre información valiosa a partir de documentos específicos con Document AI

El extractor personalizado de Document AI se basa en un modelo básico que extrae texto y datos de documentos genéricos y específicos de un dominio, de forma más rápida y precisa. Ajusta fácilmente entre 5 y 10 documentos para mejorar el rendimiento.

Si quieres entrenar tu propio modelo, etiqueta automáticamente tus conjuntos de datos con el modelo básico para agilizar la producción.

También puedes utilizar procesadores especializados entrenados previamente. Consulta la lista completa de procesadores.

Precios

Cómo funcionan los precios de Vision AI	Cada oferta de Vision tiene un conjunto de funciones o procesadores con precios distintos. Consulta las páginas de precios detallados para obtener más información.
Nivel sin coste económico	Producto/servicio	Precio con descuento	Detalles
API de Vision	1000 primeras unidades al mes son sin coste	5.000.001+ unidades al mes	Página de precios detallados
Document AI	N/A Los precios dependen del procesador.	Más de 5.000.001 páginas al mes para un procesador de Enterprise Document OCR	Página de precios detallados
API de Video Intelligence	Primeros 1000 minutos al mes sin coste	Más de 100.000 minutos al mes	Página de precios detallados
Imagen: incrustaciones multimodales			0,0001 $ por entrada de imagen
Imagen: descripción visual			0,0015 $ por imagen
Gemini Pro Vision			Página de precios detallados

Cómo funcionan los precios de Vision AI

Cada oferta de Vision tiene un conjunto de funciones o procesadores con precios distintos. Consulta las páginas de precios detallados para obtener más información.

API de Vision

Producto/servicio

1000 primeras unidades

al mes son sin coste

Precio con descuento

5.000.001+ unidades

al mes

Detalles

Página de precios detallados

Document AI

Producto/servicio

N/A

Los precios dependen del procesador.

Precio con descuento

Más de 5.000.001 páginas

al mes para un procesador de Enterprise Document OCR

Detalles

Página de precios detallados

API de Video Intelligence

Producto/servicio

Primeros 1000 minutos

al mes sin coste

Precio con descuento

Más de 100.000 minutos

al mes

Detalles

Página de precios detallados

Imagen: incrustaciones multimodales

Producto/servicio

Precio con descuento

Detalles

0,0001 $

por entrada de imagen

Imagen: descripción visual

Producto/servicio

Precio con descuento

Detalles

0,0015 $

por imagen

Gemini Pro Vision

Producto/servicio

Precio con descuento

Detalles

Página de precios detallados

CALCULADORA DE PRECIOS

Calcula el coste de tu proyecto con todas las herramientas que necesitas en un solo lugar.

PRESUPUESTO PERSONALIZADO

Ponte en contacto con nuestro equipo de Ventas para obtener un presupuesto personalizado según las necesidades únicas de tu empresa.

Vision AI

Extrae información valiosa de imágenes, documentos y vídeos

Aspectos destacados

¿Qué es la visión artificial?

IA generativa multimodal avanzada

IA generativa centrada en la visión

Vision AI lista para usar

IA generativa para interpretar documentos

Vision AI lista para usar en vídeos

Privacidad y seguridad de los datos

Descubre cómo funciona la visión artificial con tus propios archivos

Detecta texto en archivos sin procesar y resúmelo automáticamente

Resume documentos extensos con IA generativa

Instrucciones

Resume documentos extensos con IA generativa

Crea un flujo de procesamiento de imágenes

Procesamiento de imágenes escalable en una arquitectura sin servidor

Instrucciones

Procesamiento de imágenes escalable en una arquitectura sin servidor

Consigue descripciones de imágenes automatizadas con la IA generativa

Instrucciones

Extrae texto y estadísticas de documentos con IA generativa

Descubre información valiosa a partir de documentos específicos con Document AI

Instrucciones

Descubre información valiosa a partir de documentos específicos con Document AI

CALCULADORA DE PRECIOS

PRESUPUESTO PERSONALIZADO

Empieza tu prueba de concepto

Los nuevos clientes reciben hasta 300 USD en crédito sin coste para probar Vision AI y otros productos de Google Cloud

1000 páginas/mes sin coste con OCR de documentos.

Instrucciones: emitir vídeo en directo con la API de Video Intelligence

Aprende a crear una aplicación de detección de objetos en Gemini Enterprise Agent Platform

Obtén códigos de ejemplo de la API Vision