La IA generativa facilita la comprensión de documentos: resume documentos grandes con una solución compilada previamente recomendada por Google.
Accede a modelos de vision avanzados a través de APIs para automatizar las tareas de vision, optimizar el análisis y obtener estadísticas prácticas. O bien, crea apps personalizadas con entrenamiento de modelos sin código y bajo costo en un entorno administrado.
Los clientes nuevos obtienen hasta $300 en créditos gratuitos para probar Vision AI y otros productos de Google Cloud.
También puedes intentar implementar las soluciones de resumen de documentos y de procesamiento de imágenes con IA/AA recomendadas por Google.
Descripción general
La visión artificial es un campo de la Inteligencia Artificial (IA) que permite que las computadoras y los sistemas interpreten y analicen datos visuales y obtengan información significativa a partir de imágenes digitales, videos y otras entradas visuales. Algunas de sus aplicaciones típicas en el mundo real incluyen: detección de objetos, procesamiento de contenido visual (imágenes, documentos, videos), comprensión y análisis, búsqueda de productos, clasificación y búsqueda de imágenes, y moderación de contenido.
Vertex AI de Google Cloud ofrece acceso a Gemini, una familia de modelos multimodales de vanguardia que son capaces de comprender prácticamente cualquier entrada, combinar diferentes tipos de información y generar casi cualquier resultado. Si bien Gemini es más adecuado para tareas que combinan imágenes, texto y código, Gemini Pro Vision se destaca en una amplia variedad de tareas relacionadas con vision, como el reconocimiento de objetos, la comprensión del contenido digital y la generación de leyendas y descripciones. Se puede acceder a él a través de una API.
Imagen en Vertex AI ofrece las capacidades de IA generativa de imágenes de vanguardia de Google a los desarrolladores de aplicaciones a través de una API. Algunas de sus funciones clave incluyen la generación de imágenes (DG restringida) con mensajes de texto y la edición de imágenes (DG restringida) con instrucciones de texto, la descripción de una imagen en texto (también conocida como subtítulos visuales, DG) y el ajuste del modelo de tema (DG restringida). Obtén más información sobre sus funciones clave y etapas de lanzamiento.
Con la tecnología de los modelos de AA de visión artificial previamente entrenados de Google, la API de Cloud Vision es una API disponible (REST y RPC) que permite a los desarrolladores integrar fácilmente funciones comunes de detección de visión en las aplicaciones, incluidas las siguientes: etiquetado de imágenes, detección de rostros y puntos de referencia, reconocimiento óptico de caracteres (OCR) y etiquetado de contenido explícito.
Cada función que aplicas a una imagen es una unidad facturable; la API de Cloud Vision te permite usar 1,000 unidades de sus funciones de forma gratuita cada mes. Consulta los detalles de precios.
Document AI es una plataforma de comprensión de documentos que combina la visión artificial y otras tecnologías, como el procesamiento de lenguaje natural, para extraer texto y datos de documentos escaneados, lo que transforma los datos no estructurados en información estructurada y estadísticas empresariales.
Ofrece una amplia variedad de procesadores previamente entrenados optimizados para diferentes tipos de documentos. También facilita la compilación de procesadores personalizados para clasificar, dividir y extraer datos estructurados de documentos mediante Document AI Workbench.
Con la tecnología de visión artificial en esencia, la API de Video Intelligence es una forma fácil de procesar, analizar y comprender el contenido de video.
Sus modelos de AA previamente entrenados reconocen automáticamente una gran cantidad de objetos, lugares y acciones en videos en streaming o almacenados, con una calidad excepcional. Es muy eficiente para casos de uso comunes, como la moderación y recomendación de contenido, archivos multimedia y anuncios contextuales. También puedes entrenar modelos personalizados de AA con Vertex AI Vision para satisfacer tus necesidades específicas.
Product Search de la API de Vision es un servicio especializado dentro del paquete de herramientas de Google Cloud Vision AI que brinda a los usuarios la capacidad de buscar un producto con sus propias imágenes. Puedes considerarlo como un motor de búsqueda de imágenes optimizado para productos, que actualmente admite las siguientes categorías de productos: artículos para el hogar, indumentaria, juguetes, productos envasados y general.
Visual Inspection AI automatiza las tareas de inspección visual en la fabricación y otros entornos industriales. Aprovecha técnicas avanzadas de visión artificial y aprendizaje profundo para analizar imágenes y videos, identificar anomalías, detectar y localizar defectos y verificar las piezas faltantes y defectuosas en los productos ensamblados.
Puedes entrenar modelos personalizados sin conocimientos técnicos y con una cantidad mínima de imágenes etiquetadas, ejecutar inferencias con eficacia en las líneas de producción y actualizar de forma continua los modelos con datos recientes de la fábrica.
Vertex AI Vision es un entorno de desarrollo de aplicaciones completamente administrado que les permite a los desarrolladores compilar, implementar y administrar fácilmente aplicaciones de visión artificial para procesar una variedad de modalidades de datos, como texto, imágenes, video y tabulares. Reduce el tiempo de compilación de días a minutos a una décima parte del costo de las ofertas actuales.
Puedes compilar e implementar tus propios modelos personalizados, además de administrarlos y escalarlos con canalizaciones de CI/CD. También se integra en herramientas populares de código abierto como TensorFlow y PyTorch.
Google Cloud cuenta con capacidades líderes en la industria que les brindan a ustedes, nuestros clientes, el control de sus datos y proporcionan visibilidad sobre cuándo y cómo se accede a ellos.
Como cliente de Google Cloud, eres propietario de los datos de tus clientes. Implementamos medidas de seguridad estrictas para proteger tus datos de cliente y te proporcionamos herramientas y funciones para que los controles según tus condiciones. Los datos de cliente son de tu propiedad, no de Google. Solo procesamos tus datos en función de tus acuerdos.
Obtén más información en nuestro Centro de recursos de privacidad.
Comparar productos de visión artificial
Oferta | Ideal para | Características clave |
---|---|---|
Integración rápida y sencilla de funciones básicas de vision. | Funciones prediseñadas como etiquetado de imágenes, detección de rostros y puntos de referencia, OCR y búsqueda segura. Rentabilidad, pago por uso. | |
Extrae estadísticas de imágenes y documentos escaneados, lo que automatiza los flujos de trabajo de los documentos. | OCR (con la tecnología de IA generativa), PLN y AA para la comprensión de documentos, la extracción de texto, la identificación de entidades y la categorización de documentos. | |
Análisis de contenido de video, moderación y recomendación de contenido, archivos multimedia y anuncios contextuales. | Detección y seguimiento de objetos, comprensión de escenas, reconocimiento de actividad, detección y análisis de rostros, detección y reconocimiento de texto. | |
Búsqueda de productos basada en imágenes y recomendación para mejorar la experiencia de comercio electrónico. Limitado a categorías de productos específicas. | Identifica y clasifica los productos en imágenes. | |
Automatización de las tareas de inspección visual en entornos industriales y de fabricación | Detección de anomalías, detección y ubicación de defectos, y verificación del ensamblaje. | |
Compilación e implementación de modelos personalizados para necesidades específicas. | Herramientas de preparación de datos, entrenamiento de modelos e implementación, control total de tu solución. Requiere experiencia técnica. | |
Análisis y comprensión visuales, y respuesta multimodal de preguntas. | Búsqueda de información, reconocimiento de objetos, comprensión del contenido digital, generación de contenido estructurado, generación de leyendas y descripciones, y extrapolación. | |
Obtén descripciones de imágenes automáticas. Búsqueda y clasificación de imágenes. Moderación de contenido y recomendaciones. | Generación de imágenes, edición de imágenes, incorporaciones multimodales y subtítulos visuales. Consulta la lista completa de funciones y sus etapas de lanzamiento. |
Estos productos, optimizados para diferentes propósitos, te permiten aprovechar los modelos de AA previamente entrenados y ponerte en marcha con la habilidad de ajustarlos fácilmente.
Integración rápida y sencilla de funciones básicas de vision.
Funciones prediseñadas como etiquetado de imágenes, detección de rostros y puntos de referencia, OCR y búsqueda segura.
Rentabilidad, pago por uso.
Extrae estadísticas de imágenes y documentos escaneados, lo que automatiza los flujos de trabajo de los documentos.
OCR (con la tecnología de IA generativa), PLN y AA para la comprensión de documentos, la extracción de texto, la identificación de entidades y la categorización de documentos.
Análisis de contenido de video, moderación y recomendación de contenido, archivos multimedia y anuncios contextuales.
Detección y seguimiento de objetos, comprensión de escenas, reconocimiento de actividad, detección y análisis de rostros, detección y reconocimiento de texto.
Búsqueda de productos basada en imágenes y recomendación para mejorar la experiencia de comercio electrónico. Limitado a categorías de productos específicas.
Identifica y clasifica los productos en imágenes.
Automatización de las tareas de inspección visual en entornos industriales y de fabricación
Detección de anomalías, detección y ubicación de defectos, y verificación del ensamblaje.
Compilación e implementación de modelos personalizados para necesidades específicas.
Herramientas de preparación de datos, entrenamiento de modelos e implementación, control total de tu solución. Requiere experiencia técnica.
Análisis y comprensión visuales, y respuesta multimodal de preguntas.
Búsqueda de información, reconocimiento de objetos, comprensión del contenido digital, generación de contenido estructurado, generación de leyendas y descripciones, y extrapolación.
Obtén descripciones de imágenes automáticas.
Búsqueda y clasificación de imágenes.
Moderación de contenido y recomendaciones.
Generación de imágenes, edición de imágenes, incorporaciones multimodales y subtítulos visuales.
Consulta la lista completa de funciones y sus etapas de lanzamiento.
Estos productos, optimizados para diferentes propósitos, te permiten aprovechar los modelos de AA previamente entrenados y ponerte en marcha con la habilidad de ajustarlos fácilmente.
Cómo funciona
El paquete de herramientas Vision AI de Google Cloud combina la visión artificial con otras tecnologías para comprender y analizar videos, así como integrar fácilmente funciones de detección de vision en las aplicaciones, como el etiquetado de imágenes, la detección de rostros y puntos de referencia, el reconocimiento óptico de caracteres (OCR) y el etiquetado de contenido explícito.
Estas herramientas están disponibles a través de APIs y se pueden personalizar según necesidades específicas.
Demostración
Usos comunes
La solución que se muestra en el diagrama de arquitectura de la derecha implementa una canalización que se activa cuando agregas un documento PDF nuevo a tu bucket de Cloud Storage. La canalización extrae texto de tu documento, crea un resumen a partir del texto extraído y almacena el resumen en una base de datos para que puedas verlo y buscarlo.
Puedes invocar a la aplicación subiendo archivos a través de Jupyter Notebook o directamente a Cloud Storage en la consola de Google Cloud.
Tiempo estimado de implementación: 11 min (1 min para configurar y 10 min para implementar).
La solución que se muestra en el diagrama de arquitectura de la derecha implementa una canalización que se activa cuando agregas un documento PDF nuevo a tu bucket de Cloud Storage. La canalización extrae texto de tu documento, crea un resumen a partir del texto extraído y almacena el resumen en una base de datos para que puedas verlo y buscarlo.
Puedes invocar a la aplicación subiendo archivos a través de Jupyter Notebook o directamente a Cloud Storage en la consola de Google Cloud.
Tiempo estimado de implementación: 11 min (1 min para configurar y 10 min para implementar).
Product Search de la API de Vision permite a los minoristas crear productos, cada uno con imágenes de referencia que describen de manera visual el producto desde un conjunto de puntos de vista. Los minoristas pueden agregar estos productos a los conjuntos de productos.
Cuando los usuarios consultan el conjunto de productos con sus propias imágenes, Product Search de la API de Vision aplica el aprendizaje automático para comparar el producto en la imagen de consulta del usuario con las imágenes del conjunto de productos del minorista y, luego, devuelve una lista de clasificaciones con resultados visuales y semánticos similares.
Product Search de la API de Vision permite a los minoristas crear productos, cada uno con imágenes de referencia que describen de manera visual el producto desde un conjunto de puntos de vista. Los minoristas pueden agregar estos productos a los conjuntos de productos.
Cuando los usuarios consultan el conjunto de productos con sus propias imágenes, Product Search de la API de Vision aplica el aprendizaje automático para comparar el producto en la imagen de consulta del usuario con las imágenes del conjunto de productos del minorista y, luego, devuelve una lista de clasificaciones con resultados visuales y semánticos similares.
En la solución, que se muestra en el diagrama de la derecha, se usan modelos de aprendizaje automático previamente entrenados para analizar imágenes proporcionadas por los usuarios y generar anotaciones de imágenes. La implementación de esta solución crea un servicio de procesamiento de imágenes que puede ayudarte a controlar el contenido no seguro o dañino que generan los usuarios, digitalizar el texto de documentos físicos, detectar y clasificar objetos en imágenes, y mucho más.
Podrás revisar la configuración y los ajustes de seguridad para comprender cómo adaptar el servicio de procesamiento de imágenes a diferentes necesidades.
Tiempo de implementación estimado: 12 min (2 min para configurar y 10 min para implementar)
En la solución, que se muestra en el diagrama de la derecha, se usan modelos de aprendizaje automático previamente entrenados para analizar imágenes proporcionadas por los usuarios y generar anotaciones de imágenes. La implementación de esta solución crea un servicio de procesamiento de imágenes que puede ayudarte a controlar el contenido no seguro o dañino que generan los usuarios, digitalizar el texto de documentos físicos, detectar y clasificar objetos en imágenes, y mucho más.
Podrás revisar la configuración y los ajustes de seguridad para comprender cómo adaptar el servicio de procesamiento de imágenes a diferentes necesidades.
Tiempo de implementación estimado: 12 min (2 min para configurar y 10 min para implementar)
La función de subtítulos visuales de Imagen te permite generar una descripción relevante para una imagen. Puedes usarla para obtener metadatos más detallados sobre las imágenes a fin de almacenarlas y buscarlas, generar subtítulos automáticos. para respaldar casos de uso de accesibilidad y recibir descripciones rápidas de productos y recursos visuales.
Se puede acceder a esta función, que está disponible en alemán, español, francés, inglés e italiano, desde la consola de Google Cloud o mediante una llamada a la API.
La función de subtítulos visuales de Imagen te permite generar una descripción relevante para una imagen. Puedes usarla para obtener metadatos más detallados sobre las imágenes a fin de almacenarlas y buscarlas, generar subtítulos automáticos. para respaldar casos de uso de accesibilidad y recibir descripciones rápidas de productos y recursos visuales.
Se puede acceder a esta función, que está disponible en alemán, español, francés, inglés e italiano, desde la consola de Google Cloud o mediante una llamada a la API.
Antes de analizar los datos de video con tu aplicación, crea una canalización para el flujo continuo de datos con el servicio Streams en Vertex AI Vision. Luego, los modelos previamente entrenados de Google o tu modelo personalizado analizan los datos transferidos. El resultado del análisis de las transmisiones se almacena en Vertex AI Vision Warehouse, donde puedes usar capacidades de búsqueda avanzadas potenciadas por IA para consultar contenido multimedia no estructurado.
Antes de analizar los datos de video con tu aplicación, crea una canalización para el flujo continuo de datos con el servicio Streams en Vertex AI Vision. Luego, los modelos previamente entrenados de Google o tu modelo personalizado analizan los datos transferidos. El resultado del análisis de las transmisiones se almacena en Vertex AI Vision Warehouse, donde puedes usar capacidades de búsqueda avanzadas potenciadas por IA para consultar contenido multimedia no estructurado.
Con la tecnología de un modelo de base, el extractor personalizado de Document AI extrae texto y datos de documentos genéricos y específicos de dominios, de forma más rápida y con mayor precisión. Configúralos fácilmente con solo 5 a 10 documentos para lograr un rendimiento aún mejor.
Si quieres entrenar tu propio modelo, etiqueta automáticamente tus conjuntos de datos con el modelo de base para acelerar el tiempo de salida.
También puedes optar por usar procesadores especializados previamente entrenados. Consulta la lista completa de procesadores.
Con la tecnología de un modelo de base, el extractor personalizado de Document AI extrae texto y datos de documentos genéricos y específicos de dominios, de forma más rápida y con mayor precisión. Configúralos fácilmente con solo 5 a 10 documentos para lograr un rendimiento aún mejor.
Si quieres entrenar tu propio modelo, etiqueta automáticamente tus conjuntos de datos con el modelo de base para acelerar el tiempo de salida.
También puedes optar por usar procesadores especializados previamente entrenados. Consulta la lista completa de procesadores.
Visual Inspection AI se optimiza en cada paso para que sea fácil de configurar y ver el ROI rápidamente. Con hasta 300 veces menos imágenes etiquetadas para comenzar a entrenar modelos de inspección de alto rendimiento que las plataformas de AA de uso general, se demostró que ofrece una exactitud hasta 10 veces mayor. Puedes entrenar modelos sin experiencia técnica y se ejecutan de forma local. Lo mejor de todo es que los modelos se pueden actualizar de forma continua con datos que fluyen desde la fábrica, lo que te brinda una mayor precisión a medida que descubres nuevos casos de uso.
Visual Inspection AI se optimiza en cada paso para que sea fácil de configurar y ver el ROI rápidamente. Con hasta 300 veces menos imágenes etiquetadas para comenzar a entrenar modelos de inspección de alto rendimiento que las plataformas de AA de uso general, se demostró que ofrece una exactitud hasta 10 veces mayor. Puedes entrenar modelos sin experiencia técnica y se ejecutan de forma local. Lo mejor de todo es que los modelos se pueden actualizar de forma continua con datos que fluyen desde la fábrica, lo que te brinda una mayor precisión a medida que descubres nuevos casos de uso.
Precios
Cómo funcionan los precios de Vision AI | Cada oferta de vision tiene un conjunto de funciones o procesadores con precios diferentes. Consulta las páginas de precios detallados para obtener más información. | ||
---|---|---|---|
Nivel gratuito | Producto/Servicio | Precios con descuento | Detalles |
Vision API | Las primeras 1,000 unidades todos los meses son gratis |
| |
Document AI | N/A El precio depende del procesador. | Más de 5,000,001 páginas al mes por el procesador Enterprise Document OCR | |
API de Video Intelligence | Primeros 1,000 minutos por mes son gratis | Más de 100,000 minutos por mes | |
Vertex AI Vision | N/A Los precios dependen de las funciones. |
| |
Imagen: incorporaciones multimodales |
|
| $0.0001 (USD) por entrada de imagen |
Imagen: subtítulos visuales |
|
| $0.0015 (USD) por imagen |
Gemini Pro Vision |
Cómo funcionan los precios de Vision AI
Cada oferta de vision tiene un conjunto de funciones o procesadores con precios diferentes. Consulta las páginas de precios detallados para obtener más información.
Vision API
Las primeras 1,000 unidades
todos los meses son gratis
Document AI
N/A
El precio depende del procesador.
Más de 5,000,001 páginas
al mes por el procesador Enterprise Document OCR
Primeros 1,000 minutos
por mes son gratis
Más de 100,000 minutos
por mes
Vertex AI Vision
N/A
Los precios dependen de las funciones.
Imagen: incorporaciones multimodales
$0.0001 (USD)
por entrada de imagen
Imagen: subtítulos visuales
$0.0015 (USD)
por imagen