Essayez Gemini 3, notre meilleur modèle pour le raisonnement, le codage et la compréhension multimodale dans Gemini Enterprise Agent Platform

Vision AI

Dégagez des insghts à partir d'images, de documents et de vidéos

Accédez à des modèles de vision avancés via des API pour automatiser les tâches de vision, simplifier les analyses et obtenir des insights exploitables. Vous pouvez aussi créer des applications personnalisées à faible coût pour entraîner votre modèle sans code dans un environnement géré.

Les nouveaux clients peuvent obtenir jusqu'à 300 $ de crédits inclus pour essayer Vision AI et d'autres produits Google Cloud

Vous pouvez également essayer de déployer les solutions de résumé de documents et de traitement d'images par IA/ML recommandées par Google.

Présentation

Qu'est-ce que la vision par ordinateur ?

La vision par ordinateur est un domaine de l'intelligence artificielle (IA) qui permet aux ordinateurs et aux systèmes d'interpréter et d'analyser des données visuelles, et de dégager des informations pertinentes à partir d'images numériques, de vidéos et d'autres entrées visuelles. Voici quelques-unes de ses applications typiques du monde réel : détection d'objets, traitement de contenu visuel (images, documents, vidéos), compréhension et analyse, recherche de produits, classification et recherche d'images, et modération de contenu.

IA générative multimodale avancée

La plate-forme d'agents Gemini Enterprise de Google Cloud permet d'accéder à Gemini, une famille de modèles multimodaux de pointe capables de comprendre quasiment n'importe quelle entrée, de combiner différents types d'informations et de générer presque toutes les sorties.

IA générative axée sur la vision

Imagen sur Agent Platform permet aux développeurs d'applications d'utiliser les capacités de l'IA générative d'images de pointe de Google via une API. Certaines de ses fonctionnalités principales incluent la génération d'images avec des prompts textuels, la modification d'images avec des prompts textuels, la description d'une image dans du texte et l'affinage du modèle d'objet.

Vision AI prête à l'emploi

Basée sur les modèles de ML pré-entraînés de vision par ordinateur de Google, l'API Cloud Vision est une API facilement accessible (REST et RPC). Elle permet aux développeurs d'intégrer facilement des fonctionnalités courantes de détection visuelle dans des applications, y compris l'étiquetage d'images, la détection de visages et de points de repère, la reconnaissance optique des caractères (OCR) et l'ajout de tags au contenu explicite.

Chaque fonctionnalité que vous appliquez à une image est une unité facturable : l'API Cloud Vision vous permet d'utiliser sans frais 1 000 unités de ses caractéristiques chaque mois. Veuillez consulter les informations tarifaires.

IA générative pour la reconnaissance de documents

Document AI est une plate-forme de compréhension de documents qui combine la vision par ordinateur et d'autres technologies telles que le traitement du langage naturel pour extraire le texte et les données de documents scannés, et transformer les données non structurées en informations structurées et en insights métier.

La solution propose une large gamme de processeurs pré-entraînés optimisés pour différents types de documents. Elle permet également de créer facilement des processeurs personnalisés pour classer, diviser et extraire des données structurées à partir de documents via Document AI Workbench.

intervenant à côté du titre de la vidéo : Document AI : l'avenir des documents

Présentation de Document AI

4:37

Vision AI prête à l'emploi pour les vidéos

Basée sur la technologie de vision par ordinateur, l'API Video Intelligence permet de traiter, d'analyser et de comprendre facilement le contenu vidéo.

Ses modèles de ML pré-entraînés reconnaissent automatiquement un grand nombre d'objets, de lieux et d'actions dans les vidéos stockées et en streaming, avec une qualité exceptionnelle. Elle est très efficace pour les cas d'utilisation courants tels que la modération et les recommandations de contenus, les archives multimédias et les publicités contextuelles. Vous pouvez également entraîner des modèles de ML personnalisés en fonction de vos besoins spécifiques avec Agent Platform Vision

Titre de la vidéo "Utiliser le ML pour créer une archive vidéo" au-dessus d'un montage de photos de famille

Démonstration : Utiliser l'API Video Intelligence pour créer une archive vidéo consultable

6:21

Confidentialité des données et sécurité

Google Cloud dispose de fonctionnalités de pointe qui vous permettent, à nos clients, de contrôler vos données et de savoir quand et comment elles sont consultées.

En tant que client Google Cloud, vous êtes propriétaire de vos données client. Nous mettons en place des mesures de sécurité strictes pour protéger vos données client et vous fournissons des outils et des fonctionnalités qui vous permettent de les contrôler selon vos conditions. Les données client sont vos données, pas celles de Google. Nous traitons toujours vos données conformément aux accords que vous avez conclus.

Pour en savoir plus, consultez notre Centre de ressources sur la confidentialité.

Comparer les produits de vision par ordinateur

Offres	Appareils recommandés	Principales fonctionnalités
API Cloud Vision	Intégration simple et rapide des fonctionnalités de vision de base.	Fonctionnalités intégrées comme l'étiquetage d'images, la détection de visages et de points de repère, la reconnaissance optique des caractères et la recherche sécurisée Économique et facturé à l'utilisation.
Document AI	Automatisez les workflows de documents : extrayez des insights à partir de documents scannés et d'images.	OCR (optimisé par l'IA générative), TLN, ML pour la compréhension de documents, l'extraction de texte, l'identification d'entités et la catégorisation des documents.
API Video Intelligence	Analyse du contenu vidéo, de la modération et des recommandations de contenus, des archives multimédias et des annonces contextuelles.	Détection et suivi d'objets, compréhension de scènes, reconnaissance de l'activité, détection et analyse de visages, détection et reconnaissance de texte
Imagen sur Gemini Enterprise Agent Platform	Obtenez des descriptions d'images automatiques. Classification et recherche d'images. Modération et recommandations de contenus.	Génération et modification d'images, sous-titres visuels et représentations vectorielles continues multimodales. Consultez la liste complète des fonctionnalités et de leurs étapes de lancement.

Optimisés pour différentes utilisations, ces produits vous permettent d'exploiter les modèles de ML pré-entraînés et de vous lancer immédiatement, avec la possibilité de les ajuster facilement.

API Cloud Vision

Appareils recommandés

Intégration simple et rapide des fonctionnalités de vision de base.

Principales fonctionnalités

Fonctionnalités intégrées comme l'étiquetage d'images, la détection de visages et de points de repère, la reconnaissance optique des caractères et la recherche sécurisée

Économique et facturé à l'utilisation.

Document AI

Appareils recommandés

Automatisez les workflows de documents : extrayez des insights à partir de documents scannés et d'images.

Principales fonctionnalités

OCR (optimisé par l'IA générative), TLN, ML pour la compréhension de documents, l'extraction de texte, l'identification d'entités et la catégorisation des documents.

API Video Intelligence

Appareils recommandés

Analyse du contenu vidéo, de la modération et des recommandations de contenus, des archives multimédias et des annonces contextuelles.

Principales fonctionnalités

Détection et suivi d'objets, compréhension de scènes, reconnaissance de l'activité, détection et analyse de visages, détection et reconnaissance de texte

Imagen sur Gemini Enterprise Agent Platform

Appareils recommandés

Obtenez des descriptions d'images automatiques.

Classification et recherche d'images.

Modération et recommandations de contenus.

Principales fonctionnalités

Génération et modification d'images, sous-titres visuels et représentations vectorielles continues multimodales.

Consultez la liste complète des fonctionnalités et de leurs étapes de lancement.

Optimisés pour différentes utilisations, ces produits vous permettent d'exploiter les modèles de ML pré-entraînés et de vous lancer immédiatement, avec la possibilité de les ajuster facilement.

Fonctionnement

La suite d'outils Vision AI de Google Cloud associe la vision par ordinateur à d'autres technologies pour comprendre et analyser des vidéos, et intégrer facilement des fonctionnalités de détection visuelle dans des applications, telles que l'étiquetage d'images, la détection de visages et de points de repère, la reconnaissance optique des caractères et l'ajout de tags au contenu explicite.
Ces outils sont disponibles via des API tout en restant personnalisables en fonction de besoins spécifiques.

Une femme à côté du titre d'une vidéo : comment fonctionne la vision par ordinateur

Fonctionnement de la vision par ordinateur

Démonstration

Découvrir comment la vision par ordinateur fonctionne avec vos propres fichiers

Utilisations courantes

Détecter le texte dans les fichiers bruts et le résumer automatiquement

Résumer des documents volumineux avec l'IA générative

La solution représentée dans le schéma d'architecture à droite déploie un pipeline qui se déclenche lorsque vous ajoutez un document PDF à votre bucket Cloud Storage. Le pipeline extrait le texte de votre document, crée un résumé à partir du texte extrait et le stocke dans une base de données que vous pouvez consulter et rechercher.

Vous pouvez appeler l'application en important des fichiers via un notebook Jupyter ou directement dans Cloud Storage depuis la console Google Cloud.

Architecture de référence pour la synthèse de documents à l'aide de l'IA générative

Architecture de référence : synthèse de documents à l'aide de l'IA générative

Durée de déploiement estimée : 11 min (1 min pour la configuration, 10 min pour le déploiement).

Guides pratiques

Résumer des documents volumineux avec l'IA générative

La solution représentée dans le schéma d'architecture à droite déploie un pipeline qui se déclenche lorsque vous ajoutez un document PDF à votre bucket Cloud Storage. Le pipeline extrait le texte de votre document, crée un résumé à partir du texte extrait et le stocke dans une base de données que vous pouvez consulter et rechercher.

Vous pouvez appeler l'application en important des fichiers via un notebook Jupyter ou directement dans Cloud Storage depuis la console Google Cloud.

Architecture de référence : synthèse de documents à l'aide de l'IA générative

Durée de déploiement estimée : 11 min (1 min pour la configuration, 10 min pour le déploiement).

Créer un pipeline de traitement d'images

Traitement d'images évolutif sur une architecture sans serveur

La solution, représentée dans le schéma de droite, utilise des modèles de machine learning pré-entraînés pour analyser les images fournies par les utilisateurs et générer des annotations d'image. Le déploiement de cette solution permet de créer un service de traitement d'images capable de vous aider à gérer les contenus générés par les utilisateurs non sécurisés ou nuisibles, à numériser le texte de documents physiques, à détecter et classer des objets dans des images, et plus encore.

Vous serez en mesure d'examiner la configuration et les paramètres de sécurité afin de comprendre comment adapter le service de traitement d'images à différents besoins.

Architecture de référence : pipeline de traitement d'images

Durée de déploiement estimée : 12 minutes (2 minutes pour la configuration et 10 minutes pour le déploiement).

Guides pratiques

Traitement d'images évolutif sur une architecture sans serveur

La solution, représentée dans le schéma de droite, utilise des modèles de machine learning pré-entraînés pour analyser les images fournies par les utilisateurs et générer des annotations d'image. Le déploiement de cette solution permet de créer un service de traitement d'images capable de vous aider à gérer les contenus générés par les utilisateurs non sécurisés ou nuisibles, à numériser le texte de documents physiques, à détecter et classer des objets dans des images, et plus encore.

Vous serez en mesure d'examiner la configuration et les paramètres de sécurité afin de comprendre comment adapter le service de traitement d'images à différents besoins.

Durée de déploiement estimée : 12 minutes (2 minutes pour la configuration et 10 minutes pour le déploiement).

Obtenez des descriptions d'images automatisées avec l'IA générative

La fonctionnalité Visual Captioning d'Imagen vous permet de générer une description pertinente d'une image. Elle vous permet d'obtenir des métadonnées plus détaillées sur les images à stocker et de rechercher, et de générer des sous-titres automatiques pour prendre en charge les cas d'utilisation de l'accessibilité, et recevoir une description rapide des produits et des ressources visuelles.

Disponible en allemand, anglais, espagnol, français et italien, cette fonctionnalité est accessible dans la console Google Cloud ou via un appel d'API.

Guides pratiques

La fonctionnalité Visual Captioning d'Imagen vous permet de générer une description pertinente d'une image. Elle vous permet d'obtenir des métadonnées plus détaillées sur les images à stocker et de rechercher, et de générer des sous-titres automatiques pour prendre en charge les cas d'utilisation de l'accessibilité, et recevoir une description rapide des produits et des ressources visuelles.

Disponible en allemand, anglais, espagnol, français et italien, cette fonctionnalité est accessible dans la console Google Cloud ou via un appel d'API.

Extrayez du texte et des insights de documents grâce à l'IA générative

Dégager des insights à partir de documents nuancés avec Document AI

S'appuyant sur un modèle de fondation, l'extracteur personnalisé Document AI extrait le texte et les données de documents, aussi bien génériques que spécifiques à un domaine, avec davantage de précision et de rapidité. Réglez l'extracteur facilement avec 5 à 10 documents seulement pour des performances encore supérieures.

Si vous souhaitez entraîner votre propre modèle, étiquetez automatiquement vos ensembles de données avec le modèle de fondation pour accélérer la mise en production.

Vous pouvez également choisir d'utiliser des processeurs spécialisés pré-entraînés. Consultez la liste complète des processeurs.

Guides pratiques

Dégager des insights à partir de documents nuancés avec Document AI

S'appuyant sur un modèle de fondation, l'extracteur personnalisé Document AI extrait le texte et les données de documents, aussi bien génériques que spécifiques à un domaine, avec davantage de précision et de rapidité. Réglez l'extracteur facilement avec 5 à 10 documents seulement pour des performances encore supérieures.

Si vous souhaitez entraîner votre propre modèle, étiquetez automatiquement vos ensembles de données avec le modèle de fondation pour accélérer la mise en production.

Vous pouvez également choisir d'utiliser des processeurs spécialisés pré-entraînés. Consultez la liste complète des processeurs.

Tarification

Fonctionnement des tarifs de Vision AI	Chaque offre Vision est associée à un ensemble de fonctionnalités ou de processeurs, associés à des tarifs différents. Consultez les pages des tarifs détaillés pour en savoir plus.
Quota sans frais	Produit/Service	Prix réduit	Détails
API Vision	1 000 premières unités tous les mois sans frais	5 000 001 unités par mois	Page des tarifs détaillés
Document AI	N/A La tarification dépend du processeur.	Plus de 5 000 001 pages par mois pour le processeur Enterprise Document OCR	Page des tarifs détaillés
API Video Intelligence	1 000 premières minutes par mois sans frais	Plus de 100 000 minutes par mois	Page des tarifs détaillés
Imagen : embeddings multimodaux			0,0001 $ US par entrée d'image
Imagen : description d'images			0,0015 $ US par image
Gemini Pro Vision			Page des tarifs détaillés

Fonctionnement des tarifs de Vision AI

Chaque offre Vision est associée à un ensemble de fonctionnalités ou de processeurs, associés à des tarifs différents. Consultez les pages des tarifs détaillés pour en savoir plus.

API Vision

Produit/Service

1 000 premières unités

tous les mois sans frais

Prix réduit

5 000 001 unités

par mois

Détails

Page des tarifs détaillés

Document AI

Produit/Service

N/A

La tarification dépend du processeur.

Prix réduit

Plus de 5 000 001 pages

par mois pour le processeur Enterprise Document OCR

Détails

Page des tarifs détaillés

API Video Intelligence

Produit/Service

1 000 premières minutes

par mois sans frais

Prix réduit

Plus de 100 000 minutes

par mois

Détails

Page des tarifs détaillés

Imagen : embeddings multimodaux

Produit/Service

Prix réduit

Détails

0,0001 $ US

par entrée d'image

Imagen : description d'images

Produit/Service

Prix réduit

Détails

0,0015 $ US

par image

Gemini Pro Vision

Produit/Service

Prix réduit

Détails

Page des tarifs détaillés

SIMULATEUR DE COÛTS

Estimez le coût de votre projet en rassemblant au même endroit tous les outils dont vous avez besoin.

DEVIS PERSONNALISÉ

Contactez notre équipe commerciale pour obtenir un devis personnalisé adapté aux besoins uniques de votre organisation.

Vision AI

Dégagez des insghts à partir d'images, de documents et de vidéos

Infos clés

Qu'est-ce que la vision par ordinateur ?

IA générative multimodale avancée

IA générative axée sur la vision

Vision AI prête à l'emploi

IA générative pour la reconnaissance de documents

Vision AI prête à l'emploi pour les vidéos

Confidentialité des données et sécurité

Découvrir comment la vision par ordinateur fonctionne avec vos propres fichiers

Détecter le texte dans les fichiers bruts et le résumer automatiquement

Résumer des documents volumineux avec l'IA générative

Guides pratiques

Résumer des documents volumineux avec l'IA générative

Créer un pipeline de traitement d'images

Traitement d'images évolutif sur une architecture sans serveur

Guides pratiques

Traitement d'images évolutif sur une architecture sans serveur

Obtenez des descriptions d'images automatisées avec l'IA générative

Guides pratiques

Extrayez du texte et des insights de documents grâce à l'IA générative

Dégager des insights à partir de documents nuancés avec Document AI

Guides pratiques

Dégager des insights à partir de documents nuancés avec Document AI

SIMULATEUR DE COÛTS

DEVIS PERSONNALISÉ

Commencer votre démonstration de faisabilité

Les nouveaux clients peuvent obtenir jusqu'à 300 $ de crédits inclus pour essayer Vision AI et d'autres produits Google Cloud

1 000 pages par mois incluses avec la reconnaissance optique des caractères dans les documents

Découvrez comment diffuser des vidéos en direct avec l'API Video Intelligence

Apprendre à créer une application de détection d'objets dans Gemini Enterprise Agent Platform

Obtenir des exemples de code pour l'API Vision