Extrayez du texte et des données à partir d'images et de documents, transformez des contenus non structurés en données structurées adaptées aux entreprises et dégagez de précieux insights.
Intégrez des fonctionnalités d'OCR à vos applications via des API.
Lors de leur inscription, les nouveaux clients bénéficient de 300 $ de crédits à utiliser pour obtenir des documents résumant les solutions de reconnaissance optique des caractères (OCR).
Présentation
Google Cloud propose deux types d'OCR : l'OCR pour les documents et l'OCR pour les images et les vidéos.
Bien que ces deux outils utilisent une même technologie de base, Document AI est une plate-forme d'interprétation de documents optimisée pour le traitement des documents. Son extracteur personnalisé s'appuie sur l'IA générative et traite les documents, aussi bien génériques que spécifiques à un domaine, avec davantage de précision et de rapidité, sans avoir à choisir un processeur spécialisé.
Cloud Vision, quant à lui, est couramment utilisé pour détecter du texte, de l'écriture manuscrite et un large éventail d'objets dans des images et des vidéos.
Google Cloud fournit des fonctionnalités d'OCR via une IA de pointe. Cette solution va bien au-delà de la reconnaissance de texte traditionnelle : elle comprend les données, les organise et les enrichit, pour en fin de compte générer des insights exploitables par les entreprises.
Elle vous offre la possibilité d'utiliser les outils OCR comme une suite unifiée pour plus d'efficacité (par exemple, Document AI), ou d'appeler simplement les API appropriées, qui sont directement disponibles dans la console Google Cloud, afin d'intégrer des fonctionnalités de reconnaissance optique des caractères à vos applications.
Toutes les solutions d'OCR mentionnées ci-dessus donnent accès à des modèles de ML pré-entraînés que vous pouvez déployer immédiatement via une API. Vous pouvez également effectuer un surentraînement afin d'améliorer la précision pour vos besoins spécifiques.
Vous pouvez aussi entraîner vos propres modèles personnalisés avec AutoML. Aucune expertise en machine learning n'est nécessaire pour cela.
Consultez la documentation AutoML qui traite de la création de modèles de ML personnalisés.
Si vous souhaitez analyser un document ou créer un pipeline de traitement de documents automatisé, utilisez Document AI. Cet outil gère l'intégralité du workflow de manière centralisée, de l'interprétation des documents à la recherche, en passant par le stockage, la gouvernance, ainsi que la gestion des documents et des données extraites.
Si vous souhaitez analyser et traiter des images, utilisez Cloud Vision avec d'autres produits Google Cloud pour optimiser les résultats. Consultez la section "Utilisations courantes" pour en savoir plus et accéder aux guides de démarrage rapide.
Les deux API sont proposées en essai gratuit pour quiconque possède un compte Google Cloud.
Comparer les offres OCR
Offres OCR | Application idéale | Principales fonctionnalités | |
---|---|---|---|
| Cas d'utilisation généraux d'extraction de texte nécessitant une faible latence et une capacité élevée. | Fonctionnalités intégrées comme l'étiquetage d'images, la détection de visages et de points de repère, l'OCR et la recherche sécurisée. | |
Enterprise Document OCR | Numérisez le texte de documents (PDF, documents scannés en tant qu'images ou fichiers Microsoft DocX). | Extrayez du texte dans plus de 200 langues et 50 langues pour le texte manuscrit. Modules complémentaires permettant de reconnaître des formules mathématiques, des styles, etc. | |
| Document AI Workbench | Extrayez, classez et divisez des documents grâce à l'IA générative (modèles de fondation) | Extracteur personnalisé : utilise des modèles de fondation pour créer rapidement des analyseurs sans avoir à étiqueter les données ni à entraîner les modèles de manière exhaustive. Classificateur personnalisé et séparateur de documents pour un traitement efficace. |
| Modèles pré-entraînés | Extraction de texte et de champs à partir de documents spécifiques à un domaine. | Extraction et numérisation de textes à partir de divers documents d'approvisionnement, de prêt, d'identité et contractuels |
Cas d'utilisation généraux d'extraction de texte nécessitant une faible latence et une capacité élevée.
Fonctionnalités intégrées comme l'étiquetage d'images, la détection de visages et de points de repère, l'OCR et la recherche sécurisée.
Enterprise Document OCR
Numérisez le texte de documents (PDF, documents scannés en tant qu'images ou fichiers Microsoft DocX).
Extrayez du texte dans plus de 200 langues et 50 langues pour le texte manuscrit.
Modules complémentaires permettant de reconnaître des formules mathématiques, des styles, etc.
Document AI Workbench
Extrayez, classez et divisez des documents grâce à l'IA générative (modèles de fondation)
Extracteur personnalisé : utilise des modèles de fondation pour créer rapidement des analyseurs sans avoir à étiqueter les données ni à entraîner les modèles de manière exhaustive.
Classificateur personnalisé et séparateur de documents pour un traitement efficace.
Modèles pré-entraînés
Extraction de texte et de champs à partir de documents spécifiques à un domaine.
Extraction et numérisation de textes à partir de divers documents d'approvisionnement, de prêt, d'identité et contractuels
Fonctionnement
Pour interpréter et traiter des documents, utilisez Document AI.
Pour les images, nous vous recommandons d'utiliser Cloud Vision.
Ces deux outils vous donnent accès à des modèles de ML pré-entraînés que vous pouvez déployer en l'état à l'aide d'API ou surentraîner. Vous pouvez également entraîner entièrement vos propres modèles personnalisés en partant de zéro avec AutoML. Aucune expérience en ML n'est nécessaire pour cela.
Les 1 000 premières unités de chaque mois sont gratuites lorsque vous utilisez Cloud Vision ou la fonctionnalité de reconnaissance optique de caractères dans les documents. Vous pouvez essayer ces fonctionnalités avec un simple appel d'API.
Démonstration
Essayez l'API Document AI par simple glisser-déposer.
Utilisations courantes
S'appuyant sur un modèle de fondation, l'extracteur personnalisé Document AI extrait le texte et les données de documents, aussi bien génériques que spécifiques à un domaine, avec davantage de précision et de rapidité. Réglez l'extracteur facilement avec 5 à 10 documents seulement pour des performances encore supérieures.
Si vous souhaitez entraîner votre propre modèle, étiquetez automatiquement vos ensembles de données avec le modèle de fondation pour accélérer la mise en production.
Vous pouvez également choisir d'utiliser des processeurs spécialisés pré-entraînés. Consultez la liste complète des processeurs.
S'appuyant sur un modèle de fondation, l'extracteur personnalisé Document AI extrait le texte et les données de documents, aussi bien génériques que spécifiques à un domaine, avec davantage de précision et de rapidité. Réglez l'extracteur facilement avec 5 à 10 documents seulement pour des performances encore supérieures.
Si vous souhaitez entraîner votre propre modèle, étiquetez automatiquement vos ensembles de données avec le modèle de fondation pour accélérer la mise en production.
Vous pouvez également choisir d'utiliser des processeurs spécialisés pré-entraînés. Consultez la liste complète des processeurs.
Reposant sur l'IA générative, Document AI permet d'extraire avec une grande précision les données de documents dont la mise en page et la qualité peuvent varier. Vous pouvez l'associer à Cloud Storage pour donner à vos documents non structurés une conformité d'entreprise. BigQuery permet de traiter par lot et d'analyser les données extraites comme vous le souhaitez. Avec Looker, vous pouvez créer facilement des visualisations basées sur vos tables BigQuery. Vertex AI Search vous permet d'interroger et d'effectuer des recherches sur vos documents dans Cloud Storage de manière traditionnelle ou conversationnelle.
Comme vous l'avez vu, la configuration de l'ensemble du pipeline prend entre 60 et 90 minutes, et celle de la section Document AI, 10 minutes.
Reposant sur l'IA générative, Document AI permet d'extraire avec une grande précision les données de documents dont la mise en page et la qualité peuvent varier. Vous pouvez l'associer à Cloud Storage pour donner à vos documents non structurés une conformité d'entreprise. BigQuery permet de traiter par lot et d'analyser les données extraites comme vous le souhaitez. Avec Looker, vous pouvez créer facilement des visualisations basées sur vos tables BigQuery. Vertex AI Search vous permet d'interroger et d'effectuer des recherches sur vos documents dans Cloud Storage de manière traditionnelle ou conversationnelle.
Comme vous l'avez vu, la configuration de l'ensemble du pipeline prend entre 60 et 90 minutes, et celle de la section Document AI, 10 minutes.
L'ajout de tags aux images est également appelé "étiquetage d'images".
L'API Cloud Vision permet d'identifier et d'étiqueter des objets, des points de repère, des lieux, des logos, des activités, des espèces animales, des produits et de nombreux autres éléments dans une image. Une fois les images étiquetées à l'aide des thèmes détectés, la recherche, le traitement et la gestion de ces images sont automatisés et plus simples.
Si vous avez besoin d'étiquettes personnalisées ciblées, utilisez Cloud AutoML pour entraîner un modèle de ML personnalisé.
Pour utiliser les technologies d'OCR de Google sur site, utilisez OCR On-Prem, une solution disponible dans Cloud Marketplace.
Pour exécuter un pipeline de traitement d'images de base qui détecte les étiquettes comme présenté à droite, le coût mensuel est de 27,36 $.
Vous pouvez vérifier les hypothèses d'utilisation retenues pour obtenir cette valeur dans le simulateur de coût.
Les 1 000 premières unités sont gratuites chaque mois.
L'ajout de tags aux images est également appelé "étiquetage d'images".
L'API Cloud Vision permet d'identifier et d'étiqueter des objets, des points de repère, des lieux, des logos, des activités, des espèces animales, des produits et de nombreux autres éléments dans une image. Une fois les images étiquetées à l'aide des thèmes détectés, la recherche, le traitement et la gestion de ces images sont automatisés et plus simples.
Si vous avez besoin d'étiquettes personnalisées ciblées, utilisez Cloud AutoML pour entraîner un modèle de ML personnalisé.
Pour utiliser les technologies d'OCR de Google sur site, utilisez OCR On-Prem, une solution disponible dans Cloud Marketplace.
Pour exécuter un pipeline de traitement d'images de base qui détecte les étiquettes comme présenté à droite, le coût mensuel est de 27,36 $.
Vous pouvez vérifier les hypothèses d'utilisation retenues pour obtenir cette valeur dans le simulateur de coût.
Les 1 000 premières unités sont gratuites chaque mois.
Avec l'API Cloud Vision, vous pouvez détecter et extraire du texte et de l'écriture manuscrite à partir d'images dans différentes langues. Cette API est également multirégionale. Vous pouvez ainsi spécifier un stockage de données et un traitement OCR à l'échelle d'un continent.
Vous pouvez choisir d'obtenir les résultats immédiatement pour un petit nombre d'images (jusqu'à 16 par requête) ou de traiter par lot un plus grand nombre d'images (jusqu'à à 2 000 par requête) de manière asynchrone pour obtenir un résultat ultérieurement.
Pour exécuter un pipeline de traitement de base qui extrait le texte des images comme présenté à droite, le coût mensuel est de 27,36 $.
Vous pouvez vérifier les hypothèses d'utilisation retenues pour obtenir cette valeur dans le simulateur de coût.
Les 1 000 premières unités sont gratuites chaque mois.
Avec l'API Cloud Vision, vous pouvez détecter et extraire du texte et de l'écriture manuscrite à partir d'images dans différentes langues. Cette API est également multirégionale. Vous pouvez ainsi spécifier un stockage de données et un traitement OCR à l'échelle d'un continent.
Vous pouvez choisir d'obtenir les résultats immédiatement pour un petit nombre d'images (jusqu'à 16 par requête) ou de traiter par lot un plus grand nombre d'images (jusqu'à à 2 000 par requête) de manière asynchrone pour obtenir un résultat ultérieurement.
Pour exécuter un pipeline de traitement de base qui extrait le texte des images comme présenté à droite, le coût mensuel est de 27,36 $.
Vous pouvez vérifier les hypothèses d'utilisation retenues pour obtenir cette valeur dans le simulateur de coût.
Les 1 000 premières unités sont gratuites chaque mois.
Tarification
Combien peut me coûter mon cas d'utilisation ? | Découvrez les coûts mensuels engendrés par un cas d'utilisation précis, avec les produits dont vous avez besoin et selon les hypothèses d'utilisation principales retenues. | ||
---|---|---|---|
Cas d'utilisation | Produits utilisés | Hypothèses sur l'utilisation | Coût mensuel estimé (USD) |
Ajout de tags, traitement et recherche d'images | Cloud Vision Cloud Storage Pub/Sub Cloud Run | 1. 15 000 appels à l'API Cloud Vision de détection d'étiquettes par mois 2. 100 Gio d'espace de stockage (tarification mensuelle) 3. Un processeur de 1,25 Gio 4. Quatre Gio publiés quotidiennement via Pub/Sub | 27,36 $ |
Extraire du texte des documents et dégager des insights | Document AI Cloud Storage BigQuery Cloud Functions | 1. 1 000 appels à l'API d'analyse de formulaires de Document AI par mois 2. 100 Gio d'espace de stockage (tarification mensuelle) 3. 1 Tio de requêtes par mois 4. Mémoire RAM : 512 Mo ; CPU : 800 MHz | 71,87 $ |
Extraire du texte à partir d'images | Cloud Vision Cloud Storage Pub/Sub Cloud Run | 1. 15 000 appels à l'API Cloud Vision OCR par mois 2. 100 Gio d'espace de stockage (tarification mensuelle) 3. Un processeur de 1,25 Gio 4. Quatre Gio publiés quotidiennement via Pub/Sub | 27,36 $ |
Consultez le détail des tarifs unitaires pour Document AI, l'API Vision et AutoML.
Combien peut me coûter mon cas d'utilisation ?
Découvrez les coûts mensuels engendrés par un cas d'utilisation précis, avec les produits dont vous avez besoin et selon les hypothèses d'utilisation principales retenues.
Cloud Vision
Cloud Storage
Pub/Sub
Cloud Run
1. 15 000 appels à l'API Cloud Vision de détection d'étiquettes par mois
2. 100 Gio d'espace de stockage (tarification mensuelle)
3. Un processeur de 1,25 Gio
4. Quatre Gio publiés quotidiennement via Pub/Sub
27,36 $
Document AI
Cloud Storage
BigQuery
Cloud Functions
1. 1 000 appels à l'API d'analyse de formulaires de Document AI par mois
2. 100 Gio d'espace de stockage (tarification mensuelle)
3. 1 Tio de requêtes par mois
4. Mémoire RAM : 512 Mo ; CPU : 800 MHz
71,87 $
Cloud Vision
Cloud Storage
Pub/Sub
Cloud Run
1. 15 000 appels à l'API Cloud Vision OCR par mois
2. 100 Gio d'espace de stockage (tarification mensuelle)
3. Un processeur de 1,25 Gio
4. Quatre Gio publiés quotidiennement via Pub/Sub
27,36 $
Consultez le détail des tarifs unitaires pour Document AI, l'API Vision et AutoML.