Cette page explique comment débuter avec les bibliothèques clientes Cloud pour l'API Document AI Toolbox. Les bibliothèques clientes facilitent l'accès aux APIGoogle Cloud à l'aide d'un langage compatible. Bien que vous puissiez utiliser directement les APIGoogle Cloud en envoyant des requêtes brutes au serveur, les bibliothèques clientes fournissent des simplifications qui réduisent considérablement la quantité de code à écrire.
Pour en savoir plus sur les bibliothèques clientes Cloud et les anciennes bibliothèques clientes des API Google, consultez la page Présentation des bibliothèques clientes.
Installer la bibliothèque cliente
Python
pip install --upgrade google-cloud-documentai-toolbox
Pour en savoir plus, consultez la page Configurer un environnement de développement Python.
Configurer l'authentification
Pour authentifier les appels aux API Google Cloud , les bibliothèques clientes sont compatibles avec les ADC (Identifiants par défaut de l'application). Les bibliothèques recherchent des identifiants dans un ensemble d'emplacements définis et les utilisent pour authentifier les requêtes adressées à l'API. Le service Identifiants par défaut de l'application vous permet de mettre des identifiants à disposition de votre application dans divers environnements, tels que l'environnement de développement ou de production local, sans avoir à modifier le code de votre application.Pour les environnements de production, la façon de configurer le service ADC dépend du service et du contexte. Pour en savoir plus, consultez Configurer le service Identifiants par défaut de l'application.
Pour un environnement de développement local, vous pouvez configurer ADC avec les identifiants associés à votre compte Google :
-
Install the Google Cloud CLI. After installation, initialize the Google Cloud CLI by running the following command:
gcloud init
If you're using an external identity provider (IdP), you must first sign in to the gcloud CLI with your federated identity.
-
If you're using a local shell, then create local authentication credentials for your user account:
gcloud auth application-default login
You don't need to do this if you're using Cloud Shell.
If an authentication error is returned, and you are using an external identity provider (IdP), confirm that you have signed in to the gcloud CLI with your federated identity.
Un écran de connexion s'affiche. Une fois que vous êtes connecté, vos identifiants sont stockés dans le fichier d'identifiants local utilisé par le service Identifiants par défaut de l'application.
Utiliser la bibliothèque cliente
Document AI Toolbox est un SDK pour Python qui fournit des fonctions utilitaires permettant de gérer, de manipuler et d'extraire des informations de la réponse du document.
Il crée un objet de document "encapsulé" à partir d'une réponse de document traité provenant de fichiers JSON dans Cloud Storage, de fichiers JSON locaux ou d'une sortie directement à partir de la méthode process_document()
.
Il peut effectuer les actions suivantes :
- Combiner les fichiers JSON
Document
fragmentés du traitement par lot en un seul document "encapsulé". - Exporter les partitions en tant que
Document
unifié. -
Obtenez le résultat
Document
à partir de : - Accédez au texte de
Pages
,Lines
,Paragraphs
,FormFields
etTables
sans traiter les informationsLayout
. - Recherchez un
Pages
contenant une chaîne cible ou correspondant à une expression régulière. - Recherchez
FormFields
par nom. - Recherchez
Entities
par type. - Convertissez
Tables
en DataFrame Pandas ou en CSV. - Insérez
Entities
etFormFields
dans une table BigQuery. - Divisez un fichier PDF en fonction de la sortie d'un processeur Splitter/Classifier.
- Extrais l'image
Entities
des cadres de délimitation deDocument
. -
Convertissez
Documents
vers et depuis les formats les plus courants :- API Cloud Vision
AnnotateFileResponse
- hOCR
- Formats de traitement des documents tiers
- API Cloud Vision
- Créez des lots de documents à traiter à partir d'un dossier Cloud Storage.
Exemples de code
Les exemples de code suivants montrent comment utiliser Document AI Toolbox.
Guide de démarrage rapide
Tables
BigQuery Export
Fractionner un PDF
Extraction d'images
Conversion de la vision
Conversion hOCR
Conversion tierce
Traiter des lots de documents
Fusionner les fragments de document
Autres ressources
Python
La liste suivante contient des liens vers d'autres ressources liées à la bibliothèque cliente pour Python :