Cette page explique comment débuter avec les bibliothèques clientes Cloud pour l'API Document AI Toolbox. Les bibliothèques clientes facilitent l'accès aux APIGoogle Cloud à l'aide d'un langage compatible. Bien que vous puissiez utiliser directement les APIGoogle Cloud en envoyant des requêtes brutes au serveur, les bibliothèques clientes fournissent des simplifications qui réduisent considérablement la quantité de code à écrire.
Pour en savoir plus sur les bibliothèques clientes Cloud et les anciennes bibliothèques clientes des API Google, consultez la page Présentation des bibliothèques clientes.
Installer la bibliothèque cliente
Python
pip install --upgrade google-cloud-documentai-toolbox
Pour en savoir plus, consultez la page Configurer un environnement de développement Python.
Configurer l'authentification
Pour authentifier les appels aux API Google Cloud , les bibliothèques clientes sont compatibles avec les identifiants par défaut de l'application (ADC). Les bibliothèques recherchent des identifiants dans un ensemble d'emplacements définis et les utilisent pour authentifier les requêtes adressées à l'API. Le service ADC vous permet de mettre des identifiants à disposition de votre application dans divers environnements, tels que l'environnement de développement local ou l'environnement de production, sans avoir à modifier le code de votre application.Pour les environnements de production, la façon de configurer le service ADC dépend du service et du contexte. Pour en savoir plus, consultez la page Configurer les identifiants par défaut de l'application.
Pour un environnement de développement local, vous pouvez configurer ADC avec les identifiants associés à votre compte Google :
-
Install the Google Cloud CLI, then initialize it by running the following command:
gcloud init
-
If you're using a local shell, then create local authentication credentials for your user account:
gcloud auth application-default login
You don't need to do this if you're using Cloud Shell.
Un écran de connexion s'affiche. Une fois que vous êtes connecté, vos identifiants sont stockés dans le fichier d'identifiants local utilisé par ADC.
Utiliser la bibliothèque cliente
Document AI Toolbox est un SDK pour Python qui fournit des fonctions utilitaires permettant de gérer, de manipuler et d'extraire des informations de la réponse du document.
Il crée un objet de document "encapsulant" une réponse de document traitée à partir de fichiers JSON dans Cloud Storage, de fichiers JSON locaux ou de la sortie directement à partir de la méthode process_document()
.
Il peut effectuer les actions suivantes:
- Combinez les fichiers JSON
Document
fragmentés du traitement par lot dans un seul document "encapsulant". - Exportez les fragments en tant que
Document
unifié. -
Obtenez la sortie
Document
à partir de : - Accédez au texte de
Pages
,Lines
,Paragraphs
,FormFields
etTables
sans gérer les informationsLayout
. - Recherchez un
Pages
contenant une chaîne cible ou correspondant à une expression régulière. - Recherchez
FormFields
par nom. - Recherchez
Entities
par type. - Convertissez
Tables
en DataFrame Pandas ou en CSV. - Insérez
Entities
etFormFields
dans une table BigQuery. - Divisez un fichier PDF en fonction de la sortie d'un processeur de fractionnement/classification.
- Extrayez l'image
Entities
à partir des cadres de délimitationDocument
. -
Convertir
Documents
vers et depuis des formats couramment utilisés :- API Cloud Vision
AnnotateFileResponse
- hOCR
- Formats de traitement de documents tiers
- API Cloud Vision
- Créez des lots de documents à traiter à partir d'un dossier Cloud Storage.
Exemples de code
Les exemples de code suivants montrent comment utiliser Document AI Toolbox.
Guide de démarrage rapide
Tables
BigQuery Export
Fractionnement du fichier PDF
Extraction d'images
Conversion de vision
Conversion hOCR
Conversion tierce
Lots de documents
Fusionner des fragments de documents
Autres ressources
Python
La liste suivante contient des liens vers d'autres ressources liées à la bibliothèque cliente pour Python :