En esta página se explica cómo empezar a usar las bibliotecas de cliente de Cloud para la API Document AI Toolbox. Las bibliotecas de cliente facilitan el acceso a lasGoogle Cloud APIs desde un lenguaje compatible. Aunque puedes usar las APIs deGoogle Cloud directamente haciendo solicitudes sin formato al servidor, las bibliotecas de cliente ofrecen simplificaciones que reducen significativamente la cantidad de código que tienes que escribir.
Consulta más información sobre las bibliotecas de cliente de Cloud y las bibliotecas de cliente de las APIs de Google anteriores en el artículo Información sobre las bibliotecas de cliente.
Instalar la biblioteca cliente
Python
pip install --upgrade google-cloud-documentai-toolbox
Para obtener más información, consulta Configurar un entorno de desarrollo de Python.
Configurar la autenticación
Para autenticar las llamadas a las APIs de Google Cloud , las bibliotecas de cliente admiten las credenciales predeterminadas de la aplicación (ADC). Las bibliotecas buscan credenciales en un conjunto de ubicaciones definidas y las usan para autenticar las solicitudes a la API. Con ADC, puede poner las credenciales a disposición de su aplicación en diversos entornos, como el desarrollo local o la producción, sin necesidad de modificar el código de la aplicación.En los entornos de producción, la forma de configurar ADC depende del servicio y del contexto. Para obtener más información, consulta Configurar credenciales predeterminadas de la aplicación.
En un entorno de desarrollo local, puedes configurar ADC con las credenciales asociadas a tu cuenta de Google:
-
Install the Google Cloud CLI. After installation, initialize the Google Cloud CLI by running the following command:
gcloud init
If you're using an external identity provider (IdP), you must first sign in to the gcloud CLI with your federated identity.
-
If you're using a local shell, then create local authentication credentials for your user account:
gcloud auth application-default login
You don't need to do this if you're using Cloud Shell.
If an authentication error is returned, and you are using an external identity provider (IdP), confirm that you have signed in to the gcloud CLI with your federated identity.
Aparecerá una pantalla de inicio de sesión. Después de iniciar sesión, tus credenciales se almacenan en el archivo de credenciales local que usa ADC.
Usar la biblioteca de cliente
Document AI Toolbox es un SDK para Python que proporciona funciones de utilidad para gestionar, manipular y extraer información de la respuesta del documento.
Crea un objeto de documento "envoltorio" a partir de una respuesta de documento procesado de archivos JSON en Cloud Storage, archivos JSON locales o la salida directamente del método process_document()
.
Puede realizar las siguientes acciones:
- Combina archivos JSON
Document
fragmentados del procesamiento por lotes en un solo documento "envuelto". - Exporta los fragmentos como un archivo
Document
unificado. -
Obtener el resultado de
Document
de: - Accede al texto de
Pages
,Lines
,Paragraphs
,FormFields
yTables
sin gestionar informaciónLayout
. - Busca un
Pages
que contenga una cadena de destino o que coincida con una expresión regular. - Busca
FormFields
por su nombre. - Buscar
Entities
por tipo. - Convierte
Tables
en un dataframe de Pandas o en un archivo CSV. - Inserta
Entities
yFormFields
en una tabla de BigQuery. - Dividir un archivo PDF en función de la salida de un procesador de división o clasificación.
- Extrae la imagen
Entities
de losDocument
cuadros delimitadores. -
Convertir
Documents
a formatos de uso habitual y viceversa:- API Cloud Vision
AnnotateFileResponse
- hOCR
- Formatos de procesamiento de documentos de terceros
- API Cloud Vision
- Crea lotes de documentos para procesarlos desde una carpeta de Cloud Storage.
Códigos de ejemplo
En los siguientes ejemplos de código se muestra cómo usar Document AI Toolbox.
Guía de inicio rápido
Tablas
Exportación a BigQuery
PDF dividido
Extracción de imágenes
Conversión de visión
Conversión hOCR
Conversión de terceros
Lotes de documentos
Combinar fragmentos de documentos
Recursos adicionales
Python
La siguiente lista contiene enlaces a más recursos relacionados con la biblioteca de cliente de Python: