Configurar un proyecto de reconocimiento de caracteres

En esta página se explica cómo pueden configurar los desarrolladores un proyecto de dispositivo aislado de Google Distributed Cloud (GDC) para usar el servicio de reconocimiento óptico de caracteres (OCR). Este proceso incluye la creación de un proyecto, la habilitación de la API OCR, la instalación de bibliotecas de cliente, la definición de variables de entorno y la autenticación de tus credenciales. Si no tienes experiencia con Vertex AI, consulta más información sobre las funciones de reconocimiento de caracteres.

Para configurar un proyecto de reconocimiento de caracteres con la consola de GDC y la CLI de gdcloud, sigue estos pasos:

  • Consola de GDC: habilita la API OCR y consulta el estado del servicio y el endpoint.
  • La CLI de gdcloud: configura cuentas de servicio para interactuar con la API OCR, instala bibliotecas de cliente y autentica solicitudes de API.

Crear un proyecto

Al crear un proyecto de reconocimiento de caracteres, se organizan tus recursos de OCR, que incluyen colaboradores, APIs habilitadas, credenciales de autenticación y controles de acceso.

Para crear un proyecto, consulta Configurar un proyecto para Vertex AI. Necesitarás el ID de tu proyecto para hacer llamadas a la API.

Solicitar permisos de desarrollador

Debes tener el rol de desarrollador de OCR de IA en tu proyecto para acceder a las funciones de reconocimiento óptico de caracteres y generar un token de API para la autenticación y autorización de solicitudes.

Pide al administrador de gestión de identidades y accesos de tu proyecto que asigne el rol Desarrollador de OCR con IA (ai-ocr-developer) a tu usuario o cuenta de servicio en el espacio de nombres de tu proyecto. Para obtener información sobre este rol, consulta Preparar permisos de gestión de identidades y accesos.

Habilitar la API OCR

Debes habilitar la API preentrenada de OCR en tu proyecto. Si está habilitada, puede ver el estado del servicio y el endpoint de la API preentrenada de OCR.

Instalar bibliotecas de cliente

Las bibliotecas de cliente están disponibles para el lenguaje de programación Python. Recomendamos usar estas bibliotecas de cliente para hacer llamadas a la API OCR, ya que facilitan el acceso a las APIs.

Instala la biblioteca de cliente de OCR y sigue estos pasos para asegurarte de que tienes la versión correcta:

  1. Comprueba si la biblioteca de cliente de OCR está instalada y obtén el número de versión:

    pip freeze | grep vision
    

    Si la biblioteca de cliente ya está instalada, obtendrás un resultado similar al siguiente ejemplo:

    google-cloud-vision==3.0.0
    

    El número de versión que obtengas debe coincidir con la biblioteca de cliente en el siguiente endpoint:

    https://GDC_URL/.well-known/static/client-libraries
    

    Sustituye GDC_URL por la URL de tu organización en GDC.

  2. Si los números de versión no coinciden, desinstala la biblioteca de cliente:

    pip uninstall google-cloud-vision
    
  3. Si has desinstalado la biblioteca de cliente de OCR, debes volver a instalarla especificando el nombre de archivo correspondiente a tu sistema operativo.

Definir las variables de entorno

Después de instalar la biblioteca de cliente de OCR, puedes interactuar con la API desde una secuencia de comandos de Python.

Si configuras una cuenta de servicio en tu proyecto para hacer llamadas a la API autorizadas de forma programática, puedes definir variables de entorno en la secuencia de comandos de Python para acceder a valores como las claves de la cuenta de servicio durante la ejecución.

Sigue estos pasos para definir las variables de entorno necesarias en una secuencia de comandos de Python:

  1. Crea una secuencia de comandos de Python.

  2. Añade el siguiente código a la secuencia de comandos de Python:

    import os
    
    os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = "APPLICATION_DEFAULT_CREDENTIALS_FILENAME"
    

    Sustituye APPLICATION_DEFAULT_CREDENTIALS_FILENAME por el nombre del archivo JSON que contiene las claves de la cuenta de servicio que has creado en el proyecto, como my-service-key.json.

  3. Guarda la secuencia de comandos de Python con un nombre, como vision.py.

  4. Ejecuta la secuencia de comandos de Python para definir las variables de entorno:

    python SCRIPT_NAME
    

    Sustituye SCRIPT_NAME por el nombre que le hayas dado a tu script de Python, como vision.py.

Configurar la autenticación

Antes de empezar a usar la API OCR, debes autenticar tus credenciales de cliente y solicitar acceso a la cuenta de los recursos de tu proyecto. Para obtener más información, consulta Autenticar solicitudes a la API.