Configurar un proyecto de reconocimiento de voz

Esta página ayuda a los desarrolladores a configurar un proyecto para usar el servicio Speech-to-Text. Este proceso incluye la creación de un proyecto, la habilitación de la API Speech-to-Text, la instalación de bibliotecas de cliente, la definición de variables de entorno y la autenticación de tus credenciales. Si no conoces Vertex AI, consulta más información sobre las funciones de reconocimiento de voz.

Para configurar un proyecto de reconocimiento de voz con la consola de GDC y la CLI de gdcloud, sigue estos pasos:

  • Consola de GDC: habilita la API Speech-to-Text y consulta el estado del servicio y el endpoint.
  • La CLI de gdcloud: configura cuentas de servicio para interactuar con la API Speech-to-Text, instala bibliotecas de cliente y autentica solicitudes de API.

Crear un proyecto

Al crear un proyecto de reconocimiento de voz en tu jerarquía de recursos de Distributed Cloud, se organizan tus recursos de Speech-to-Text, que incluyen colaboradores, APIs habilitadas, herramientas de monitorización, información de facturación, credenciales de autenticación y controles de acceso.

Para crear un proyecto, consulta Configurar un proyecto para Vertex AI. Necesitarás el ID de tu proyecto para hacer llamadas a la API.

Solicitar permisos de desarrollador

Debes tener el rol de desarrollador de IA de voz en tu proyecto para acceder a las funciones de reconocimiento de voz y generar un token de API para la autenticación y autorización de solicitudes.

Pide al administrador de IAM del proyecto que asigne el rol Desarrollador de Speech de IA (ai-speech-developer) a tu usuario o cuenta de servicio en el espacio de nombres de tu proyecto. Para obtener información sobre este rol, consulta Preparar permisos de gestión de identidades y accesos.

Habilita la API Speech-to-Text

Debes habilitar la API preentrenada Speech-to-Text en tu proyecto. Si está habilitada, puedes ver el estado del servicio y el endpoint de la API preentrenada Speech-to-Text.

Instalar bibliotecas de cliente

Las bibliotecas de cliente están disponibles para el lenguaje de programación Python. Te recomendamos que uses estas bibliotecas de cliente para hacer llamadas a la API Speech-to-Text, ya que facilitan el acceso a las APIs.

Instala la biblioteca de cliente Speech-to-Text y sigue estos pasos para asegurarte de que tienes la versión correcta:

  1. Comprueba si la biblioteca de cliente Speech-to-Text está instalada y obtén el número de versión:

    pip freeze | grep speech
    

    Si la biblioteca de cliente ya está instalada, obtendrás un resultado similar al siguiente ejemplo:

    google-cloud-speech==2.15.0
    

    El número de versión que obtengas debe coincidir con la biblioteca de cliente en el siguiente endpoint:

    https://GDC_URL/.well-known/static/client-libraries
    

    Sustituye GDC_URL por la URL de tu organización en GDC.

  2. Si los números de versión no coinciden, desinstala la biblioteca de cliente:

    pip uninstall google-cloud-speech
    
  3. Si has desinstalado la biblioteca de cliente Speech-to-Text, debes volver a instalarla especificando el nombre de archivo correspondiente a tu sistema operativo.

Definir las variables de entorno

Después de instalar la biblioteca de cliente de Speech-to-Text, puedes interactuar con la API desde una secuencia de comandos de Python.

Si configuras una cuenta de servicio en tu proyecto para hacer llamadas a la API autorizadas de forma programática, puedes definir variables de entorno en la secuencia de comandos de Python para acceder a valores como las claves de la cuenta de servicio durante la ejecución.

Sigue estos pasos para definir las variables de entorno necesarias en una secuencia de comandos de Python:

  1. Crea un cuaderno de JupyterLab para interactuar con la API preentrenada Speech-to-Text.

  2. Crea una secuencia de comandos de Python en el cuaderno de JupyterLab.

  3. Añade el siguiente código a la secuencia de comandos de Python:

    import os
    
    os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = "APPLICATION_DEFAULT_CREDENTIALS_FILENAME"
    

    Sustituye APPLICATION_DEFAULT_CREDENTIALS_FILENAME por el nombre del archivo JSON que contiene las claves de la cuenta de servicio que has creado en el proyecto, como my-service-key.json.

  4. Guarda la secuencia de comandos de Python con un nombre, como speech.py.

  5. Ejecuta la secuencia de comandos de Python para definir las variables de entorno:

    python SCRIPT_NAME
    

    Sustituye SCRIPT_NAME por el nombre que le hayas dado a tu script de Python, como speech.py.

Configurar la autenticación

Antes de empezar a usar la API Speech-to-Text, debes autenticar tus credenciales de cliente y solicitar acceso a la cuenta de los recursos de tu proyecto. Para obtener más información, consulta Autenticar solicitudes a la API.