Esta página ayuda a los desarrolladores a configurar un proyecto para usar el servicio Speech-to-Text. Este proceso incluye la creación de un proyecto, la habilitación de la API Speech-to-Text, la instalación de bibliotecas de cliente, la definición de variables de entorno y la autenticación de tus credenciales. Si no conoces Vertex AI, consulta más información sobre las funciones de reconocimiento de voz.
Para configurar un proyecto de reconocimiento de voz con la consola de GDC y la CLI de gdcloud, sigue estos pasos:
- Consola de GDC: habilita la API Speech-to-Text y consulta el estado del servicio y el endpoint.
- La CLI de gdcloud: configura cuentas de servicio para interactuar con la API Speech-to-Text, instala bibliotecas de cliente y autentica solicitudes de API.
Crear un proyecto
Al crear un proyecto de reconocimiento de voz en tu jerarquía de recursos de Distributed Cloud, se organizan tus recursos de Speech-to-Text, que incluyen colaboradores, APIs habilitadas, herramientas de monitorización, información de facturación, credenciales de autenticación y controles de acceso.
Para crear un proyecto, consulta Configurar un proyecto para Vertex AI. Necesitarás el ID de tu proyecto para hacer llamadas a la API.
Solicitar permisos de desarrollador
Debes tener el rol de desarrollador de IA de voz en tu proyecto para acceder a las funciones de reconocimiento de voz y generar un token de API para la autenticación y autorización de solicitudes.
Pide al administrador de IAM del proyecto que asigne el rol Desarrollador de Speech de IA (ai-speech-developer
) a tu usuario o cuenta de servicio en el espacio de nombres de tu proyecto. Para obtener información sobre este rol, consulta Preparar permisos de gestión de identidades y accesos.
Habilita la API Speech-to-Text
Debes habilitar la API preentrenada Speech-to-Text en tu proyecto. Si está habilitada, puedes ver el estado del servicio y el endpoint de la API preentrenada Speech-to-Text.
Instalar bibliotecas de cliente
Las bibliotecas de cliente están disponibles para el lenguaje de programación Python. Te recomendamos que uses estas bibliotecas de cliente para hacer llamadas a la API Speech-to-Text, ya que facilitan el acceso a las APIs.
Instala la biblioteca de cliente Speech-to-Text y sigue estos pasos para asegurarte de que tienes la versión correcta:
Comprueba si la biblioteca de cliente Speech-to-Text está instalada y obtén el número de versión:
pip freeze | grep speech
Si la biblioteca de cliente ya está instalada, obtendrás un resultado similar al siguiente ejemplo:
google-cloud-speech==2.15.0
El número de versión que obtengas debe coincidir con la biblioteca de cliente en el siguiente endpoint:
https://GDC_URL/.well-known/static/client-libraries
Sustituye
GDC_URL
por la URL de tu organización en GDC.Si los números de versión no coinciden, desinstala la biblioteca de cliente:
pip uninstall google-cloud-speech
Si has desinstalado la biblioteca de cliente Speech-to-Text, debes volver a instalarla especificando el nombre de archivo correspondiente a tu sistema operativo.
Definir las variables de entorno
Después de instalar la biblioteca de cliente de Speech-to-Text, puedes interactuar con la API desde una secuencia de comandos de Python.
Si configuras una cuenta de servicio en tu proyecto para hacer llamadas a la API autorizadas de forma programática, puedes definir variables de entorno en la secuencia de comandos de Python para acceder a valores como las claves de la cuenta de servicio durante la ejecución.
Sigue estos pasos para definir las variables de entorno necesarias en una secuencia de comandos de Python:
Crea un cuaderno de JupyterLab para interactuar con la API preentrenada Speech-to-Text.
Crea una secuencia de comandos de Python en el cuaderno de JupyterLab.
Añade el siguiente código a la secuencia de comandos de Python:
import os os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = "APPLICATION_DEFAULT_CREDENTIALS_FILENAME"
Sustituye
APPLICATION_DEFAULT_CREDENTIALS_FILENAME
por el nombre del archivo JSON que contiene las claves de la cuenta de servicio que has creado en el proyecto, comomy-service-key.json
.Guarda la secuencia de comandos de Python con un nombre, como
speech.py
.Ejecuta la secuencia de comandos de Python para definir las variables de entorno:
python SCRIPT_NAME
Sustituye
SCRIPT_NAME
por el nombre que le hayas dado a tu script de Python, comospeech.py
.
Configurar la autenticación
Antes de empezar a usar la API Speech-to-Text, debes autenticar tus credenciales de cliente y solicitar acceso a la cuenta de los recursos de tu proyecto. Para obtener más información, consulta Autenticar solicitudes a la API.