Vous trouverez sur cette page la procédure à suivre pour transcrire en texte des fichiers audio longs (de plus d'une minute) à l'aide de l'API Speech-to-Text et de la reconnaissance vocale asynchrone.
À propos de la reconnaissance vocale asynchrone
La reconnaissance vocale asynchrone lance une opération de traitement audio de longue durée. Servez-vous de cette fonctionnalité pour transcrire des fichiers audio d'une durée supérieure à 60 secondes. Pour des contenus audio plus courts, la reconnaissance vocale synchrone est plus rapide et plus simple. La limite supérieure pour la reconnaissance vocale asynchrone est de 480 minutes (8 heures).
La reconnaissance vocale par lot ne peut que transcrire des fichiers audio qui sont stockés dans Cloud Storage. Le résultat de la transcription peut être fourni de manière intégrée dans la réponse (pour les requêtes de reconnaissance par lot portant sur un seul fichier), ou bien écrit dans Cloud Storage.
La requête de reconnaissance par lot renvoie un objet Operation
qui contient des informations sur le traitement de la reconnaissance en cours de votre requête. Vous pouvez interroger l'opération pour savoir quand elle est terminée et si des transcriptions sont disponibles.
Avant de commencer
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Speech-to-Text APIs.
-
Make sure that you have the following role or roles on the project: Cloud Speech Administrator
Check for the roles
-
In the Google Cloud console, go to the IAM page.
Go to IAM - Select the project.
-
In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
- For all rows that specify or include you, check the Role colunn to see whether the list of roles includes the required roles.
Grant the roles
-
In the Google Cloud console, go to the IAM page.
Accéder à IAM - Sélectionnez le projet.
- Cliquez sur Accorder l'accès.
-
Dans le champ Nouveaux comptes principaux, saisissez votre identifiant utilisateur. Il s'agit généralement de l'adresse e-mail d'un compte Google.
- Dans la liste Sélectionner un rôle, sélectionnez un rôle.
- Pour attribuer des rôles supplémentaires, cliquez sur Ajouter un autre rôle et ajoutez chaque rôle supplémentaire.
- Cliquez sur Enregistrer.
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
-
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Speech-to-Text APIs.
-
Make sure that you have the following role or roles on the project: Cloud Speech Administrator
Check for the roles
-
In the Google Cloud console, go to the IAM page.
Go to IAM - Select the project.
-
In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
- For all rows that specify or include you, check the Role colunn to see whether the list of roles includes the required roles.
Grant the roles
-
In the Google Cloud console, go to the IAM page.
Accéder à IAM - Sélectionnez le projet.
- Cliquez sur Accorder l'accès.
-
Dans le champ Nouveaux comptes principaux, saisissez votre identifiant utilisateur. Il s'agit généralement de l'adresse e-mail d'un compte Google.
- Dans la liste Sélectionner un rôle, sélectionnez un rôle.
- Pour attribuer des rôles supplémentaires, cliquez sur Ajouter un autre rôle et ajoutez chaque rôle supplémentaire.
- Cliquez sur Enregistrer.
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
-
-
If you're using a local shell, then create local authentication credentials for your user account:
gcloud auth application-default login
You don't need to do this if you're using Cloud Shell.
Les bibliothèques clientes peuvent utiliser les identifiants par défaut de l'application pour s'authentifier facilement auprès des API Google et envoyer des requêtes à ces API. Ces identifiants vous permettent de tester votre application localement et de la déployer sans modifier le code sous-jacent. Pour plus d'informations, consultez la page Authentifiez-vous à l'aide des bibliothèques clientes.
Vérifiez également que vous avez installé la bibliothèque cliente.
Activer l'accès à Cloud Storage
Speech-to-Text utilise un compte de service pour accéder à vos fichiers dans Cloud Storage. Par défaut, le compte de service a accès aux fichiers Cloud Storage dans le même projet.
L'adresse e-mail du compte de service est la suivante:
service-PROJECT_NUMBER@gcp-sa-speech.iam.gserviceaccount.com
Pour transcrire des fichiers Cloud Storage situés dans un autre projet, vous pouvez attribuer au compte de service le rôle Agent de service Speech-to-Text dans l'autre projet :
gcloud projects add-iam-policy-binding PROJECT_ID \
--member=serviceAccount:service-PROJECT_NUMBER@gcp-sa-speech.iam.gserviceaccount.com \
--role=roles/speech.serviceAgent
Pour en savoir plus sur la stratégie IAM du projet, consultez la page Gérer l'accès aux projets, aux dossiers et aux organisations.
Vous pouvez également accorder au compte de service un accès plus précis en lui accordant une autorisation sur un bucket Cloud Storage spécifique:
gsutil iam ch serviceAccount:service-PROJECT_NUMBER@gcp-sa-speech.iam.gserviceaccount.com:admin \
gs://BUCKET_NAME
Pour en savoir plus sur la gestion des accès à Cloud Storage, consultez la page intitulée Créer et gérer des listes de contrôle d'accès dans la documentation Cloud Storage.
Effectuer une reconnaissance par lot avec des résultats intégrés
Voici un exemple d'exécution de reconnaissance vocale par lot sur un fichier audio dans Cloud Storage, et de lecture des résultats de transcription intégrés à partir de la réponse :
Python
Effectuer une reconnaissance par lot et écrire les résultats dans Cloud Storage
Voici un exemple d'exécution de reconnaissance vocale par lot sur un fichier audio dans Cloud Storage, et de lecture des résultats de transcription à partir du fichier de sortie dans Cloud Storage. Notez que le fichier écrit dans Cloud Storage est un message BatchRecognizeResults
au format JSON :
Python
Effectuer une reconnaissance par lot sur plusieurs fichiers
Voici un exemple d'exécution de reconnaissance vocale par lot sur plusieurs fichiers audio dans Cloud Storage, et de lecture des résultats de transcription à partir des fichiers de sortie dans Cloud Storage :
Python
Activer le traitement par lot dynamique lors de la reconnaissance par lot
Le traitement par lot dynamique assure une transcription à moindre coût, en offrant une latence plus élevée. Cette fonctionnalité n'est disponible que pour la reconnaissance par lot.
Voici un exemple d'exécution de reconnaissance par lot sur un fichier audio dans Cloud Storage en ayant activé le traitement par lot dynamique :
Python
Remplacer les fonctionnalités de reconnaissance à l'échelle d'un fichier
La reconnaissance par lot utilise par défaut la même configuration de reconnaissance pour chaque fichier de la requête de reconnaissance par lot. Si certains fichiers nécessitent une configuration ou des fonctionnalités différentes, vous pouvez remplacer la configuration à l'échelle d'un fichier, à l'aide du champ config
du message [BatchRecognizeFileMetadata
][batch-file-metadata-grpc]. Pour obtenir un exemple de remplacement des fonctionnalités de reconnaissance, consultez la documentation sur les programmes de reconnaissance.
Effectuer un nettoyage
Pour éviter que les ressources utilisées sur cette page soient facturées sur votre compte Google Cloud, suivez les étapes ci-dessous :
-
Optional: Revoke the authentication credentials that you created, and delete the local credential file.
gcloud auth application-default revoke
-
Optional: Revoke credentials from the gcloud CLI.
gcloud auth revoke
Console
gcloud
Delete a Google Cloud project:
gcloud projects delete PROJECT_ID
Étapes suivantes
- Consultez la documentation de référence sur la reconnaissance par lot.
- Découvrez comment transcrire du contenu audio diffusé en streaming.
- Entraînez-vous à transcrire des fichiers audio courts.
- Transcrivez des fichiers audio à l'aide de Chirp.
- Pour obtenir des conseils, entre autres sur l'optimisation des performances et l'amélioration de la précision, consultez la documentation relative aux bonnes pratiques.