Vous trouverez sur cette page la procédure à suivre pour transcrire en texte des fichiers audio longs (de plus d'une minute) à l'aide de l'API Speech-to-Text et de la reconnaissance vocale asynchrone.
À propos de la reconnaissance vocale asynchrone
La reconnaissance vocale asynchrone lance une opération de traitement audio de longue durée. Servez-vous de cette fonctionnalité pour transcrire des fichiers audio d'une durée supérieure à 60 secondes. Pour des contenus audio plus courts, la reconnaissance vocale synchrone est plus rapide et plus simple. La limite supérieure pour la reconnaissance vocale asynchrone est de 480 minutes (8 heures).
La reconnaissance vocale par lot ne peut que transcrire des fichiers audio qui sont stockés dans Cloud Storage. Le résultat de la transcription peut être fourni de manière intégrée dans la réponse (pour les requêtes de reconnaissance par lot portant sur un seul fichier), ou bien écrit dans Cloud Storage.
La requête de reconnaissance par lot renvoie un objet Operation
qui contient des informations sur le traitement de la reconnaissance en cours de votre requête. Vous pouvez interroger l'opération pour savoir quand elle est terminée et si des transcriptions sont disponibles.
Avant de commencer
- Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Vérifiez que la facturation est activée pour votre projet Google Cloud.
-
Activer les API Speech-to-Text.
-
Assurez-vous que vous disposez du ou des rôles suivants au niveau du projet : Cloud Speech Administrator
Vérifier les rôles
-
Dans la console Google Cloud, accédez à la page IAM.
Accéder à IAM - Sélectionnez le projet.
-
Dans la colonne Compte principal, recherchez la ligne qui contient votre adresse e-mail.
Si votre adresse e-mail ne figure pas dans cette colonne, cela signifie que vous n'avez aucun rôle.
- Dans la colonne Rôle de la ligne contenant votre adresse e-mail, vérifiez si la liste des rôles inclut les rôles requis.
Attribuer les rôles
-
Dans la console Google Cloud, accédez à la page IAM.
Accéder à IAM - Sélectionnez le projet.
- Cliquez sur Accorder l'accès.
- Dans le champ Nouveaux comptes principaux, saisissez votre adresse e-mail.
- Dans la liste Sélectinoner un rôle, sélectionnez un rôle.
- Pour attribuer des rôles supplémentaires, cliquez sur Ajouter un autre rôle et ajoutez chaque rôle supplémentaire.
- Cliquez sur Enregistrer.
-
- Installez Google Cloud CLI.
-
Pour initialiser gcloudCLI, exécutez la commande suivante :
gcloud init
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Vérifiez que la facturation est activée pour votre projet Google Cloud.
-
Activer les API Speech-to-Text.
-
Assurez-vous que vous disposez du ou des rôles suivants au niveau du projet : Cloud Speech Administrator
Vérifier les rôles
-
Dans la console Google Cloud, accédez à la page IAM.
Accéder à IAM - Sélectionnez le projet.
-
Dans la colonne Compte principal, recherchez la ligne qui contient votre adresse e-mail.
Si votre adresse e-mail ne figure pas dans cette colonne, cela signifie que vous n'avez aucun rôle.
- Dans la colonne Rôle de la ligne contenant votre adresse e-mail, vérifiez si la liste des rôles inclut les rôles requis.
Attribuer les rôles
-
Dans la console Google Cloud, accédez à la page IAM.
Accéder à IAM - Sélectionnez le projet.
- Cliquez sur Accorder l'accès.
- Dans le champ Nouveaux comptes principaux, saisissez votre adresse e-mail.
- Dans la liste Sélectinoner un rôle, sélectionnez un rôle.
- Pour attribuer des rôles supplémentaires, cliquez sur Ajouter un autre rôle et ajoutez chaque rôle supplémentaire.
- Cliquez sur Enregistrer.
-
- Installez Google Cloud CLI.
-
Pour initialiser gcloudCLI, exécutez la commande suivante :
gcloud init
-
Créez des identifiants d'authentification locaux pour votre compte Google :
gcloud auth application-default login
Les bibliothèques clientes peuvent utiliser les identifiants par défaut de l'application pour s'authentifier facilement auprès des API Google et envoyer des requêtes à ces API. Ces identifiants vous permettent de tester votre application localement et de la déployer sans modifier le code sous-jacent. Pour plus d'informations, consultez la page <atrack-type="commonincludes" l10n-attrs-original-order="href,track-type,track-name" l10n-encrypted-href="WDE63JFVMK0YqIWBqG8nCycgwkRfOeEqRvzYs1N+2tJUEhcZvE5VtDH5LoWw0lj/" track-name="referenceLink"> Authentifiez-vous à l'aide des bibliothèques clientes.</atrack-type="commonincludes">
Vérifiez également que vous avez installé la bibliothèque cliente.
Activer l'accès à Cloud Storage
Speech-to-Text utilise un compte de service pour accéder à vos fichiers dans Cloud Storage. Par défaut, le compte de service a accès aux fichiers Cloud Storage dans le même projet.
L'adresse e-mail du compte de service est la suivante:
service-PROJECT_NUMBER@gcp-sa-speech.iam.gserviceaccount.com
Pour transcrire des fichiers Cloud Storage situés dans un autre projet, vous pouvez attribuer au compte de service le rôle Agent de service Speech-to-Text dans l'autre projet :
gcloud projects add-iam-policy-binding PROJECT_ID \
--member=serviceAccount:service-PROJECT_NUMBER@gcp-sa-speech.iam.gserviceaccount.com \
--role=roles/speech.serviceAgent
Pour en savoir plus sur la stratégie IAM du projet, consultez la page Gérer l'accès aux projets, aux dossiers et aux organisations.
Vous pouvez également accorder au compte de service un accès plus précis en lui accordant une autorisation sur un bucket Cloud Storage spécifique:
gsutil iam ch serviceAccount:service-PROJECT_NUMBER@gcp-sa-speech.iam.gserviceaccount.com:admin \
gs://BUCKET_NAME
Pour en savoir plus sur la gestion des accès à Cloud Storage, consultez la page intitulée Créer et gérer des listes de contrôle d'accès dans la documentation Cloud Storage.
Effectuer une reconnaissance par lot avec des résultats intégrés
Voici un exemple d'exécution de reconnaissance vocale par lot sur un fichier audio dans Cloud Storage, et de lecture des résultats de transcription intégrés à partir de la réponse :
Python
Effectuer une reconnaissance par lot et écrire les résultats dans Cloud Storage
Voici un exemple d'exécution de reconnaissance vocale par lot sur un fichier audio dans Cloud Storage, et de lecture des résultats de transcription à partir du fichier de sortie dans Cloud Storage. Notez que le fichier écrit dans Cloud Storage est un message BatchRecognizeResults
au format JSON :
Python
Effectuer une reconnaissance par lot sur plusieurs fichiers
Voici un exemple d'exécution de reconnaissance vocale par lot sur plusieurs fichiers audio dans Cloud Storage, et de lecture des résultats de transcription à partir des fichiers de sortie dans Cloud Storage :
Python
Activer le traitement par lot dynamique lors de la reconnaissance par lot
Le traitement par lot dynamique assure une transcription à moindre coût, en offrant une latence plus élevée. Cette fonctionnalité n'est disponible que pour la reconnaissance par lot.
Voici un exemple d'exécution de reconnaissance par lot sur un fichier audio dans Cloud Storage en ayant activé le traitement par lot dynamique :
Python
Remplacer les fonctionnalités de reconnaissance à l'échelle d'un fichier
La reconnaissance par lot utilise par défaut la même configuration de reconnaissance pour chaque fichier de la requête de reconnaissance par lot. Si certains fichiers nécessitent une configuration ou des fonctionnalités différentes, vous pouvez remplacer la configuration à l'échelle d'un fichier, à l'aide du champ config
du message [BatchRecognizeFileMetadata
][batch-file-metadata-grpc]. Pour obtenir un exemple de remplacement des fonctionnalités de reconnaissance, consultez la documentation sur les programmes de reconnaissance.
Effectuer un nettoyage
Pour éviter que les ressources utilisées sur cette page soient facturées sur votre compte Google Cloud, suivez les étapes ci-dessous :
-
Facultatif : Révoquez les identifiants d'authentification que vous avez créés et supprimez le fichier d'identifiants local.
gcloud auth application-default revoke
-
Facultatif : Révoquez les identifiants de la CLI gcloud.
gcloud auth revoke
Console
gcloud
Supprimez un projet Google Cloud :
gcloud projects delete PROJECT_ID
Étapes suivantes
- Consultez la documentation de référence sur la reconnaissance par lot.
- Découvrez comment transcrire du contenu audio diffusé en streaming.
- Entraînez-vous à transcrire des fichiers audio courts.
- Transcrivez des fichiers audio à l'aide de Chirp.
- Pour obtenir des conseils, entre autres sur l'optimisation des performances et l'amélioration de la précision, consultez la documentation relative aux bonnes pratiques.