Ce tutoriel explique comment transcrire la piste audio d'un fichier vidéo à l'aide de Speech-to-Text.
Les fichiers audio peuvent provenir de nombreuses sources différentes et contenir des données audio enregistrées à partir d'un téléphone, par exemple d'une messagerie vocale ou de la bande-son incluse dans un fichier vidéo.
Speech-to-Text peut s'appuyer sur différents modèles de machine learning pour transcrire votre fichier audio afin que le résultat corresponde au mieux à la source audio d'origine. Vous pouvez obtenir de meilleurs résultats de transcription vocale en spécifiant la source du fichier audio d'origine. Speech-to-Text peut ainsi traiter vos fichiers audio à l'aide d'un modèle de machine learning entraîné pour gérer des données semblables à celles de vos fichiers.
Objectifs
- Envoyer une requête de transcription de la piste audio d'un fichier vidéo à Speech-to-Text
Coûts
Dans ce document, vous utilisez les composants facturables suivants de Google Cloud :
- Speech-to-Text
Obtenez une estimation des coûts en fonction de votre utilisation prévue à l'aide du simulateur de coût.
Avant de commencer
Ce tutoriel a plusieurs prérequis :
- Vous devez avoir configuré un projet Speech-to-Text dans la console Google Cloud.
- Vous devez avoir configuré votre environnement à l'aide des identifiants par défaut de l'application dans la console Google Cloud.
- Vous devez avoir configuré l'environnement de développement pour le langage de programmation de votre choix.
- Vous devez avoir installé la bibliothèque cliente Google Cloud correspondant au langage de programmation de votre choix.
Préparer les données audio
Avant de pouvoir transcrire les données audio d'une vidéo, vous devez les extraire du fichier vidéo. Une fois les données audio extraites, vous devez les stocker dans un bucket Cloud Storage ou les encoder en base64.
Extraire les données audio
Vous pouvez utiliser n'importe quel outil de conversion de fichier compatible avec les fichiers audio et vidéo, tel que FFmpeg.
L'extrait de code ci-dessous permet de convertir un fichier vidéo en fichier audio à l'aide de ffmpeg
.
ffmpeg -i video-input-file audio-output-file
Stocker ou convertir les données audio
Vous pouvez transcrire un fichier audio stocké sur votre ordinateur local ou dans un bucket Cloud Storage.
La commande suivante permet d'importer votre fichier audio dans un bucket Cloud Storage existant à l'aide de Google Cloud CLI.
gcloud storage cp audio-output-file storage-bucket-uri
Si vous utilisez un fichier local et prévoyez d'envoyer une requête à l'aide de l'outil curl
via la ligne de commande, vous devez d'abord convertir le fichier audio en données encodées en base64.
La commande suivante convertit un fichier audio en fichier texte.
base64 audio-output-file -w 0 > audio-data-text
Envoyer une requête de transcription
Le code suivant permet d'envoyer une requête de transcription à Speech-to-Text.
Requête à l'aide d'un fichier local
Protocole
Reportez-vous au point de terminaison speech:recognize
de l'API pour obtenir des informations complètes.
Pour réaliser une reconnaissance vocale synchrone, exécutez une requête POST
en fournissant le corps de requête approprié. Voici un exemple de requête POST
utilisant curl
. L'exemple utilise Google Cloud CLI pour générer un jeton d'accès. Pour obtenir des instructions sur l'installation de gcloud CLI, consultez le guide de démarrage rapide.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v1/speech:recognize \ --data '{ "config": { "encoding": "LINEAR16", "sampleRateHertz": 16000, "languageCode": "en-US", "model": "video" }, "audio": { "uri": "gs://cloud-samples-tests/speech/Google_Gnome.wav" } }'
Pour en savoir plus sur la configuration du corps de la requête, consultez la documentation de référence sur RecognitionConfig
.
Si la requête aboutit, le serveur renvoie un code d'état HTTP 200 OK
ainsi que la réponse au format JSON :
{ "results": [ { "alternatives": [ { "transcript": "OK Google stream stranger things from Netflix to my TV okay stranger things from Netflix playing on TV from the people that brought you Google home comes the next evolution of the smart home and it's just outside your window me Google know hi how can I help okay no what's the weather like outside the weather outside is sunny and 76 degrees he's right okay no turn on the hose I'm holding sure okay no I'm can I eat this lemon tree leaf yes what about this Daisy yes but I wouldn't recommend it but I could eat it okay Nomad milk to my shopping list I'm sorry that sounds like an indoor request I keep doing that sorry you do keep doing that okay no is this compost really we're all compost if you think about it pretty much everything is made up of organic matter and will return", "confidence": 0.9251011 } ] } ] }
Go
Pour savoir comment installer et utiliser la bibliothèque cliente pour Speech-to-Text, consultez la page Bibliothèques clientes Speech-to-Text. Pour en savoir plus, consultez la documentation de référence de l'API Speech-to-Text en langage Go.
Pour vous authentifier auprès de Speech-to-Text, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Java
Pour savoir comment installer et utiliser la bibliothèque cliente pour Speech-to-Text, consultez la page Bibliothèques clientes Speech-to-Text. Pour en savoir plus, consultez la documentation de référence de l'API Speech-to-Text en langage Java.
Pour vous authentifier auprès de Speech-to-Text, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Node.js
Pour savoir comment installer et utiliser la bibliothèque cliente pour Speech-to-Text, consultez la page Bibliothèques clientes Speech-to-Text. Pour en savoir plus, consultez la documentation de référence de l'API Speech-to-Text en langage Node.js.
Pour vous authentifier auprès de Speech-to-Text, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Python
Pour savoir comment installer et utiliser la bibliothèque cliente pour Speech-to-Text, consultez la page Bibliothèques clientes Speech-to-Text. Pour en savoir plus, consultez la documentation de référence de l'API Speech-to-Text en langage Python.
Pour vous authentifier auprès de Speech-to-Text, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Langues supplémentaires
C# : Veuillez suivre les Instructions de configuration pour C# sur la page des bibliothèques clientes, puis consultez la page Documentation de référence sur Speech-to-Text pour .NET.
PHP : Veuillez suivre les Instructions de configuration pour PHP sur la page des bibliothèques clientes, puis consultez la page Documentation de référence sur Speech-to-Text pour PHP.
Ruby : Veuillez suivre les Instructions de configuration pour Ruby sur la page des bibliothèques clientes, puis consultez la Documentation de référence sur Speech-to-Text pour Ruby.
Requête à l'aide d'un fichier distant
Go
Pour savoir comment installer et utiliser la bibliothèque cliente pour Speech-to-Text, consultez la page Bibliothèques clientes Speech-to-Text. Pour en savoir plus, consultez la documentation de référence de l'API Speech-to-Text en langage Go.
Pour vous authentifier auprès de Speech-to-Text, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Java
Pour savoir comment installer et utiliser la bibliothèque cliente pour Speech-to-Text, consultez la page Bibliothèques clientes Speech-to-Text. Pour en savoir plus, consultez la documentation de référence de l'API Speech-to-Text en langage Java.
Pour vous authentifier auprès de Speech-to-Text, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Node.js
Pour savoir comment installer et utiliser la bibliothèque cliente pour Speech-to-Text, consultez la page Bibliothèques clientes Speech-to-Text. Pour en savoir plus, consultez la documentation de référence de l'API Speech-to-Text en langage Node.js.
Pour vous authentifier auprès de Speech-to-Text, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Python
Pour savoir comment installer et utiliser la bibliothèque cliente pour Speech-to-Text, consultez la page Bibliothèques clientes Speech-to-Text. Pour en savoir plus, consultez la documentation de référence de l'API Speech-to-Text en langage Python.
Pour vous authentifier auprès de Speech-to-Text, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Langues supplémentaires
C# : Veuillez suivre les Instructions de configuration pour C# sur la page des bibliothèques clientes, puis consultez la page Documentation de référence sur Speech-to-Text pour .NET.
PHP : Veuillez suivre les Instructions de configuration pour PHP sur la page des bibliothèques clientes, puis consultez la page Documentation de référence sur Speech-to-Text pour PHP.
Ruby : Veuillez suivre les Instructions de configuration pour Ruby sur la page des bibliothèques clientes, puis consultez la Documentation de référence sur Speech-to-Text pour Ruby.
Effectuer un nettoyage
Pour éviter que les ressources utilisées lors de ce tutoriel soient facturées sur votre compte Google Cloud, supprimez le projet contenant les ressources, ou conservez le projet et supprimez les ressources individuelles.
Supprimer le projet
Le moyen le plus simple d'empêcher la facturation est de supprimer le projet que vous avez créé pour ce tutoriel.
Pour supprimer le projet :
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Supprimer des instances
Pour supprimer une instance Compute Engine, procédez comme suit :
- In the Google Cloud console, go to the VM instances page.
- Select the checkbox for the instance that you want to delete.
- To delete the instance, click More actions, click Delete, and then follow the instructions.
Supprimer des règles de pare-feu pour le réseau par défaut
Pour supprimer une règle de pare-feu, procédez comme suit :
- In the Google Cloud console, go to the Firewall page.
- Select the checkbox for the firewall rule that you want to delete.
- To delete the firewall rule, click Delete.
Étape suivante
- Découvrez comment obtenir des horodatages pour l'audio.
- Identifiez différents intervenants dans un fichier audio.
Faites l'essai
Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de Speech-to-Text en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
Profiter d'un essai gratuit de Speech-to-Text