Vous trouverez sur cette page la procédure à suivre pour transcrire un fichier audio court en texte à l'aide de la reconnaissance vocale synchrone.
La reconnaissance vocale synchrone renvoie la transcription des fichiers audio courts (de moins d'une minute environ) dans la réponse dès que le fichier est traité. Si vous souhaitez traiter une requête de reconnaissance vocale pour un fichier audio long, utilisez la reconnaissance vocale asynchrone.
Les contenus audio peuvent être envoyés directement à Speech-to-Text, ou celui-ci peut traiter les contenus audio qui se trouvent déjà dans Google Cloud Storage. Consultez également les limites audio pour les requêtes de reconnaissance vocale synchrone.
Effectuer une reconnaissance vocale synchrone sur un fichier local
Voici un exemple d'exécution de reconnaissance vocale synchrone sur un fichier audio local :
Protocole
Reportez-vous au point de terminaison speech:recognize
de l'API pour obtenir des informations complètes.
Pour réaliser une reconnaissance vocale synchrone, exécutez une requête POST
en fournissant le corps de requête approprié. Voici un exemple de requête POST
utilisant curl
. Cet exemple fait intervenir le jeton d'accès associé à un compte de service configuré pour le projet à l'aide du SDK Cloud de Google Cloud. Pour obtenir des instructions sur l'installation du SDK Cloud, la configuration d'un projet avec un compte de service et l'obtention d'un jeton d'accès, consultez la page Démarrage rapide.
curl -X POST \ -H "Authorization: Bearer "$(gcloud auth application-default print-access-token) \ -H "Content-Type: application/json; charset=utf-8" \ --data "{ 'config': { 'encoding': 'LINEAR16', 'sampleRateHertz': 16000, 'languageCode': 'en-US', 'enableWordTimeOffsets': false }, 'audio': { 'content': '/9j/7QBEUGhvdG9zaG9...base64-encoded-audio-content...fXNWzvDEeYxxxzj/Coa6Bax//Z' } }" "https://speech.googleapis.com/v1/speech:recognize"
Pour en savoir plus sur la configuration du corps de la requête, consultez la documentation de référence sur RecognitionConfig.
Le contenu audio fourni dans le corps de la requête est encodé en base64.
Pour obtenir plus d'informations sur l'encodage du contenu audio en base64, consultez la page Encoder du contenu audio en base64. Pour en savoir plus sur le champ content
, reportez-vous à la documentation de RecognitionAudio.
Si la requête aboutit, le serveur renvoie un code d'état HTTP 200 OK
et la réponse au format JSON :
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98267895 } ] } ] }
gcloud
Reportez-vous à la commande recognize
pour obtenir tous les détails.
Pour effectuer la reconnaissance vocale d'un fichier local, servez-vous de l'outil de ligne de commande gcloud
en indiquant le chemin d'accès du fichier local à traiter.
gcloud ml speech recognize PATH-TO-LOCAL-FILE --language-code='en-US'
Si la requête aboutit, le serveur renvoie une réponse au format JSON :
{ "results": [ { "alternatives": [ { "confidence": 0.9840146, "transcript": "how old is the Brooklyn Bridge" } ] } ] }
C#
Go
Java
Node.js
PHP
Python
Ruby
Effectuer une reconnaissance vocale synchrone sur un fichier distant
Pour plus de commodité, l'API Speech-to-Text peut effectuer une reconnaissance vocale synchrone directement sur un fichier audio situé dans Google Cloud Storage, sans qu'il soit nécessaire d'envoyer le contenu de ce fichier audio dans le corps de votre requête.
Voici un exemple d'exécution de reconnaissance vocale synchrone sur un fichier stocké dans Cloud Storage :
Protocole
Reportez-vous au point de terminaison speech:recognize
de l'API pour obtenir des informations complètes.
Pour réaliser une reconnaissance vocale synchrone, exécutez une requête POST
en fournissant le corps de requête approprié. Voici un exemple de requête POST
utilisant curl
. Cet exemple fait intervenir le jeton d'accès associé à un compte de service configuré pour le projet à l'aide du SDK Cloud de Google Cloud. Pour obtenir des instructions sur l'installation du SDK Cloud, la configuration d'un projet avec un compte de service et l'obtention d'un jeton d'accès, consultez la page Démarrage rapide.
curl -X POST -H "Authorization: Bearer "$(gcloud auth application-default print-access-token) \ -H "Content-Type: application/json; charset=utf-8" \ --data "{ 'config': { 'encoding': 'LINEAR16', 'sampleRateHertz': 16000, 'languageCode': 'en-US' }, 'audio': { 'uri': 'gs://YOUR_BUCKET_NAME/YOUR_FILE_NAME' } }" "https://speech.googleapis.com/v1/speech:recognize"
Pour en savoir plus sur la configuration du corps de la requête, consultez la documentation de référence sur RecognitionConfig.
Si la requête aboutit, le serveur renvoie un code d'état HTTP 200 OK
et la réponse au format JSON :
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98267895 } ] } ] }
gcloud
Reportez-vous à la commande recognize
pour obtenir tous les détails.
Pour effectuer la reconnaissance vocale d'un fichier local, servez-vous de l'outil de ligne de commande gcloud
en indiquant le chemin d'accès du fichier local à traiter.
gcloud ml speech recognize 'gs://cloud-samples-tests/speech/brooklyn.flac' \ --language-code='en-US'
Si la requête aboutit, le serveur renvoie une réponse au format JSON :
{ "results": [ { "alternatives": [ { "confidence": 0.9840146, "transcript": "how old is the Brooklyn Bridge" } ] } ] }
C#
Go
Java
Node.js
PHP
Ruby