Vous trouverez sur cette page la procédure à suivre pour transcrire un fichier audio court en texte à l'aide de la reconnaissance vocale synchrone.
La reconnaissance vocale synchrone renvoie la transcription des fichiers audio courts (de moins de 60 secondes). Si vous souhaitez traiter une requête de reconnaissance vocale pour des fichiers audio d'une durée supérieure à 60 secondes, utilisez la reconnaissance vocale asynchrone.
Le contenu audio peut être envoyé directement à Speech-to-Text à partir d'un fichier local ou celui-ci peut traiter le contenu audio stocké dans un bucket Google Cloud Storage. Pour connaître les limites relatives aux requêtes de reconnaissance vocale synchrone, consultez la page Quotas et limites.
Effectuer une reconnaissance vocale synchrone sur un fichier local
Voici un exemple d'exécution de reconnaissance vocale synchrone sur un fichier audio local :
REST
Reportez-vous au point de terminaison speech:recognize
de l'API pour obtenir des informations complètes. Pour en savoir plus sur la configuration du corps de la requête, consultez la documentation de référence sur RecognitionConfig.
Le contenu audio fourni dans le corps de la requête doit être encodé en base64.
Pour obtenir plus d'informations sur l'encodage du contenu audio en base64, consultez la page Encoder du contenu audio en base64. Pour en savoir plus sur le champ content
, consultez la documentation sur RecognitionAudio.
Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :
- LANGUAGE_CODE : code BCP-47 de la langue parlée dans votre extrait audio.
- ENCODING : encodage du contenu audio que vous souhaitez transcrire.
- SAMPLE_RATE_HERTZ : taux d'échantillonnage en hertz du contenu audio que vous souhaitez transcrire.
- ENABLE_WORD_TIME_OFFSETS : activez ce champ si vous souhaitez que les décalages temporels de début et de fin de mot (horodatages) soient renvoyés.
- INPUT_AUDIO : chaîne encodée en base64 des données audio que vous souhaitez transcrire.
- PROJECT_ID : ID alphanumérique de votre projet Google Cloud.
Méthode HTTP et URL :
POST https://speech.googleapis.com/v1/speech:recognize
Corps JSON de la requête :
{ "config": { "languageCode": "LANGUAGE_CODE", "encoding": "ENCODING", "sampleRateHertz": SAMPLE_RATE_HERTZ, "enableWordTimeOffsets": ENABLE_WORD_TIME_OFFSETS }, "audio": { "content": "INPUT_AUDIO" } }
Pour envoyer votre requête, développez l'une des options suivantes :
Vous devriez recevoir une réponse JSON de ce type :
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98267895 } ] } ] }
gcloud
Reportez-vous à la commande recognize
pour obtenir tous les détails.
Pour effectuer la reconnaissance vocale d'un fichier local, servez-vous de Google Cloud CLI en indiquant le chemin d'accès du fichier local à traiter.
gcloud ml speech recognize PATH-TO-LOCAL-FILE --language-code='en-US'
Si la requête aboutit, le serveur renvoie une réponse au format JSON :
{ "results": [ { "alternatives": [ { "confidence": 0.9840146, "transcript": "how old is the Brooklyn Bridge" } ] } ] }
Go
Pour savoir comment installer et utiliser la bibliothèque cliente pour Speech-to-Text, consultez la page Bibliothèques clientes Speech-to-Text. Pour en savoir plus, consultez la documentation de référence de l'API Speech-to-Text en langage Go.
Pour vous authentifier auprès de Speech-to-Text, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Java
Pour savoir comment installer et utiliser la bibliothèque cliente pour Speech-to-Text, consultez la page Bibliothèques clientes Speech-to-Text. Pour en savoir plus, consultez la documentation de référence de l'API Speech-to-Text en langage Java.
Pour vous authentifier auprès de Speech-to-Text, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Node.js
Pour savoir comment installer et utiliser la bibliothèque cliente pour Speech-to-Text, consultez la page Bibliothèques clientes Speech-to-Text. Pour en savoir plus, consultez la documentation de référence de l'API Speech-to-Text en langage Node.js.
Pour vous authentifier auprès de Speech-to-Text, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Python
Pour savoir comment installer et utiliser la bibliothèque cliente pour Speech-to-Text, consultez la page Bibliothèques clientes Speech-to-Text. Pour en savoir plus, consultez la documentation de référence de l'API Speech-to-Text en langage Python.
Pour vous authentifier auprès de Speech-to-Text, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Langages supplémentaires
C# : Veuillez suivre les Instructions de configuration pour C# sur la page des bibliothèques clientes, puis consultez la page Documentation de référence sur Speech-to-Text pour .NET.
PHP : Veuillez suivre les Instructions de configuration pour PHP sur la page des bibliothèques clientes, puis consultez la page Documentation de référence sur Speech-to-Text pour PHP.
Ruby : Veuillez suivre les Instructions de configuration pour Ruby sur la page des bibliothèques clientes, puis consultez la Documentation de référence sur AutoML Vision pour Ruby.
Effectuer une reconnaissance vocale synchrone sur un fichier distant
Pour votre commodité, l'API Speech-to-Text peut effectuer une reconnaissance vocale synchrone directement sur un fichier audio stocké dans Google Cloud Storage, sans que vous ayez à envoyer le contenu du fichier audio dans le corps de votre requête.
Voici un exemple d'exécution de reconnaissance vocale synchrone sur un fichier stocké dans Cloud Storage :
REST
Reportez-vous au point de terminaison speech:recognize
de l'API pour obtenir des informations complètes. Pour en savoir plus sur la configuration du corps de la requête, consultez la documentation de référence sur RecognitionConfig.
Le contenu audio fourni dans le corps de la requête doit être encodé en base64.
Pour obtenir plus d'informations sur l'encodage du contenu audio en base64, consultez la page Encoder du contenu audio en base64. Pour en savoir plus sur le champ content
, consultez la documentation sur RecognitionAudio.
Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :
- LANGUAGE_CODE : code BCP-47 de la langue parlée dans votre extrait audio.
- ENCODING : encodage du contenu audio que vous souhaitez transcrire.
- SAMPLE_RATE_HERTZ : taux d'échantillonnage en hertz du contenu audio que vous souhaitez transcrire.
- ENABLE_WORD_TIME_OFFSETS : activez ce champ si vous souhaitez que les décalages temporels de début et de fin de mot (horodatages) soient renvoyés.
- STORAGE_BUCKET : bucket Cloud Storage.
- INPUT_AUDIO : fichier de données audio que vous souhaitez transcrire.
- PROJECT_ID : ID alphanumérique de votre projet Google Cloud.
Méthode HTTP et URL :
POST https://speech.googleapis.com/v1/speech:recognize
Corps JSON de la requête :
{ "config": { "languageCode": "LANGUAGE_CODE", "encoding": "ENCODING", "sampleRateHertz": SAMPLE_RATE_HERTZ, "enableWordTimeOffsets": ENABLE_WORD_TIME_OFFSETS }, "audio": { "uri": "gs://STORAGE_BUCKET/INPUT_AUDIO" } }
Pour envoyer votre requête, développez l'une des options suivantes :
Vous devriez recevoir une réponse JSON de ce type :
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98267895 } ] } ] }
gcloud
Reportez-vous à la commande recognize
pour obtenir tous les détails.
Pour effectuer la reconnaissance vocale d'un fichier local, servez-vous de Google Cloud CLI en indiquant le chemin d'accès du fichier local à traiter.
gcloud ml speech recognize 'gs://cloud-samples-tests/speech/brooklyn.flac' \ --language-code='en-US'
Si la requête aboutit, le serveur renvoie une réponse au format JSON :
{ "results": [ { "alternatives": [ { "confidence": 0.9840146, "transcript": "how old is the Brooklyn Bridge" } ] } ] }
Go
Pour savoir comment installer et utiliser la bibliothèque cliente pour Speech-to-Text, consultez la page Bibliothèques clientes Speech-to-Text. Pour en savoir plus, consultez la documentation de référence de l'API Speech-to-Text en langage Go.
Pour vous authentifier auprès de Speech-to-Text, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Java
Pour savoir comment installer et utiliser la bibliothèque cliente pour Speech-to-Text, consultez la page Bibliothèques clientes Speech-to-Text. Pour en savoir plus, consultez la documentation de référence de l'API Speech-to-Text en langage Java.
Pour vous authentifier auprès de Speech-to-Text, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Node.js
Pour savoir comment installer et utiliser la bibliothèque cliente pour Speech-to-Text, consultez la page Bibliothèques clientes Speech-to-Text. Pour en savoir plus, consultez la documentation de référence de l'API Speech-to-Text en langage Node.js.
Pour vous authentifier auprès de Speech-to-Text, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Python
Pour savoir comment installer et utiliser la bibliothèque cliente pour Speech-to-Text, consultez la page Bibliothèques clientes Speech-to-Text. Pour en savoir plus, consultez la documentation de référence de l'API Speech-to-Text en langage Python.
Pour vous authentifier auprès de Speech-to-Text, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Langages supplémentaires
C# : Veuillez suivre les Instructions de configuration pour C# sur la page des bibliothèques clientes, puis consultez la page Documentation de référence sur Speech-to-Text pour .NET.
PHP : Veuillez suivre les Instructions de configuration pour PHP sur la page des bibliothèques clientes, puis consultez la page Documentation de référence sur Speech-to-Text pour PHP.
Ruby : Veuillez suivre les Instructions de configuration pour Ruby sur la page des bibliothèques clientes, puis consultez la page Documentation de référence sur Speech-to-Text pour Ruby.