Guide de démarrage rapide : transcrire la voix en texte à l'aide de l'API
Cette page explique comment envoyer une requête de reconnaissance vocale à Speech-to-Text à l'aide de l'interface REST et de la commande curl
.
Speech-to-Text permet d'intégrer facilement les technologies de reconnaissance vocale Google aux applications en cours de développement. Vous pouvez envoyer des données audio à l'API Speech-to-Text, qui renvoie ensuite une transcription de ce fichier audio en texte. Pour plus d'informations sur le service, consultez la page Principes de base de Speech-to-Text.
Avant de commencer
Avant de pouvoir envoyer une requête à l'API Speech-to-Text, vous devez avoir effectué les actions suivantes. Pour en savoir plus, consultez la page Avant de commencer.
- Activez Speech-to-Text sur un projet GCP.
- Assurez-vous que la facturation est activée pour Speech-to-Text.
-
Install the Google Cloud CLI, then initialize it by running the following command:
gcloud init
- (Facultatif) Créez un bucket Google Cloud Storage pour stocker vos données audio.
Envoyer une requête de transcription audio
Speech-to-Text vous permet désormais de transcrire un fichier audio en texte. Servez-vous de l'exemple de code suivant pour envoyer une requête REST recognize
à l'API Speech-to-Text.
-
Créez un fichier de requête JSON contenant le texte ci-dessous, puis enregistrez-le sous la forme d'un fichier texte brut nommé
sync-request.json
:{ "config": { "encoding":"FLAC", "sampleRateHertz": 16000, "languageCode": "en-US", "enableWordTimeOffsets": false }, "audio": { "uri":"gs://cloud-samples-tests/speech/brooklyn.flac" } }
Cet extrait de code JSON indique que le fichier audio est encodé en FLAC, qu'il a un taux d'échantillonnage de 16 000 Hz et qu'il est stocké sur Google Cloud Storage, à l'URI indiqué. Étant donné que le fichier audio est accessible publiquement, vous n'avez pas besoin d'identifiants pour y accéder.
-
Utilisez la commande
curl
pour créer une requêtespeech:recognize
, en indiquant le nom de fichier de la requête JSON que vous avez configurée à l'étape 1 :L'exemple de commande
curl
se sert de la commandegcloud auth print-access-token
pour obtenir un jeton d'authentification.curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer "$(gcloud auth print-access-token) \ https://speech.googleapis.com/v1/speech:recognize \ -d @sync-request.json
Notez que pour indiquer un nom de fichier dans la commande
curl
, vous devez utiliser l'option-d
(pour "data") et faire précéder le nom de fichier du symbole@
. Ce fichier doit se trouver dans le même répertoire que celui depuis lequel vous exécutez la commandecurl
.Un résultat semblable à ceci doit s'afficher :
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98267895 } ] } ] }
Félicitations ! Vous venez d'envoyer votre première requête à Speech-to-Text.
Si vous recevez un message d'erreur ou une réponse vide de Speech-to-Text, reportez-vous aux procédures de dépannage et de réduction des erreurs.
Effectuer un nettoyage
Pour éviter que les ressources utilisées sur cette page ne soient facturées sur votre compte Google Cloud , procédez comme suit :
- Utilisez <a href="https://console.cloud.google.com/" target="console" track-type="inline link" referrerpolicy="no-referrer-when-downgrade">Google Cloud console</a> pour supprimer votre projet si vous n'en avez plus besoin.
Étape suivante
- Entraînez-vous à transcrire des fichiers audio courts.
- Découvrez comment traiter des fichiers audio longs par lot pour la reconnaissance vocale.
- Découvrez comment transcrire du contenu audio diffusé en streaming, à partir d'un micro par exemple.
- Faites vos premiers pas avec Speech-to-Text dans le langage de votre choix à l'aide de l'une des bibliothèques clientes Speech-to-Text.
- Parcourez les exemples d'applications.
- Pour obtenir des conseils, entre autres sur l'optimisation des performances et l'amélioration de la précision, consultez la documentation relative aux bonnes pratiques.