Cette page explique comment envoyer une requête de reconnaissance vocale à Speech-to-Text à l'aide de l'interface REST et de la commande curl
.
Speech-to-Text permet d'intégrer facilement les technologies de reconnaissance vocale Google aux applications en cours de développement. Vous pouvez envoyer des données audio à l'API Speech-to-Text, qui renvoie ensuite une transcription de ce fichier audio en texte. Pour plus d'informations sur le service, consultez la page Principes de base de Speech-to-Text.
Avant de commencer
- Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
-
Configurez un projet Cloud Console.
Cliquez pour effectuer les opérations suivantes :
- Créer ou sélectionner un projet
- Activez l'API Speech-to-Text pour ce projet.
- Créez un compte de service.
- Téléchargez une clé privée au format JSON.
Vous pouvez consulter et gérer ces ressources à tout moment dans Cloud Console.
-
Définissez la variable d'environnement
GOOGLE_APPLICATION_CREDENTIALS
pour qu'elle pointe vers le chemin du fichier JSON contenant la clé de votre compte de service. Cette variable ne s'applique qu'à la session de shell actuelle. Par conséquent, si vous ouvrez une nouvelle session, vous devez de nouveau la définir. - Installez et initialisez le SDK Cloud.
Envoyer une requête de transcription audio
Speech-to-Text vous permet désormais de transcrire un fichier audio en texte. Servez-vous de l'exemple de code suivant pour envoyer une requête REST recognize
à l'API Speech-to-Text.
-
Créez un fichier de requête JSON contenant le texte ci-dessous, puis enregistrez-le sous la forme d'un fichier texte brut nommé
sync-request.json
:{ "config": { "encoding":"FLAC", "sampleRateHertz": 16000, "languageCode": "en-US", "enableWordTimeOffsets": false }, "audio": { "uri":"gs://cloud-samples-tests/speech/brooklyn.flac" } }
Cet extrait de code JSON indique que le fichier audio est encodé en FLAC, qu'il a un taux d'échantillonnage de 16 000 Hz et qu'il est stocké sur Google Cloud Storage, à l'URI indiqué. Étant donné que le fichier audio est accessible publiquement, vous n'avez pas besoin d'identifiants pour y accéder.
-
Utilisez la commande
curl
pour créer une requêtespeech:recognize
, en indiquant le nom de fichier de la requête JSON que vous avez configurée à l'étape 1 :L'exemple de commande
curl
se sert de la commandegcloud auth application-default print-access-token
pour obtenir un jeton d'authentification.curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer "$(gcloud auth application-default print-access-token) \ https://speech.googleapis.com/v1/speech:recognize \ -d @sync-request.json
Notez que pour indiquer un nom de fichier dans la commande
curl
, vous devez utiliser l'option-d
(pour "data") et faire précéder le nom de fichier du symbole@
. Ce fichier doit se trouver dans le même répertoire que celui depuis lequel vous exécutez la commandecurl
.Un résultat semblable à ceci doit s'afficher :
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98267895 } ] } ] }
Félicitations ! Vous venez d'envoyer votre première requête à Speech-to-Text.
Si vous recevez un message d'erreur ou une réponse vide de Speech-to-Text, reportez-vous aux procédures de dépannage et de réduction des erreurs.
Étapes suivantes
- Entraînez-vous à transcrire des fichiers audio courts.
- Découvrez comment traiter des fichiers audio longs par lot pour la reconnaissance vocale.
- Découvrez comment transcrire du contenu audio diffusé en streaming, à partir d'un micro par exemple.
- Faites vos premiers pas avec Speech-to-Text dans le langage de votre choix à l'aide de l'une des bibliothèques clientes Speech-to-Text.
- Parcourez les exemples d'applications.
- Pour obtenir des conseils, entre autres sur l'optimisation des performances et l'amélioration de la précision, consultez la documentation relative aux bonnes pratiques.