Démarrage rapide : Utiliser l'outil gcloud

Cette page explique comment envoyer une requête de reconnaissance vocale à Speech-to-Text avec l'outil gcloud depuis la ligne de commande.

Speech-to-Text permet d'intégrer facilement les technologies de reconnaissance vocale Google aux applications en cours de développement. Vous pouvez envoyer des données audio à l'API Speech-to-Text, qui renvoie ensuite une transcription de ce fichier audio en texte. Pour plus d'informations sur le service, consultez la page Principes de base de Speech-to-Text.

Avant de commencer

Avant de pouvoir envoyer une requête à l'API Speech-to-Text, vous devez avoir effectué les actions suivantes. Pour en savoir plus, consultez la page Avant de commencer.

  • Activez Speech-to-Text sur un projet GCP.
    1. Assurez-vous que la facturation est activée pour Speech-to-Text.
    2. Créez et/ou attribuez un ou plusieurs comptes de service à Speech-to-Text.
    3. Téléchargez une clé d'identifiants de compte de service.
  • Définissez la variable d'environnement d'authentification.
  • (Facultatif) Créez un bucket Google Cloud Storage pour stocker vos données audio.

Envoyer une requête de transcription audio

Speech-to-Text vous permet désormais de transcrire un fichier audio en texte. Servez-vous de l'exemple de code suivant pour envoyer une requête recognize à l'API Speech-to-Text.

Ouvrez l'interface système, puis exécutez la commande suivante :

gcloud ml speech recognize gs://cloud-samples-tests/speech/brooklyn.flac \
    --language-code=en-US

Cette commande demande à Speech-to-Text de transcrire le contenu audio d'un fichier FLAC hébergé sur un emplacement accessible publiquement.

Si la requête aboutit, le serveur renvoie une réponse au format JSON :

{
  "results": [
    {
      "alternatives": [
        {
          "confidence": 0.9840146,
          "transcript": "how old is the Brooklyn Bridge"
        }
      ]
    }
  ]
}

Félicitations ! Vous venez d'envoyer votre première requête à Speech-to-Text.

Si vous recevez un message d'erreur ou une réponse vide de Speech-to-Text, reportez-vous aux procédures de dépannage et de réduction des erreurs.

Étapes suivantes