Guide de démarrage rapide : transcrire la voix en texte à l'aide de l'API

Cette page explique comment envoyer une requête de reconnaissance vocale à Speech-to-Text à l'aide de l'interface REST et de la commande curl.

Speech-to-Text permet d'intégrer facilement les technologies de reconnaissance vocale Google aux applications en cours de développement. Vous pouvez envoyer des données audio à l'API Speech-to-Text, qui renvoie ensuite une transcription de ce fichier audio en texte. Pour plus d'informations sur le service, consultez la page Principes de base de Speech-to-Text.

Avant de commencer

Avant de pouvoir envoyer une requête à l'API Speech-to-Text, vous devez avoir effectué les actions suivantes. Pour en savoir plus, consultez la page Avant de commencer.

  • Activez Speech-to-Text sur un projet GCP.
    1. Assurez-vous que la facturation est activée pour Speech-to-Text.
  • Installez Google Cloud CLI, puis initialisez-la en exécutant la commande suivante :

    gcloud init
  • (Facultatif) Créez un bucket Google Cloud Storage pour stocker vos données audio.

Envoyer une requête de transcription audio

Speech-to-Text vous permet désormais de transcrire un fichier audio en texte. Servez-vous de l'exemple de code suivant pour envoyer une requête REST recognize à l'API Speech-to-Text.

  1. Créez un fichier de requête JSON contenant le texte ci-dessous, puis enregistrez-le sous la forme d'un fichier texte brut nommé sync-request.json :

    {
      "config": {
          "encoding":"FLAC",
          "sampleRateHertz": 16000,
          "languageCode": "en-US",
          "enableWordTimeOffsets": false
      },
      "audio": {
          "uri":"gs://cloud-samples-tests/speech/brooklyn.flac"
      }
    }
      

    Cet extrait de code JSON indique que le fichier audio est encodé en FLAC, qu'il a un taux d'échantillonnage de 16 000 Hz et qu'il est stocké sur Google Cloud Storage, à l'URI indiqué. Étant donné que le fichier audio est accessible publiquement, vous n'avez pas besoin d'identifiants pour y accéder.

  2. Utilisez la commande curl pour créer une requête speech:recognize, en indiquant le nom de fichier de la requête JSON que vous avez configurée à l'étape 1 :

    L'exemple de commande curl se sert de la commande gcloud auth print-access-token pour obtenir un jeton d'authentification.

    curl -s -H "Content-Type: application/json" \
        -H "Authorization: Bearer "$(gcloud auth print-access-token) \
        https://speech.googleapis.com/v1/speech:recognize \
        -d @sync-request.json
      

    Notez que pour indiquer un nom de fichier dans la commande curl, vous devez utiliser l'option -d (pour "data") et faire précéder le nom de fichier du symbole @. Ce fichier doit se trouver dans le même répertoire que celui depuis lequel vous exécutez la commande curl.

    Un résultat semblable à ceci doit s'afficher :

    {
      "results": [
        {
          "alternatives": [
            {
              "transcript": "how old is the Brooklyn Bridge",
              "confidence": 0.98267895
            }
          ]
        }
      ]
    }
      

Félicitations ! Vous venez d'envoyer votre première requête à Speech-to-Text.

Si vous recevez un message d'erreur ou une réponse vide de Speech-to-Text, reportez-vous aux procédures de dépannage et de réduction des erreurs.

Effectuer un nettoyage

Pour éviter que les ressources utilisées sur cette page soient facturées sur votre compte Google Cloud, procédez comme suit :

Étape suivante