Guide de démarrage rapide : transcrire la voix en texte à l'aide de l'API

Cette page explique comment envoyer une requête de reconnaissance vocale à Speech-to-Text à l'aide de l'interface REST et de la commande curl.

Speech-to-Text permet d'intégrer facilement les technologies de reconnaissance vocale Google aux applications en cours de développement. Vous pouvez envoyer des données audio à l'API Speech-to-Text, qui renvoie ensuite une transcription de ce fichier audio en texte. Pour plus d'informations sur le service, consultez la page Principes de base de Speech-to-Text.

Avant de commencer

Avant de pouvoir envoyer une requête à l'API Speech-to-Text, vous devez avoir effectué les actions suivantes. Pour en savoir plus, consultez la page Avant de commencer.

  • Activez Speech-to-Text sur un projet GCP.
    1. Assurez-vous que la facturation est activée pour Speech-to-Text.
  • Install the Google Cloud CLI, then initialize it by running the following command:

    gcloud init
  • (Facultatif) Créez un bucket Google Cloud Storage pour stocker vos données audio.

Envoyer une requête de transcription audio

Speech-to-Text vous permet désormais de transcrire un fichier audio en texte. Servez-vous de l'exemple de code suivant pour envoyer une requête REST recognize à l'API Speech-to-Text.

  1. Créez un fichier de requête JSON contenant le texte ci-dessous, puis enregistrez-le sous la forme d'un fichier texte brut nommé sync-request.json :

    {
      "config": {
          "encoding":"FLAC",
          "sampleRateHertz": 16000,
          "languageCode": "en-US",
          "enableWordTimeOffsets": false
      },
      "audio": {
          "uri":"gs://cloud-samples-tests/speech/brooklyn.flac"
      }
    }
      

    Cet extrait de code JSON indique que le fichier audio est encodé en FLAC, qu'il a un taux d'échantillonnage de 16 000 Hz et qu'il est stocké sur Google Cloud Storage, à l'URI indiqué. Étant donné que le fichier audio est accessible publiquement, vous n'avez pas besoin d'identifiants pour y accéder.

  2. Utilisez la commande curl pour créer une requête speech:recognize, en indiquant le nom de fichier de la requête JSON que vous avez configurée à l'étape 1 :

    L'exemple de commande curl se sert de la commande gcloud auth print-access-token pour obtenir un jeton d'authentification.

    curl -s -H "Content-Type: application/json" \
        -H "Authorization: Bearer "$(gcloud auth print-access-token) \
        https://speech.googleapis.com/v1/speech:recognize \
        -d @sync-request.json
      

    Notez que pour indiquer un nom de fichier dans la commande curl, vous devez utiliser l'option -d (pour "data") et faire précéder le nom de fichier du symbole @. Ce fichier doit se trouver dans le même répertoire que celui depuis lequel vous exécutez la commande curl.

    Un résultat semblable à ceci doit s'afficher :

    {
      "results": [
        {
          "alternatives": [
            {
              "transcript": "how old is the Brooklyn Bridge",
              "confidence": 0.98267895
            }
          ]
        }
      ]
    }
      

Félicitations ! Vous venez d'envoyer votre première requête à Speech-to-Text.

Si vous recevez un message d'erreur ou une réponse vide de Speech-to-Text, reportez-vous aux procédures de dépannage et de réduction des erreurs.

Effectuer un nettoyage

Pour éviter que les ressources utilisées sur cette page ne soient facturées sur votre compte Google Cloud , procédez comme suit :

  • Utilisez <a href="https://console.cloud.google.com/" target="console" track-type="inline link" referrerpolicy="no-referrer-when-downgrade">Google Cloud console</a> pour supprimer votre projet si vous n'en avez plus besoin.

Étape suivante