Cette page explique comment ajouter des informations supplémentaires sur le contenu audio source inclus dans une requête de reconnaissance vocale envoyée à Speech-to-Text.
Speech-to-Text convertit le contenu audio enregistré en texte à l'aide de plusieurs modèles de machine learning. Chaque modèle a été entraîné selon des caractéristiques spécifiques d'entrée audio, comme le type de fichier audio, l'appareil d'enregistrement d'origine, la distance entre le locuteur et l'appareil d'enregistrement, et le nombre de locuteurs dans le fichier audio.
Lorsque vous envoyez une requête de transcription à Speech-to-Text, vous pouvez inclure ces informations supplémentaires sur les données audio en tant que métadonnées de reconnaissance. Speech-to-Text peut alors s'appuyer sur ces informations pour transcrire plus précisément vos données audio.
Après avoir collecté ces métadonnées pour analyser et regrouper les cas d'utilisation les plus courants de Speech-to-Text, Google peut hiérarchiser les principaux cas d'utilisation afin d'améliorer Speech-to-Text.
Champs de métadonnées disponibles
Vous pouvez ajouter n'importe quel champ de la liste suivante dans les métadonnées d'une requête de transcription.
Champ | Type | Description |
---|---|---|
interactionType |
ENUM |
Cas d'utilisation du contenu audio. |
industryNaicsCodeOfAudio |
nombre | Marché vertical du fichier audio, sous la forme d'un code SCIAN à six chiffres. |
microphoneDistance |
ENUM |
Distance entre le micro et le locuteur. |
originalMediaType |
ENUM |
Contenu multimédia original du fichier audio, qu'il soit audio ou vidéo. |
recordingDeviceType |
ENUM |
Type d'appareil utilisé pour enregistrer le contenu audio (smartphones, micro de PC, systèmes pour véhicule, etc.). |
recordingDeviceName |
chaîne | Appareil utilisé pour l'enregistrement. Cette chaîne arbitraire peut inclure des noms, tels que "Pixel XL", "VoIP", "Micro cardioïde" ou toute autre valeur. |
originalMimeType |
chaîne | Type MIME du fichier audio d'origine. Voici quelques exemples : audio/m4a, audio/x-alaw-basic, audio/mp3, audio/3gpp ou tout autre type MIME de fichier audio. |
obfuscatedId |
chaîne | ID de protection des données confidentielles attribué à l'utilisateur qui permet d'identifier le nombre d'utilisateurs uniques du service. |
audioTopic |
chaîne | Description arbitraire du sujet traité dans le fichier audio. Voici quelques exemples : "Visite guidée de New York", "audience au tribunal" ou "entretien en direct entre deux personnes". |
Pour en savoir plus sur ces champs, consultez la documentation de référence sur RecognitionMetadata
.
Activer les métadonnées de reconnaissance
Pour ajouter des métadonnées de reconnaissance dans une requête de reconnaissance vocale envoyée à l'API Speech-to-Text, définissez le champ metadata
de la requête de reconnaissance vocale sur un objet RecognitionMetadata
.
L'API Speech-to-Text permet l'utilisation des métadonnées de reconnaissance avec toutes les méthodes de reconnaissance vocale, à savoir speech:recognize
, speech:longrunningrecognize
et Streaming. Pour en savoir plus sur les types de métadonnées que vous pouvez ajouter dans votre requête, consultez la documentation de référence sur RecognitionMetadata
.
Le code suivant montre comment spécifier des champs de métadonnées supplémentaires dans une requête de transcription.
Protocole
Reportez-vous au point de terminaison speech:recognize
de l'API pour obtenir des informations complètes.
Pour réaliser une reconnaissance vocale synchrone, exécutez une requête POST
en fournissant le corps de requête approprié. Voici un exemple de requête POST
utilisant curl
. Cet exemple fait intervenir le jeton d'accès associé à un compte de service configuré pour le projet à l'aide de Google Cloud CLI. Pour obtenir des instructions sur l'installation de la CLI gcloud
, la configuration d'un projet avec un compte de service et l'obtention d'un jeton d'accès, consultez le guide de démarrage rapide.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer "$(gcloud auth print-access-token) \ https://speech.googleapis.com/v1p1beta1/speech:recognize \ --data '{ "config": { "encoding": "FLAC", "sampleRateHertz": 16000, "languageCode": "en-US", "enableWordTimeOffsets": false, "metadata": { "interactionType": "VOICE_SEARCH", "industryNaicsCodeOfAudio": 23810, "microphoneDistance": "NEARFIELD", "originalMediaType": "AUDIO", "recordingDeviceType": "OTHER_INDOOR_DEVICE", "recordingDeviceName": "Polycom SoundStation IP 6000", "originalMimeType": "audio/mp3", "obfuscatedId": "11235813", "audioTopic": "questions about landmarks in NYC" } }, "audio": { "uri":"gs://cloud-samples-tests/speech/brooklyn.flac" } }
Pour en savoir plus sur la configuration du corps de la requête, consultez la documentation de référence sur RecognitionConfig
.
Si la requête aboutit, le serveur renvoie un code d'état HTTP 200 OK
et la réponse au format JSON :
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98360395 } ] } ] }
Node.js
Python