Index
SpeechTranslationService
(interface)StreamingTranslateSpeechConfig
(message)StreamingTranslateSpeechRequest
(message)StreamingTranslateSpeechResponse
(message)StreamingTranslateSpeechResponse.SpeechEventType
(enum)StreamingTranslateSpeechResult
(message)StreamingTranslateSpeechResult.TextTranslationResult
(message)TranslateSpeechConfig
(message)
SpeechTranslationService
Fournit une traduction depuis/vers des types de contenu.
StreamingTranslateSpeech |
---|
Effectue une traduction vocale en continu bidirectionnelle : recevez les résultats tout en envoyant les données audio. Cette méthode n'est disponible que via l'API gRPC (pas REST).
|
StreamingTranslateSpeechConfig
Configuration utilisée pour la traduction en flux continu.
Champs | |
---|---|
audio_config |
Obligatoire. Configuration commune pour tous les contenus audio suivants. |
single_utterance |
Facultatif. Si le champ est défini sur Si elle est définie sur |
stability |
Facultatif. Contrôle de stabilité du texte de la traduction multimédia. Notez que la stabilité et la vitesse constituent un compromis. La valeur doit être "LOW", "MEDIUM" ou "HIGH". Une chaîne vide par défaut sera traitée comme "LOW". (1) "LOW" : lorsque la stabilité est faible, le service de traduction commence à effectuer la traduction dès qu'il reçoit une réponse de reconnaissance. La vitesse sera plus élevée. (2) "MEDIUM" : lorsque la stabilité est moyenne, le service de traduction vérifie si la réponse de reconnaissance est suffisamment stable, et ne traduit que la réponse de reconnaissance qui n'est pas susceptible d'être modifiée ultérieurement. (3) "HIGH" : lorsque la stabilité est élevée, le service de traduction attend des réponses de reconnaissance plus stables avant de commencer la traduction. De plus, les réponses de reconnaissance suivantes ne peuvent pas modifier les réponses de reconnaissance précédentes. Cela peut donc avoir un impact sur la qualité dans certaines situations. La stabilité "HIGH" génère des réponses "finales" plus fréquemment. |
StreamingTranslateSpeechRequest
Message de premier niveau envoyé par le client pour la méthode StreamingTranslateSpeech
. Plusieurs messages StreamingTranslateSpeechRequest
sont envoyés. Le premier message doit contenir un message streaming_config
et ne doit pas contenir de données audio_content
. Tous les messages suivants doivent contenir des données audio_content
et pas de message streaming_config
.
Champs | |
---|---|
Champ d'union streaming_request . Requête de flux, qui correspond à une configuration de flux ou à du contenu. streaming_request ne peut être qu'un des éléments suivants : |
|
streaming_config |
Fournit à l'outil de reconnaissance des informations qui spécifient comment traiter la requête. Le premier message |
audio_content |
Données audio à traduire. Des blocs séquentiels de données audio sont envoyés dans des messages |
StreamingTranslateSpeechResponse
Réponse de traduction vocale en flux continu correspondant à une partie du contenu audio en cours de traitement.
Champs | |
---|---|
error |
Uniquement en sortie. Si ce champ est défini, il renvoie un message |
result |
Uniquement en sortie. Résultat de la traduction en cours de traitement ("is_final" peut être défini sur "true" ou "false"). |
speech_event_type |
Uniquement en sortie. Indique le type d'événement de discours. |
SpeechEventType
Indique le type d'événement de discours.
Énumérations (Enums) | |
---|---|
SPEECH_EVENT_TYPE_UNSPECIFIED |
Aucun événement de discours spécifié. |
END_OF_SINGLE_UTTERANCE |
Cet événement indique que le serveur a détecté la fin de l'énoncé de l'utilisateur et ne s'attend plus à aucune entrée vocale. Le serveur ne traite donc pas de nouvelles données audio (bien qu'il puisse par la suite renvoyer des résultats supplémentaires). Lorsque le client reçoit l'événement END_OF_SINGLE_UTTERANCE, il doit cesser d'envoyer les requêtes, mais doit quand même continuer à recevoir les réponses restantes jusqu'à la fin du flux. Pour construire la phrase complète en flux continu, vous devez remplacer l'élément (si "is_final" de la réponse précédente est défini sur "false") ou l'ajouter (si "is_final" de la réponse précédente est défini sur "true"). Cet événement n'est envoyé que si le champ single_utterance est défini sur true et n'est pas utilisé par ailleurs. |
StreamingTranslateSpeechResult
Résultat de traduction vocale en flux continu correspondant à une partie du contenu audio en cours de traitement.
Champs | |
---|---|
recognition_result |
Uniquement en sortie. Résultat de la reconnaissance à des fins de débogage uniquement dans la langue d'origine. Ce champ n'est destiné qu'au débogage. Il est défini sur une chaîne vide s'il n'est pas disponible. Il s'agit d'un détail d'implémentation qui n'est pas rétrocompatible. |
text_translation_result |
Résultat de la traduction de texte. |
TextTranslationResult
Résultat de la traduction de texte.
Champs | |
---|---|
translation |
Uniquement en sortie. Phrase traduite. |
is_final |
Uniquement en sortie. Si le champ est défini sur |
TranslateSpeechConfig
Fournit à la traduction vocale des informations spécifiant comment traiter la requête.
Champs | |
---|---|
audio_encoding |
Obligatoire. Encodage des données audio Formats compatibles :
Échantillons little-endian de 16 bits signés et non compressés (LPCM).
L'encodage
Échantillons de 8 bits compressant des échantillons audio 14 bits qui utilisent la norme G.711 PCMU/MULAW.
Codec bande étroite AMR. La valeur
Codec large bande AMR. La valeur
Trames audio encodées au format Opus dans un conteneur Ogg. La valeur
Audio MP3. Compatibilité avec tous les débits MP3 standards (de 32 à 320 kbit/s). Lorsque vous utilisez cet encodage, |
source_language_code |
Obligatoire. Code de langue source (BCP-47) de l'entrée audio. |
target_language_code |
Obligatoire. Code de langue cible (BCP-47) de la sortie. |
sample_rate_hertz |
Facultatif. Taux d'échantillonnage en hertz du contenu audio. Les valeurs possibles sont comprises entre 8 000 et 48 000. La valeur optimale est 16 000. Pour de meilleurs résultats, définissez le taux d'échantillonnage de la source audio sur 16 000 Hz. Si ce n'est pas possible, utilisez le taux d'échantillonnage natif de la source audio (plutôt que d'effectuer un ré-échantillonnage). |
model |
Facultatif. |