Package google.cloud.mediatranslation.v1beta1

Index

SpeechTranslationService

Fournit une traduction depuis/vers des types de contenu.

StreamingTranslateSpeech

rpc StreamingTranslateSpeech(StreamingTranslateSpeechRequest) returns (StreamingTranslateSpeechResponse)

Effectue une traduction vocale en continu bidirectionnelle : recevez les résultats tout en envoyant les données audio. Cette méthode n'est disponible que via l'API gRPC (pas REST).

Champs d'application des autorisations

Requiert le champ d'application OAuth suivant :

  • https://www.googleapis.com/auth/cloud-platform

Pour en savoir plus, consultez Présentation de l'authentification.

StreamingTranslateSpeechConfig

Configuration utilisée pour la traduction en flux continu.

Champs
audio_config

TranslateSpeechConfig

Obligatoire. Configuration commune pour tous les contenus audio suivants.

single_utterance

bool

Facultatif. Si le champ est défini sur false ou omis, le système effectue une traduction continue (il attend les données audio et les traite même lorsque l'utilisateur s'arrête de parler) jusqu'à ce que le client interrompe le flux d'entrée (API gRPC) ou que la limite de temps maximale soit atteinte. Peut renvoyer plusieurs résultats StreamingTranslateSpeechResult avec l'option is_final définie sur true.

Si elle est définie sur true, le traducteur vocal détecte un seul énoncé. Lorsqu'il détecte une pause ou une interruption, il renvoie un événement END_OF_SINGLE_UTTERANCE et cesse la traduction. Lorsque le client reçoit l'événement END_OF_SINGLE_UTTERANCE, il doit cesser d'envoyer les requêtes, mais doit quand même continuer à recevoir les réponses restantes jusqu'à la fin du flux. Pour construire la phrase complète en flux continu, vous devez remplacer l'élément (si "is_final" de la réponse précédente est défini sur "false") ou l'ajouter (si "is_final" de la réponse précédente est défini sur "true").

StreamingTranslateSpeechRequest

Message de premier niveau envoyé par le client pour la méthode StreamingTranslateSpeech. Plusieurs messages StreamingTranslateSpeechRequest sont envoyés. Le premier message doit contenir un message streaming_config et ne doit pas contenir de données audio_content. Tous les messages suivants doivent contenir des données audio_content et pas de message streaming_config.

Champs
Champ d'union streaming_request. Requête de flux, qui correspond à une configuration de flux ou à du contenu. streaming_request ne peut être qu'un des éléments suivants :
streaming_config

StreamingTranslateSpeechConfig

Fournit à l'outil de reconnaissance des informations qui spécifient comment traiter la requête. Le premier message StreamingTranslateSpeechRequest doit contenir un message streaming_config.

audio_content

bytes

Données audio à traduire. Des blocs séquentiels de données audio sont envoyés dans des messages StreamingTranslateSpeechRequest séquentiels. Le premier message StreamingTranslateSpeechRequest ne doit pas contenir de données audio_content et tous les messages StreamingTranslateSpeechRequest suivants doivent contenir des données audio_content. Les octets de données audio doivent être encodés comme spécifié dans StreamingTranslateSpeechConfig. Remarque : comme pour tous les champs d'octets, les protobuffers utilisent une représentation binaire pure (sans encodage base64).

StreamingTranslateSpeechResponse

Réponse de traduction vocale en flux continu correspondant à une partie du contenu audio en cours de traitement.

Champs
error

Status

Uniquement en sortie. Si ce champ est défini, il renvoie un message google.rpc.Status qui spécifie l'erreur associée à l'opération.

result

StreamingTranslateSpeechResult

Uniquement en sortie. Résultat de la traduction en cours de traitement ("is_final" peut être défini sur "true" ou "false").

speech_event_type

SpeechEventType

Uniquement en sortie. Indique le type d'événement de discours.

SpeechEventType

Indique le type d'événement de discours.

Énumérations (Enums)
SPEECH_EVENT_TYPE_UNSPECIFIED Aucun événement de discours spécifié.
END_OF_SINGLE_UTTERANCE Cet événement indique que le serveur a détecté la fin de l'énoncé de l'utilisateur et ne s'attend plus à aucune entrée vocale. Le serveur ne traite donc pas de nouvelles données audio (bien qu'il puisse par la suite renvoyer des résultats supplémentaires). Lorsque le client reçoit l'événement END_OF_SINGLE_UTTERANCE, il doit cesser d'envoyer les requêtes, mais doit quand même continuer à recevoir les réponses restantes jusqu'à la fin du flux. Pour construire la phrase complète en flux continu, vous devez remplacer l'élément (si "is_final" de la réponse précédente est défini sur "false") ou l'ajouter (si "is_final" de la réponse précédente est défini sur "true"). Cet événement n'est envoyé que si le champ single_utterance est défini sur true et n'est pas utilisé par ailleurs.

StreamingTranslateSpeechResult

Résultat de traduction vocale en flux continu correspondant à une partie du contenu audio en cours de traitement.

Champs
text_translation_result

TextTranslationResult

Résultat de la traduction de texte.

TextTranslationResult

Résultat de la traduction de texte.

Champs
translation

string

Uniquement en sortie. Phrase traduite.

is_final

bool

Uniquement en sortie. Si le champ est défini sur false, le résultat StreamingTranslateSpeechResult constitue un élément provisoire susceptible de changer. Si le champ est défini sur true, il s'agit de la dernière fois que le service de traduction renvoie cet élément StreamingTranslateSpeechResult ; le service de traduction en flux continu ne renvoie plus d'hypothèses pour cette partie de la transcription et du contenu audio correspondant.

TranslateSpeechConfig

Fournit à la traduction vocale des informations spécifiant comment traiter la requête.

Champs
audio_encoding

string

Obligatoire. Encodage des données audio Formats compatibles :

  • linear16

Échantillons little-endian de 16 bits signés et non compressés (LPCM).

  • flac

L'encodage flac (Free Lossless Audio Codec, codec audio sans perte gratuit) est recommandé du fait de son absence de perte. Ainsi, la reconnaissance n'est pas compromise et ne nécessite qu'environ la moitié de la bande passante par rapport à l'encodage linear16.

  • mulaw

Échantillons de 8 bits compressant des échantillons audio 14 bits qui utilisent la norme G.711 PCMU/MULAW.

  • amr

Codec bande étroite AMR. La valeur sample_rate_hertz doit être de 8 000.

  • amr-wb

Codec large bande AMR. La valeur sample_rate_hertz doit être de 16 000.

  • ogg-opus

Trames audio encodées au format Opus dans un conteneur Ogg). La valeur sample_rate_hertz doit être définie sur 8 000, 12 000, 16 000, 24 000 ou 48 000.

source_language_code

string

Obligatoire. Code de langue source (BCP-47) de l'entrée audio.

target_language_code

string

Obligatoire. Code de langue cible (BCP-47) de la sortie.

sample_rate_hertz

int32

Facultatif. Taux d'échantillonnage en hertz du contenu audio. Les valeurs possibles sont comprises entre 8 000 et 48 000. La valeur optimale est 16 000. Pour de meilleurs résultats, définissez le taux d'échantillonnage de la source audio sur 16 000 Hz. Si ce n'est pas possible, utilisez le taux d'échantillonnage natif de la source audio (plutôt que d'effectuer un ré-échantillonnage).

model

string

Facultatif. Les valeurs autorisées sont les suivantes : google-provided-model/default, google-provided-model/video, google-provided-model/phone-call, google-provided-model/enhanced-phone-call.

Si ce paramètre n'est pas défini, le modèle par défaut/fourni par Google est utilisé.