L'API Media Translation est obsolète et ne sera plus disponible sur Google Cloud après le 1er juillet 2024. Vous pouvez répliquer les fonctionnalités de l'API Media Translation via d'autres services Google Cloud, tels que Cloud Speech-to-Text et l'API Cloud Translation.

Package google.cloud.mediatranslation.v1beta1

Index

SpeechTranslationService (interface)
StreamingTranslateSpeechConfig (message)
StreamingTranslateSpeechRequest (message)
StreamingTranslateSpeechResponse (message)
StreamingTranslateSpeechResponse.SpeechEventType (enum)
StreamingTranslateSpeechResult (message)
StreamingTranslateSpeechResult.TextTranslationResult (message)
TranslateSpeechConfig (message)

SpeechTranslationService

Fournit une traduction depuis/vers des types de contenu.

StreamingTranslateSpeech

StreamingTranslateSpeech
`rpc StreamingTranslateSpeech(StreamingTranslateSpeechRequest) returns (StreamingTranslateSpeechResponse)` Effectue une traduction vocale en continu bidirectionnelle : recevez les résultats tout en envoyant les données audio. Cette méthode n'est disponible que via l'API gRPC (pas REST). Champs d'application des autorisations Requiert le champ d'application OAuth suivant : `https://www.googleapis.com/auth/cloud-platform` Pour en savoir plus, consultez Présentation de l'authentification.

rpc StreamingTranslateSpeech(StreamingTranslateSpeechRequest) returns (StreamingTranslateSpeechResponse)

Effectue une traduction vocale en continu bidirectionnelle : recevez les résultats tout en envoyant les données audio. Cette méthode n'est disponible que via l'API gRPC (pas REST).

Champs d'application des autorisations

Requiert le champ d'application OAuth suivant :

https://www.googleapis.com/auth/cloud-platform

Pour en savoir plus, consultez Présentation de l'authentification.

StreamingTranslateSpeechConfig

Configuration utilisée pour la traduction en flux continu.

Champs

Champs
`audio_config`	`TranslateSpeechConfig` Obligatoire. Configuration commune pour tous les contenus audio suivants.
`single_utterance`	`bool` Facultatif. Si le champ est défini sur `false` ou omis, le système effectue une traduction continue (il attend les données audio et les traite même lorsque l'utilisateur s'arrête de parler) jusqu'à ce que le client interrompe le flux d'entrée (API gRPC) ou que la limite de temps maximale soit atteinte. Peut renvoyer plusieurs résultats `StreamingTranslateSpeechResult` avec l'option `is_final` définie sur `true`. Si elle est définie sur `true`, le traducteur vocal détecte un seul énoncé. Lorsqu'il détecte une pause ou une interruption, il renvoie un événement `END_OF_SINGLE_UTTERANCE` et cesse la traduction. Lorsque le client reçoit l'événement END_OF_SINGLE_UTTERANCE, il doit cesser d'envoyer les requêtes, mais doit quand même continuer à recevoir les réponses restantes jusqu'à la fin du flux. Pour construire la phrase complète en flux continu, vous devez remplacer l'élément (si "is_final" de la réponse précédente est défini sur "false") ou l'ajouter (si "is_final" de la réponse précédente est défini sur "true").

audio_config

TranslateSpeechConfig

Obligatoire. Configuration commune pour tous les contenus audio suivants.

single_utterance

bool

Facultatif. Si le champ est défini sur false ou omis, le système effectue une traduction continue (il attend les données audio et les traite même lorsque l'utilisateur s'arrête de parler) jusqu'à ce que le client interrompe le flux d'entrée (API gRPC) ou que la limite de temps maximale soit atteinte. Peut renvoyer plusieurs résultats StreamingTranslateSpeechResult avec l'option is_final définie sur true.

Si elle est définie sur true, le traducteur vocal détecte un seul énoncé. Lorsqu'il détecte une pause ou une interruption, il renvoie un événement END_OF_SINGLE_UTTERANCE et cesse la traduction. Lorsque le client reçoit l'événement END_OF_SINGLE_UTTERANCE, il doit cesser d'envoyer les requêtes, mais doit quand même continuer à recevoir les réponses restantes jusqu'à la fin du flux. Pour construire la phrase complète en flux continu, vous devez remplacer l'élément (si "is_final" de la réponse précédente est défini sur "false") ou l'ajouter (si "is_final" de la réponse précédente est défini sur "true").

StreamingTranslateSpeechRequest

Message de premier niveau envoyé par le client pour la méthode StreamingTranslateSpeech. Plusieurs messages StreamingTranslateSpeechRequest sont envoyés. Le premier message doit contenir un message streaming_config et ne doit pas contenir de données audio_content. Tous les messages suivants doivent contenir des données audio_content et pas de message streaming_config.

Champs

Champs
Champ d'union `streaming_request`. Requête de flux, qui correspond à une configuration de flux ou à du contenu. `streaming_request` ne peut être qu'un des éléments suivants :
`streaming_config`	`StreamingTranslateSpeechConfig` Fournit à l'outil de reconnaissance des informations qui spécifient comment traiter la requête. Le premier message `StreamingTranslateSpeechRequest` doit contenir un message `streaming_config`.
`audio_content`	`bytes` Données audio à traduire. Des blocs séquentiels de données audio sont envoyés dans des messages `StreamingTranslateSpeechRequest` séquentiels. Le premier message `StreamingTranslateSpeechRequest` ne doit pas contenir de données `audio_content` et tous les messages `StreamingTranslateSpeechRequest` suivants doivent contenir des données `audio_content`. Les octets de données audio doivent être encodés comme spécifié dans `StreamingTranslateSpeechConfig`. Remarque : comme pour tous les champs d'octets, les protobuffers utilisent une représentation binaire pure (sans encodage base64).

Champ d'union streaming_request. Requête de flux, qui correspond à une configuration de flux ou à du contenu. streaming_request ne peut être qu'un des éléments suivants :

streaming_config

StreamingTranslateSpeechConfig

Fournit à l'outil de reconnaissance des informations qui spécifient comment traiter la requête. Le premier message StreamingTranslateSpeechRequest doit contenir un message streaming_config.

audio_content

bytes

Données audio à traduire. Des blocs séquentiels de données audio sont envoyés dans des messages StreamingTranslateSpeechRequest séquentiels. Le premier message StreamingTranslateSpeechRequest ne doit pas contenir de données audio_content et tous les messages StreamingTranslateSpeechRequest suivants doivent contenir des données audio_content. Les octets de données audio doivent être encodés comme spécifié dans StreamingTranslateSpeechConfig. Remarque : comme pour tous les champs d'octets, les protobuffers utilisent une représentation binaire pure (sans encodage base64).

StreamingTranslateSpeechResponse

Réponse de traduction vocale en flux continu correspondant à une partie du contenu audio en cours de traitement.

Champs

Champs
`error`	`Status` Uniquement en sortie. Si ce champ est défini, il renvoie un message `google.rpc.Status` qui spécifie l'erreur associée à l'opération.
`result`	`StreamingTranslateSpeechResult` Uniquement en sortie. Résultat de la traduction en cours de traitement ("is_final" peut être défini sur "true" ou "false").
`speech_event_type`	`SpeechEventType` Uniquement en sortie. Indique le type d'événement de discours.

error

Status

Uniquement en sortie. Si ce champ est défini, il renvoie un message google.rpc.Status qui spécifie l'erreur associée à l'opération.

result

StreamingTranslateSpeechResult

Uniquement en sortie. Résultat de la traduction en cours de traitement ("is_final" peut être défini sur "true" ou "false").

speech_event_type

SpeechEventType

Uniquement en sortie. Indique le type d'événement de discours.

SpeechEventType

Indique le type d'événement de discours.

Énumérations (Enums)

SPEECH_EVENT_TYPE_UNSPECIFIED Aucun événement de discours spécifié.

END_OF_SINGLE_UTTERANCE Cet événement indique que le serveur a détecté la fin de l'énoncé de l'utilisateur et ne s'attend plus à aucune entrée vocale. Le serveur ne traite donc pas de nouvelles données audio (bien qu'il puisse par la suite renvoyer des résultats supplémentaires). Lorsque le client reçoit l'événement END_OF_SINGLE_UTTERANCE, il doit cesser d'envoyer les requêtes, mais doit quand même continuer à recevoir les réponses restantes jusqu'à la fin du flux. Pour construire la phrase complète en flux continu, vous devez remplacer l'élément (si "is_final" de la réponse précédente est défini sur "false") ou l'ajouter (si "is_final" de la réponse précédente est défini sur "true"). Cet événement n'est envoyé que si le champ single_utterance est défini sur true et n'est pas utilisé par ailleurs.

Énumérations (Enums)
`SPEECH_EVENT_TYPE_UNSPECIFIED`	Aucun événement de discours spécifié.
`END_OF_SINGLE_UTTERANCE`	Cet événement indique que le serveur a détecté la fin de l'énoncé de l'utilisateur et ne s'attend plus à aucune entrée vocale. Le serveur ne traite donc pas de nouvelles données audio (bien qu'il puisse par la suite renvoyer des résultats supplémentaires). Lorsque le client reçoit l'événement END_OF_SINGLE_UTTERANCE, il doit cesser d'envoyer les requêtes, mais doit quand même continuer à recevoir les réponses restantes jusqu'à la fin du flux. Pour construire la phrase complète en flux continu, vous devez remplacer l'élément (si "is_final" de la réponse précédente est défini sur "false") ou l'ajouter (si "is_final" de la réponse précédente est défini sur "true"). Cet événement n'est envoyé que si le champ `single_utterance` est défini sur `true` et n'est pas utilisé par ailleurs.

StreamingTranslateSpeechResult

Résultat de traduction vocale en flux continu correspondant à une partie du contenu audio en cours de traitement.

Champs

Champs
`text_translation_result`	`TextTranslationResult` Résultat de la traduction de texte.

text_translation_result

TextTranslationResult

Résultat de la traduction de texte.

TextTranslationResult

Résultat de la traduction de texte.

Champs

Champs
`translation`	`string` Uniquement en sortie. Phrase traduite.
`is_final`	`bool` Uniquement en sortie. Si le champ est défini sur `false`, le résultat `StreamingTranslateSpeechResult` constitue un élément provisoire susceptible de changer. Si le champ est défini sur `true`, il s'agit de la dernière fois que le service de traduction renvoie cet élément `StreamingTranslateSpeechResult` ; le service de traduction en flux continu ne renvoie plus d'hypothèses pour cette partie de la transcription et du contenu audio correspondant.

translation

string

Uniquement en sortie. Phrase traduite.

is_final

bool

Uniquement en sortie. Si le champ est défini sur false, le résultat StreamingTranslateSpeechResult constitue un élément provisoire susceptible de changer. Si le champ est défini sur true, il s'agit de la dernière fois que le service de traduction renvoie cet élément StreamingTranslateSpeechResult ; le service de traduction en flux continu ne renvoie plus d'hypothèses pour cette partie de la transcription et du contenu audio correspondant.

TranslateSpeechConfig

Fournit à la traduction vocale des informations spécifiant comment traiter la requête.

Champs
`audio_encoding`	`string` Obligatoire. Encodage des données audio Formats compatibles : `linear16` Échantillons little-endian de 16 bits signés et non compressés (LPCM). `flac` L'encodage `flac` (Free Lossless Audio Codec, codec audio sans perte gratuit) est recommandé du fait de son absence de perte. Ainsi, la reconnaissance n'est pas compromise et ne nécessite qu'environ la moitié de la bande passante par rapport à l'encodage `linear16`. `mulaw` Échantillons de 8 bits compressant des échantillons audio 14 bits qui utilisent la norme G.711 PCMU/MULAW. `amr` Codec bande étroite AMR. La valeur `sample_rate_hertz` doit être de 8 000. `amr-wb` Codec large bande AMR. La valeur `sample_rate_hertz` doit être de 16 000. `ogg-opus` Trames audio encodées au format Opus dans un conteneur Ogg). La valeur `sample_rate_hertz` doit être définie sur 8 000, 12 000, 16 000, 24 000 ou 48 000.
`source_language_code`	`string` Obligatoire. Code de langue source (BCP-47) de l'entrée audio.
`target_language_code`	`string` Obligatoire. Code de langue cible (BCP-47) de la sortie.
`sample_rate_hertz`	`int32` Facultatif. Taux d'échantillonnage en hertz du contenu audio. Les valeurs possibles sont comprises entre 8 000 et 48 000. La valeur optimale est 16 000. Pour de meilleurs résultats, définissez le taux d'échantillonnage de la source audio sur 16 000 Hz. Si ce n'est pas possible, utilisez le taux d'échantillonnage natif de la source audio (plutôt que d'effectuer un ré-échantillonnage).
`model`	`string` Facultatif. Les valeurs autorisées sont les suivantes : `google-provided-model/default`, `google-provided-model/video`, `google-provided-model/phone-call`, `google-provided-model/enhanced-phone-call`. Si ce paramètre n'est pas défini, le modèle par défaut/fourni par Google est utilisé.