Traduire du contenu audio diffusé en streaming

Media Translation permet de traduire un fichier audio ou un flux vocal en texte dans une autre langue. Cette page fournit des exemples de code montrant comment traduire en texte du contenu audio diffusé en streaming à l'aide de bibliothèques clientes Media Translation.

Configurer votre projet

Avant de pouvoir utiliser Media Translation, vous devez configurer un projet Google Cloud et activer l'API Media Translation pour ce projet.

  1. Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Media Translation API.

    Enable the API

  5. Create a service account:

    1. In the Google Cloud console, go to the Create service account page.

      Go to Create service account
    2. Select your project.
    3. In the Service account name field, enter a name. The Google Cloud console fills in the Service account ID field based on this name.

      In the Service account description field, enter a description. For example, Service account for quickstart.

    4. Click Create and continue.
    5. Grant the Project > Owner role to the service account.

      To grant the role, find the Select a role list, then select Project > Owner.

    6. Click Continue.
    7. Click Done to finish creating the service account.

      Do not close your browser window. You will use it in the next step.

  6. Create a service account key:

    1. In the Google Cloud console, click the email address for the service account that you created.
    2. Click Keys.
    3. Click Add key, and then click Create new key.
    4. Click Create. A JSON key file is downloaded to your computer.
    5. Click Close.
  7. Set the environment variable GOOGLE_APPLICATION_CREDENTIALS to the path of the JSON file that contains your credentials. This variable applies only to your current shell session, so if you open a new session, set the variable again.

  8. Install the Google Cloud CLI.
  9. To initialize the gcloud CLI, run the following command:

    gcloud init
  18. Installez la bibliothèque cliente pour votre langue préférée.

Traduire la saisie vocale

Les exemples de code ci-dessous montrent comment traduire une saisie vocale à partir d'un fichier contenant jusqu'à cinq minutes d'audio ou à partir d'un micro en direct. Consultez la section Bonnes pratiques pour obtenir des recommandations sur la façon de fournir des données vocales pour une meilleure précision de reconnaissance.

Les principales étapes sont les mêmes quelle que soit la source audio :

  1. Initialisez un client SpeechTranslationServiceClient à utiliser pour envoyer des requêtes à Media Translation.

    Vous pouvez réutiliser le même client pour plusieurs requêtes.

  2. Créez un objet de requête StreamingTranslateSpeechConfig qui spécifie comment traiter le contenu audio.

    L'objet StreamingTranslateSpeechConfig se compose d'un objet TranslateSpeechConfig qui fournit des informations sur le fichier source audio et d'une option single_utterance qui indique si Media Translation doit continuer la traduction lorsque l'utilisateur s'arrête de parler.

    L'objet TranslateSpeechConfig fournit des spécifications techniques pour la source audio (telles que son encodage et son taux d'échantillonnage), définit les langues source et cible de la traduction (à l'aide de leurs codes de langue BCP-47) et définit le modèle de traduction utilisé par Media Translation pour la transcription.

  3. Envoyez une séquence d'objets de requête StreamingTranslateSpeechRequest.

    Vous envoyez une séquence de requêtes pour chaque fichier audio que vous souhaitez traduire. La première requête fournit l'objet StreamingTranslateSpeechConfig de la requête, et les requêtes suivantes fournissent le contenu audio diffusé en streaming.

  4. Recevez l'objet de réponse StreamingTranslateSpeechResult.

    Même si vous recevez une réponse dont l'objet text_translation_result.is_final est défini sur false, le dernier résultat traduit écrase le résultat précédent.

    Lorsque Media Translation fournit un résultat final, le champ text_translation_result.is_final est défini sur true. Les résultats de traduction suivants sont ajoutés au résultat précédent. (Dans ce cas, le résultat précédent n'est pas écrasé). Vous pouvez générer la traduction complète, et commencer avec une nouvelle section pour la partie suivante de la transcription et du contenu audio correspondant.

    Si le champ single_utterance est défini sur "true" dans l'objet de requête StreamingTranslateSpeechConfig lorsque le locuteur arrête de parler, Media Translation renvoie un événement END_OF_SINGLE_UTTERANCE pour speech_event_type dans la réponse. Le client arrête d'envoyer des requêtes, mais continue à recevoir des réponses jusqu'à la fin de la traduction.

  5. La diffusion en streaming est limitée à cinq minutes. Si vous dépassez cette limite, vous obtenez une erreur OUT_OF_RANGE.

Exemples de code

Traduire la saisie vocale à partir d'un fichier audio


Pour savoir comment installer et utiliser la bibliothèque cliente pour Media Translation, consultez la page Bibliothèques clientes Media Translation. Pour en savoir plus, consultez la documentation de référence de l'API Media Translation pour Java.

Pour vous authentifier auprès de Media Translation, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.

import java.nio.file.Files;
import java.nio.file.Path;
import java.nio.file.Paths;

public class TranslateFromFile {

  public static void translateFromFile() throws IOException {
    // TODO(developer): Replace these variables before running the sample.
    String filePath = "path/to/audio.raw";

  public static void translateFromFile(String filePath) throws IOException {
    // Initialize client that will be used to send requests. This client only needs to be created
    // once, and can be reused for multiple requests. After completing all of your requests, call
    // the "close" method on the client to safely clean up any remaining background resources.
    try (SpeechTranslationServiceClient client = SpeechTranslationServiceClient.create()) {
      Path path = Paths.get(filePath);
      byte[] content = Files.readAllBytes(path);
      ByteString audioContent = ByteString.copyFrom(content);

      TranslateSpeechConfig audioConfig =

      StreamingTranslateSpeechConfig config =

      BidiStream<StreamingTranslateSpeechRequest, StreamingTranslateSpeechResponse> bidiStream =

      // The first request contains the configuration.
      StreamingTranslateSpeechRequest requestConfig =

      // The second request contains the audio
      StreamingTranslateSpeechRequest request =


      for (StreamingTranslateSpeechResponse response : bidiStream) {
        // Once the transcription settles, the response contains the
        // is_final result. The other results will be for subsequent portions of
        // the audio.
        StreamingTranslateSpeechResult res = response.getResult();
        String translation = res.getTextTranslationResult().getTranslation();

        if (res.getTextTranslationResult().getIsFinal()) {
          System.out.println(String.format("\nFinal translation: %s", translation));
        System.out.println(String.format("\nPartial translation: %s", translation));


Pour savoir comment installer et utiliser la bibliothèque cliente pour Media Translation, consultez la page Bibliothèques clientes Media Translation. Pour en savoir plus, consultez la documentation de référence de l'API Media Translation pour Node.js.

Pour vous authentifier auprès de Media Translation, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.

const fs = require('fs');

// Imports the CLoud Media Translation client library
const {
} = require('@google-cloud/media-translation');

// Creates a client
const client = new SpeechTranslationServiceClient();

async function translate_from_file() {
   * TODO(developer): Uncomment the following lines before running the sample.
  // const filename = 'Local path to audio file, e.g. /path/to/audio.raw';
  // const encoding = 'Encoding of the audio file, e.g. LINEAR16';
  // const sourceLanguage = 'BCP-47 source language code, e.g. en-US';
  // const targetLanguage = 'BCP-47 target language code, e.g. es-ES';

  const config = {
    audioConfig: {
      audioEncoding: encoding,
      sourceLanguageCode: sourceLanguage,
      targetLanguageCode: targetLanguage,
    single_utterance: true,

  // First request needs to have only a streaming config, no data.
  const initialRequest = {
    streamingConfig: config,
    audioContent: null,

  const readStream = fs.createReadStream(filename, {
    highWaterMark: 4096,
    encoding: 'base64',

  const chunks = [];
    .on('data', chunk => {
      const request = {
        streamingConfig: config,
        audioContent: chunk.toString(),
    .on('close', () => {
      // Config-only request should be first in stream of requests
      for (let i = 0; i < chunks.length; i++) {

  const stream = client.streamingTranslateSpeech().on('data', response => {
    const {result} = response;
    if (result.textTranslationResult.isFinal) {
        `\nFinal translation: ${result.textTranslationResult.translation}`
      console.log(`Final recognition result: ${result.recognitionResult}`);
    } else {
        `\nPartial translation: ${result.textTranslationResult.translation}`
      console.log(`Partial recognition result: ${result.recognitionResult}`);


Pour savoir comment installer et utiliser la bibliothèque cliente pour Media Translation, consultez la page Bibliothèques clientes Media Translation. Pour en savoir plus, consultez la documentation de référence de l'API Media Translation pour Python.

Pour vous authentifier auprès de Media Translation, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.

from import mediatranslation

def translate_from_file(file_path="path/to/your/file"):
    client = mediatranslation.SpeechTranslationServiceClient()

    # The `sample_rate_hertz` field is not required for FLAC and WAV (Linear16)
    # encoded data. Other audio encodings must provide the sampling rate.
    audio_config = mediatranslation.TranslateSpeechConfig(

    streaming_config = mediatranslation.StreamingTranslateSpeechConfig(
        audio_config=audio_config, single_utterance=True

    def request_generator(config, audio_file_path):
        # The first request contains the configuration.
        # Note that audio_content is explicitly set to None.
        yield mediatranslation.StreamingTranslateSpeechRequest(streaming_config=config)

        with open(audio_file_path, "rb") as audio:
            while True:
                chunk =
                if not chunk:
                yield mediatranslation.StreamingTranslateSpeechRequest(

    requests = request_generator(streaming_config, file_path)
    responses = client.streaming_translate_speech(requests)

    for response in responses:
        # Once the transcription settles, the response contains the
        # is_final result. The other results will be for subsequent portions of
        # the audio.
        print(f"Response: {response}")
        result = response.result
        translation = result.text_translation_result.translation

        if result.text_translation_result.is_final:
            print(f"\nFinal translation: {translation}")

        print(f"\nPartial translation: {translation}")

Traduire la saisie vocale à partir d'un micro


Pour savoir comment installer et utiliser la bibliothèque cliente pour Media Translation, consultez la page Bibliothèques clientes Media Translation. Pour en savoir plus, consultez la documentation de référence de l'API Media Translation pour Java.

Pour vous authentifier auprès de Media Translation, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.

import javax.sound.sampled.AudioFormat;
import javax.sound.sampled.AudioInputStream;
import javax.sound.sampled.AudioSystem;
import javax.sound.sampled.DataLine;
import javax.sound.sampled.LineUnavailableException;
import javax.sound.sampled.TargetDataLine;

public class TranslateFromMic {

  public static void main(String[] args) throws IOException, LineUnavailableException {

  public static void translateFromMic() throws IOException, LineUnavailableException {

    ResponseObserver<StreamingTranslateSpeechResponse> responseObserver = null;

    // Initialize client that will be used to send requests. This client only needs to be created
    // once, and can be reused for multiple requests. After completing all of your requests, call
    // the "close" method on the client to safely clean up any remaining background resources.
    try (SpeechTranslationServiceClient client = SpeechTranslationServiceClient.create()) {
      responseObserver =
          new ResponseObserver<StreamingTranslateSpeechResponse>() {

            public void onStart(StreamController controller) {}

            public void onResponse(StreamingTranslateSpeechResponse response) {
              StreamingTranslateSpeechResult res = response.getResult();
              String translation = res.getTextTranslationResult().getTranslation();

              if (res.getTextTranslationResult().getIsFinal()) {
                System.out.println(String.format("\nFinal translation: %s", translation));
              } else {
                System.out.println(String.format("\nPartial translation: %s", translation));

            public void onComplete() {}

            public void onError(Throwable t) {

      ClientStream<StreamingTranslateSpeechRequest> clientStream =

      TranslateSpeechConfig audioConfig =

      StreamingTranslateSpeechConfig streamingRecognitionConfig =

      StreamingTranslateSpeechRequest request =
              .build(); // The first request in a streaming call has to be a config

      // SampleRate:16000Hz, SampleSizeInBits: 16, Number of channels: 1, Signed: true,
      // bigEndian: false
      AudioFormat audioFormat = new AudioFormat(16000, 16, 1, true, false);
      DataLine.Info targetInfo =
          new DataLine.Info(
              audioFormat); // Set the system information to read from the microphone audio stream

      if (!AudioSystem.isLineSupported(targetInfo)) {
        System.out.println("Microphone not supported");
      // Target data line captures the audio stream the microphone produces.
      TargetDataLine targetDataLine = (TargetDataLine) AudioSystem.getLine(targetInfo);;
      System.out.println("Start speaking... Press Ctrl-C to stop");
      long startTime = System.currentTimeMillis();
      // Audio Input Stream
      AudioInputStream audio = new AudioInputStream(targetDataLine);

      while (true) {
        byte[] data = new byte[6400];;
        request =


Pour savoir comment installer et utiliser la bibliothèque cliente pour Media Translation, consultez la page Bibliothèques clientes Media Translation. Pour en savoir plus, consultez la documentation de référence de l'API Media Translation pour Node.js.

Pour vous authentifier auprès de Media Translation, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.

// Allow user input from terminal
const readline = require('readline');

const rl = readline.createInterface({
  input: process.stdin,
  output: process.stdout,

function doTranslationLoop() {
  rl.question("Press any key to translate or 'q' to quit: ", answer => {
    if (answer.toLowerCase() === 'q') {
    } else {

// Node-Record-lpcm16
const recorder = require('node-record-lpcm16');

// Imports the Cloud Media Translation client library
const {
} = require('@google-cloud/media-translation');

// Creates a client
const client = new SpeechTranslationServiceClient();

function translateFromMicrophone() {
   * TODO(developer): Uncomment the following lines before running the sample.
  //const encoding = 'linear16';
  //const sampleRateHertz = 16000;
  //const sourceLanguage = 'Language to translate from, as BCP-47 locale';
  //const targetLanguage = 'Language to translate to, as BCP-47 locale';
  console.log('Begin speaking ...');

  const config = {
    audioConfig: {
      audioEncoding: encoding,
      sourceLanguageCode: sourceLanguage,
      targetLanguageCode: targetLanguage,
    singleUtterance: true,

  // First request needs to have only a streaming config, no data.
  const initialRequest = {
    streamingConfig: config,
    audioContent: null,

  let currentTranslation = '';
  let currentRecognition = '';
  // Create a recognize stream
  const stream = client
    .on('error', e => {
      if (e.code && e.code === 4) {
        console.log('Streaming translation reached its deadline.');
      } else {
    .on('data', response => {
      const {result, speechEventType} = response;
      if (speechEventType === 'END_OF_SINGLE_UTTERANCE') {
        console.log(`\nFinal translation: ${currentTranslation}`);
        console.log(`Final recognition result: ${currentRecognition}`);

      } else {
        currentTranslation = result.textTranslationResult.translation;
        currentRecognition = result.recognitionResult;
        console.log(`\nPartial translation: ${currentTranslation}`);
        console.log(`Partial recognition result: ${currentRecognition}`);

  let isFirst = true;
  // Start recording and send microphone input to the Media Translation API
  const recording = recorder.record({
    sampleRateHertz: sampleRateHertz,
    threshold: 0, //silence threshold
    recordProgram: 'rec',
    silence: '5.0', //seconds of silence before ending
    .on('data', chunk => {
      if (isFirst) {
        isFirst = false;
      const request = {
        streamingConfig: config,
        audioContent: chunk.toString('base64'),
      if (!stream.destroyed) {
    .on('close', () => {



Pour savoir comment installer et utiliser la bibliothèque cliente pour Media Translation, consultez la page Bibliothèques clientes Media Translation. Pour en savoir plus, consultez la documentation de référence de l'API Media Translation pour Python.

Pour vous authentifier auprès de Media Translation, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.

import itertools
import queue

from import mediatranslation as media
import pyaudio

# Audio recording parameters
RATE = 16000
CHUNK = int(RATE / 10)  # 100ms
SpeechEventType = media.StreamingTranslateSpeechResponse.SpeechEventType

class MicrophoneStream:
    """Opens a recording stream as a generator yielding the audio chunks."""

    def __init__(self, rate, chunk):
        self._rate = rate
        self._chunk = chunk

        # Create a thread-safe buffer of audio data
        self._buff = queue.Queue()
        self.closed = True

    def __enter__(self):
        self._audio_interface = pyaudio.PyAudio()
        self._audio_stream =
            # Run the audio stream asynchronously to fill the buffer object.
            # This is necessary so that the input device's buffer doesn't
            # overflow while the calling thread makes network requests, etc.

        self.closed = False

        return self

    def __exit__(self, type=None, value=None, traceback=None):
        self.closed = True
        # Signal the generator to terminate so that the client's
        # streaming_recognize method will not block the process termination.

    def _fill_buffer(self, in_data, frame_count, time_info, status_flags):
        """Continuously collect data from the audio stream, into the buffer."""
        return None, pyaudio.paContinue

    def exit(self):

    def generator(self):
        while not self.closed:
            # Use a blocking get() to ensure there's at least one chunk of
            # data, and stop iteration if the chunk is None, indicating the
            # end of the audio stream.
            chunk = self._buff.get()
            if chunk is None:
            data = [chunk]

            # Now consume whatever other data's still buffered.
            while True:
                    chunk = self._buff.get(block=False)
                    if chunk is None:
                except queue.Empty:

            yield b"".join(data)

def listen_print_loop(responses):
    """Iterates through server responses and prints them.

    The responses passed is a generator that will block until a response
    is provided by the server.
    translation = ""
    for response in responses:
        # Once the transcription settles, the response contains the
        # END_OF_SINGLE_UTTERANCE event.
        if response.speech_event_type == SpeechEventType.END_OF_SINGLE_UTTERANCE:
            print(f"\nFinal translation: {translation}")
            return 0

        result = response.result
        translation = result.text_translation_result.translation

        print(f"\nPartial translation: {translation}")

def do_translation_loop():
    print("Begin speaking...")

    client = media.SpeechTranslationServiceClient()

    speech_config = media.TranslateSpeechConfig(

    config = media.StreamingTranslateSpeechConfig(
        audio_config=speech_config, single_utterance=True

    # The first request contains the configuration.
    # Note that audio_content is explicitly set to None.
    first_request = media.StreamingTranslateSpeechRequest(streaming_config=config)

    with MicrophoneStream(RATE, CHUNK) as stream:
        audio_generator = stream.generator()
        mic_requests = (
            for content in audio_generator

        requests = itertools.chain(iter([first_request]), mic_requests)

        responses = client.streaming_translate_speech(requests)

        # Print the translation responses as they arrive
        result = listen_print_loop(responses)
        if result == 0:

def main():
    while True:
        option = input("Press any key to translate or 'q' to quit: ")

        if option.lower() == "q":


if __name__ == "__main__":