스트리밍 오디오를 텍스트로 번역

Media Translation은 오디오 파일 또는 음성 스트림을 다른 언어의 텍스트로 번역합니다. 이 페이지에서는 Media Translation 클라이언트 라이브러리를 사용하여 스트리밍 오디오를 텍스트로 번역하는 방법을 보여주는 코드 샘플을 제공합니다.

프로젝트 설정

Media Translation을 사용하려면 먼저 Google Cloud 프로젝트를 설정하고 해당 프로젝트에 Media Translation API를 사용 설정해야 합니다.

  1. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  2. Make sure that billing is enabled for your Google Cloud project.

  3. Enable the Media Translation API.

    Enable the API

  4. Create a service account:

    1. In the Google Cloud console, go to the Create service account page.

      Go to Create service account
    2. Select your project.
    3. In the Service account name field, enter a name. The Google Cloud console fills in the Service account ID field based on this name.

      In the Service account description field, enter a description. For example, Service account for quickstart.

    4. Click Create and continue.
    5. Grant the Project > Owner role to the service account.

      To grant the role, find the Select a role list, then select Project > Owner.

    6. Click Continue.
    7. Click Done to finish creating the service account.

      Do not close your browser window. You will use it in the next step.

  5. Create a service account key:

    1. In the Google Cloud console, click the email address for the service account that you created.
    2. Click Keys.
    3. Click Add key, and then click Create new key.
    4. Click Create. A JSON key file is downloaded to your computer.
    5. Click Close.
  6. Set the environment variable GOOGLE_APPLICATION_CREDENTIALS to the path of the JSON file that contains your credentials. This variable applies only to your current shell session, so if you open a new session, set the variable again.

  7. Install the Google Cloud CLI.
  8. To initialize the gcloud CLI, run the following command:

    gcloud init
  9. 원하는 언어의 클라이언트 라이브러리를 설치합니다.

음성 번역

아래의 코드 샘플은 최대 5분 길이의 오디오 파일에 포함된 음성이나 마이크를 통해 말한 음성을 인식하여 번역하는 방법을 보여줍니다. 가장 정확도가 높은 음성 데이터를 제공하는 방법을 알아보려면 권장사항을 참조하세요.

기본 단계는 오디오 소스에 관계없이 동일합니다.

  1. Media Translation에 요청을 보내는 데 사용할 SpeechTranslationServiceClient 클라이언트를 초기화합니다.

    동일한 요청을 여러 요청에 재사용할 수 있습니다.

  2. 오디오 처리 방법을 지정하는 StreamingTranslateSpeechConfig 요청 객체를 만듭니다.

    StreamingTranslateSpeechConfig 객체는 오디오 소스 파일에 대한 정보를 제공하는 TranslateSpeechConfig 객체, 그리고 화자가 말을 잠시 멈출 때 Media Translation에서 번역을 계속할지 여부를 지정하는 single_utterance 플래그로 구성됩니다.

    TranslateSpeechConfig 객체는 인코딩 및 샘플링 레이트와 같은 오디오 소스의 기술 사양을 제공하고, BCP-47 언어 코드를 사용하여 번역의 출발어와 도착어를 설정하며, Media Translation에서 텍스트 변환에 사용하는 번역 모델을 정의합니다.

  3. StreamingTranslateSpeechRequest 요청 객체의 시퀀스를 보냅니다.

    번역할 오디오 파일마다 요청을 순서대로 전송합니다. 첫 번째 요청은 요청의 StreamingTranslateSpeechConfig 객체를 제공하고 후속 요청은 스트리밍의 오디오 콘텐츠를 제공합니다.

  4. StreamingTranslateSpeechResult 응답 객체를 수신합니다.

    text_translation_result.is_final 값이 false인 응답이 수신되는 동안 최신 번역 결과는 이전 결과를 덮어씁니다.

    Media Translation에 최종 결과가 있는 경우 text_translation_result.is_final 필드가 true로 설정되고 이후에 수신되는 번역 결과가 이전 결과에 추가됩니다. (이 경우 이전 결과를 덮어쓰지 않습니다.) 완료된 번역을 출력하고 텍스트 변환 및 해당 오디오의 다음 부분은 새 섹션에서 시작할 수 있습니다.

    화자가 말을 멈췄을 때 StreamingTranslateSpeechConfig 요청 객체에서 single_utterance 필드가 true로 설정되어 있으면 Media Translation은 응답에서 speech_event_type에 대한 END_OF_SINGLE_UTTERANCE 이벤트를 반환합니다. 클라이언트는 요청 전송을 중지하지만 번역이 완료될 때까지 계속 응답을 수신합니다.

  5. 스트리밍에는 5분 제한이 적용됩니다. 이 한도를 초과하면 OUT_OF_RANGE 오류가 반환됩니다.

코드 샘플

오디오 파일의 음성 번역


Media Translation용 클라이언트 라이브러리를 설치하고 사용하는 방법은 Media Translation 클라이언트 라이브러리를 참조하세요. 자세한 내용은 Media Translation Java API 참조 문서를 확인하세요.

Media Translation에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.

import com.google.api.gax.rpc.BidiStream;
import com.google.cloud.mediatranslation.v1beta1.SpeechTranslationServiceClient;
import com.google.cloud.mediatranslation.v1beta1.StreamingTranslateSpeechConfig;
import com.google.cloud.mediatranslation.v1beta1.StreamingTranslateSpeechRequest;
import com.google.cloud.mediatranslation.v1beta1.StreamingTranslateSpeechResponse;
import com.google.cloud.mediatranslation.v1beta1.StreamingTranslateSpeechResult;
import com.google.cloud.mediatranslation.v1beta1.TranslateSpeechConfig;
import com.google.protobuf.ByteString;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Path;
import java.nio.file.Paths;

public class TranslateFromFile {

  public static void translateFromFile() throws IOException {
    // TODO(developer): Replace these variables before running the sample.
    String filePath = "path/to/audio.raw";

  public static void translateFromFile(String filePath) throws IOException {
    // Initialize client that will be used to send requests. This client only needs to be created
    // once, and can be reused for multiple requests. After completing all of your requests, call
    // the "close" method on the client to safely clean up any remaining background resources.
    try (SpeechTranslationServiceClient client = SpeechTranslationServiceClient.create()) {
      Path path = Paths.get(filePath);
      byte[] content = Files.readAllBytes(path);
      ByteString audioContent = ByteString.copyFrom(content);

      TranslateSpeechConfig audioConfig =

      StreamingTranslateSpeechConfig config =

      BidiStream<StreamingTranslateSpeechRequest, StreamingTranslateSpeechResponse> bidiStream =

      // The first request contains the configuration.
      StreamingTranslateSpeechRequest requestConfig =

      // The second request contains the audio
      StreamingTranslateSpeechRequest request =


      for (StreamingTranslateSpeechResponse response : bidiStream) {
        // Once the transcription settles, the response contains the
        // is_final result. The other results will be for subsequent portions of
        // the audio.
        StreamingTranslateSpeechResult res = response.getResult();
        String translation = res.getTextTranslationResult().getTranslation();

        if (res.getTextTranslationResult().getIsFinal()) {
          System.out.println(String.format("\nFinal translation: %s", translation));
        System.out.println(String.format("\nPartial translation: %s", translation));


Media Translation용 클라이언트 라이브러리를 설치하고 사용하는 방법은 Media Translation 클라이언트 라이브러리를 참조하세요. 자세한 내용은 Media Translation Node.js API 참조 문서를 확인하세요.

Media Translation에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.

const fs = require('fs');

// Imports the CLoud Media Translation client library
const {
} = require('@google-cloud/media-translation');

// Creates a client
const client = new SpeechTranslationServiceClient();

async function translate_from_file() {
   * TODO(developer): Uncomment the following lines before running the sample.
  // const filename = 'Local path to audio file, e.g. /path/to/audio.raw';
  // const encoding = 'Encoding of the audio file, e.g. LINEAR16';
  // const sourceLanguage = 'BCP-47 source language code, e.g. en-US';
  // const targetLanguage = 'BCP-47 target language code, e.g. es-ES';

  const config = {
    audioConfig: {
      audioEncoding: encoding,
      sourceLanguageCode: sourceLanguage,
      targetLanguageCode: targetLanguage,
    single_utterance: true,

  // First request needs to have only a streaming config, no data.
  const initialRequest = {
    streamingConfig: config,
    audioContent: null,

  const readStream = fs.createReadStream(filename, {
    highWaterMark: 4096,
    encoding: 'base64',

  const chunks = [];
    .on('data', chunk => {
      const request = {
        streamingConfig: config,
        audioContent: chunk.toString(),
    .on('close', () => {
      // Config-only request should be first in stream of requests
      for (let i = 0; i < chunks.length; i++) {

  const stream = client.streamingTranslateSpeech().on('data', response => {
    const {result} = response;
    if (result.textTranslationResult.isFinal) {
        `\nFinal translation: ${result.textTranslationResult.translation}`
      console.log(`Final recognition result: ${result.recognitionResult}`);
    } else {
        `\nPartial translation: ${result.textTranslationResult.translation}`
      console.log(`Partial recognition result: ${result.recognitionResult}`);


Media Translation용 클라이언트 라이브러리를 설치하고 사용하는 방법은 Media Translation 클라이언트 라이브러리를 참조하세요. 자세한 내용은 Media Translation Python API 참조 문서를 확인하세요.

Media Translation에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.

from google.cloud import mediatranslation

def translate_from_file(file_path="path/to/your/file"):
    client = mediatranslation.SpeechTranslationServiceClient()

    # The `sample_rate_hertz` field is not required for FLAC and WAV (Linear16)
    # encoded data. Other audio encodings must provide the sampling rate.
    audio_config = mediatranslation.TranslateSpeechConfig(

    streaming_config = mediatranslation.StreamingTranslateSpeechConfig(
        audio_config=audio_config, single_utterance=True

    def request_generator(config, audio_file_path):
        # The first request contains the configuration.
        # Note that audio_content is explicitly set to None.
        yield mediatranslation.StreamingTranslateSpeechRequest(streaming_config=config)

        with open(audio_file_path, "rb") as audio:
            while True:
                chunk = audio.read(4096)
                if not chunk:
                yield mediatranslation.StreamingTranslateSpeechRequest(

    requests = request_generator(streaming_config, file_path)
    responses = client.streaming_translate_speech(requests)

    for response in responses:
        # Once the transcription settles, the response contains the
        # is_final result. The other results will be for subsequent portions of
        # the audio.
        print(f"Response: {response}")
        result = response.result
        translation = result.text_translation_result.translation

        if result.text_translation_result.is_final:
            print(f"\nFinal translation: {translation}")

        print(f"\nPartial translation: {translation}")

마이크의 음성 번역


Media Translation용 클라이언트 라이브러리를 설치하고 사용하는 방법은 Media Translation 클라이언트 라이브러리를 참조하세요. 자세한 내용은 Media Translation Java API 참조 문서를 확인하세요.

Media Translation에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.

import com.google.api.gax.rpc.ClientStream;
import com.google.api.gax.rpc.ResponseObserver;
import com.google.api.gax.rpc.StreamController;
import com.google.cloud.mediatranslation.v1beta1.SpeechTranslationServiceClient;
import com.google.cloud.mediatranslation.v1beta1.StreamingTranslateSpeechConfig;
import com.google.cloud.mediatranslation.v1beta1.StreamingTranslateSpeechRequest;
import com.google.cloud.mediatranslation.v1beta1.StreamingTranslateSpeechResponse;
import com.google.cloud.mediatranslation.v1beta1.StreamingTranslateSpeechResult;
import com.google.cloud.mediatranslation.v1beta1.TranslateSpeechConfig;
import com.google.protobuf.ByteString;
import java.io.IOException;
import javax.sound.sampled.AudioFormat;
import javax.sound.sampled.AudioInputStream;
import javax.sound.sampled.AudioSystem;
import javax.sound.sampled.DataLine;
import javax.sound.sampled.LineUnavailableException;
import javax.sound.sampled.TargetDataLine;

public class TranslateFromMic {

  public static void main(String[] args) throws IOException, LineUnavailableException {

  public static void translateFromMic() throws IOException, LineUnavailableException {

    ResponseObserver<StreamingTranslateSpeechResponse> responseObserver = null;

    // Initialize client that will be used to send requests. This client only needs to be created
    // once, and can be reused for multiple requests. After completing all of your requests, call
    // the "close" method on the client to safely clean up any remaining background resources.
    try (SpeechTranslationServiceClient client = SpeechTranslationServiceClient.create()) {
      responseObserver =
          new ResponseObserver<StreamingTranslateSpeechResponse>() {

            public void onStart(StreamController controller) {}

            public void onResponse(StreamingTranslateSpeechResponse response) {
              StreamingTranslateSpeechResult res = response.getResult();
              String translation = res.getTextTranslationResult().getTranslation();

              if (res.getTextTranslationResult().getIsFinal()) {
                System.out.println(String.format("\nFinal translation: %s", translation));
              } else {
                System.out.println(String.format("\nPartial translation: %s", translation));

            public void onComplete() {}

            public void onError(Throwable t) {

      ClientStream<StreamingTranslateSpeechRequest> clientStream =

      TranslateSpeechConfig audioConfig =

      StreamingTranslateSpeechConfig streamingRecognitionConfig =

      StreamingTranslateSpeechRequest request =
              .build(); // The first request in a streaming call has to be a config

      // SampleRate:16000Hz, SampleSizeInBits: 16, Number of channels: 1, Signed: true,
      // bigEndian: false
      AudioFormat audioFormat = new AudioFormat(16000, 16, 1, true, false);
      DataLine.Info targetInfo =
          new DataLine.Info(
              audioFormat); // Set the system information to read from the microphone audio stream

      if (!AudioSystem.isLineSupported(targetInfo)) {
        System.out.println("Microphone not supported");
      // Target data line captures the audio stream the microphone produces.
      TargetDataLine targetDataLine = (TargetDataLine) AudioSystem.getLine(targetInfo);
      System.out.println("Start speaking... Press Ctrl-C to stop");
      long startTime = System.currentTimeMillis();
      // Audio Input Stream
      AudioInputStream audio = new AudioInputStream(targetDataLine);

      while (true) {
        byte[] data = new byte[6400];
        request =


Media Translation용 클라이언트 라이브러리를 설치하고 사용하는 방법은 Media Translation 클라이언트 라이브러리를 참조하세요. 자세한 내용은 Media Translation Node.js API 참조 문서를 확인하세요.

Media Translation에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.

// Allow user input from terminal
const readline = require('readline');

const rl = readline.createInterface({
  input: process.stdin,
  output: process.stdout,

function doTranslationLoop() {
  rl.question("Press any key to translate or 'q' to quit: ", answer => {
    if (answer.toLowerCase() === 'q') {
    } else {

// Node-Record-lpcm16
const recorder = require('node-record-lpcm16');

// Imports the Cloud Media Translation client library
const {
} = require('@google-cloud/media-translation');

// Creates a client
const client = new SpeechTranslationServiceClient();

function translateFromMicrophone() {
   * TODO(developer): Uncomment the following lines before running the sample.
  //const encoding = 'linear16';
  //const sampleRateHertz = 16000;
  //const sourceLanguage = 'Language to translate from, as BCP-47 locale';
  //const targetLanguage = 'Language to translate to, as BCP-47 locale';
  console.log('Begin speaking ...');

  const config = {
    audioConfig: {
      audioEncoding: encoding,
      sourceLanguageCode: sourceLanguage,
      targetLanguageCode: targetLanguage,
    singleUtterance: true,

  // First request needs to have only a streaming config, no data.
  const initialRequest = {
    streamingConfig: config,
    audioContent: null,

  let currentTranslation = '';
  let currentRecognition = '';
  // Create a recognize stream
  const stream = client
    .on('error', e => {
      if (e.code && e.code === 4) {
        console.log('Streaming translation reached its deadline.');
      } else {
    .on('data', response => {
      const {result, speechEventType} = response;
      if (speechEventType === 'END_OF_SINGLE_UTTERANCE') {
        console.log(`\nFinal translation: ${currentTranslation}`);
        console.log(`Final recognition result: ${currentRecognition}`);

      } else {
        currentTranslation = result.textTranslationResult.translation;
        currentRecognition = result.recognitionResult;
        console.log(`\nPartial translation: ${currentTranslation}`);
        console.log(`Partial recognition result: ${currentRecognition}`);

  let isFirst = true;
  // Start recording and send microphone input to the Media Translation API
  const recording = recorder.record({
    sampleRateHertz: sampleRateHertz,
    threshold: 0, //silence threshold
    recordProgram: 'rec',
    silence: '5.0', //seconds of silence before ending
    .on('data', chunk => {
      if (isFirst) {
        isFirst = false;
      const request = {
        streamingConfig: config,
        audioContent: chunk.toString('base64'),
      if (!stream.destroyed) {
    .on('close', () => {



Media Translation용 클라이언트 라이브러리를 설치하고 사용하는 방법은 Media Translation 클라이언트 라이브러리를 참조하세요. 자세한 내용은 Media Translation Python API 참조 문서를 확인하세요.

Media Translation에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.

import itertools
import queue

from google.cloud import mediatranslation as media
import pyaudio

# Audio recording parameters
RATE = 16000
CHUNK = int(RATE / 10)  # 100ms
SpeechEventType = media.StreamingTranslateSpeechResponse.SpeechEventType

class MicrophoneStream:
    """Opens a recording stream as a generator yielding the audio chunks."""

    def __init__(self, rate, chunk):
        self._rate = rate
        self._chunk = chunk

        # Create a thread-safe buffer of audio data
        self._buff = queue.Queue()
        self.closed = True

    def __enter__(self):
        self._audio_interface = pyaudio.PyAudio()
        self._audio_stream = self._audio_interface.open(
            # Run the audio stream asynchronously to fill the buffer object.
            # This is necessary so that the input device's buffer doesn't
            # overflow while the calling thread makes network requests, etc.

        self.closed = False

        return self

    def __exit__(self, type=None, value=None, traceback=None):
        self.closed = True
        # Signal the generator to terminate so that the client's
        # streaming_recognize method will not block the process termination.

    def _fill_buffer(self, in_data, frame_count, time_info, status_flags):
        """Continuously collect data from the audio stream, into the buffer."""
        return None, pyaudio.paContinue

    def exit(self):

    def generator(self):
        while not self.closed:
            # Use a blocking get() to ensure there's at least one chunk of
            # data, and stop iteration if the chunk is None, indicating the
            # end of the audio stream.
            chunk = self._buff.get()
            if chunk is None:
            data = [chunk]

            # Now consume whatever other data's still buffered.
            while True:
                    chunk = self._buff.get(block=False)
                    if chunk is None:
                except queue.Empty:

            yield b"".join(data)

def listen_print_loop(responses):
    """Iterates through server responses and prints them.

    The responses passed is a generator that will block until a response
    is provided by the server.
    translation = ""
    for response in responses:
        # Once the transcription settles, the response contains the
        # END_OF_SINGLE_UTTERANCE event.
        if response.speech_event_type == SpeechEventType.END_OF_SINGLE_UTTERANCE:
            print(f"\nFinal translation: {translation}")
            return 0

        result = response.result
        translation = result.text_translation_result.translation

        print(f"\nPartial translation: {translation}")

def do_translation_loop():
    print("Begin speaking...")

    client = media.SpeechTranslationServiceClient()

    speech_config = media.TranslateSpeechConfig(

    config = media.StreamingTranslateSpeechConfig(
        audio_config=speech_config, single_utterance=True

    # The first request contains the configuration.
    # Note that audio_content is explicitly set to None.
    first_request = media.StreamingTranslateSpeechRequest(streaming_config=config)

    with MicrophoneStream(RATE, CHUNK) as stream:
        audio_generator = stream.generator()
        mic_requests = (
            for content in audio_generator

        requests = itertools.chain(iter([first_request]), mic_requests)

        responses = client.streaming_translate_speech(requests)

        # Print the translation responses as they arrive
        result = listen_print_loop(responses)
        if result == 0:

def main():
    while True:
        option = input("Press any key to translate or 'q' to quit: ")

        if option.lower() == "q":


if __name__ == "__main__":