Los datos de audio son datos binarios. Puedes leer los datos binarios directamente de una respuesta gRPC. Sin embargo, se usa JSON cuando se responde a una solicitud REST. Como JSON es un formato de texto que no admite directamente datos binarios, Text-to-Speech devuelve una cadena de respuesta codificada en Base64. Debes convertir los datos de texto codificados en base64 de la respuesta a binario para poder reproducirlos en un dispositivo.
Las respuestas JSON de Text-to-Speech incluyen contenido de audio codificado en base64 en el campo audioContent. Por ejemplo:
{
  "audioContent": "//NExAARqoIIAAhEuWAAAGNmBGMY4EBcxvABAXBPmPIAF//yAuh9Tn5CEap3/o..."
}
Para decodificar base64 en un archivo de audio, sigue estos pasos:
Linux
- Copia solo el contenido codificado en Base64 en un archivo de texto. 
- Decodifica el archivo de texto de origen con la herramienta de línea de comandos base64 mediante la marca - -d:
$ base64 SOURCE_BASE64_TEXT_FILE -d > DESTINATION_AUDIO_FILE
Mac OSX
- Copia solo el contenido codificado en Base64 en un archivo de texto. 
- Decodifica el archivo de texto de origen con la herramienta de línea de comandos base64: 
$ base64 --decode -i SOURCE_BASE64_TEXT_FILE > DESTINATION_AUDIO_FILE
Windows
- Copia solo el contenido codificado en Base64 en un archivo de texto. 
- Decodifica el archivo de texto de origen con el comando - certutil.
certutil -decode SOURCE_BASE64_TEXT_FILE DESTINATION_AUDIO_FILE