Los datos de audio son datos binarios. Puedes leer los datos binarios directamente desde una respuesta de gRPC; sin embargo, JSON se usa cuando se responde a una solicitud de REST. Como JSON es un formato de texto que no admite directamente datos binarios, Text-to-Speech muestra una string de respuesta codificada en Base64. Debes convertir los datos de texto codificados en Base64 de la respuesta a objetos binarios para poder reproducirlos en un dispositivo.
Las respuestas JSON de Text-to-Speech incluyen contenido de audio codificado en Base64 en el campo audioContent. Por ejemplo:
{
  "audioContent": "//NExAARqoIIAAhEuWAAAGNmBGMY4EBcxvABAXBPmPIAF//yAuh9Tn5CEap3/o..."
}
Para decodificar el contenido en Base64 en un archivo de audio:
Linux
- Copia solo el contenido codificado en Base-64 en un archivo de texto. 
- Para decodificar el archivo de texto fuente con la herramienta de línea de comandos de Base64, usa la marca - -d:
$ base64 SOURCE_BASE64_TEXT_FILE -d > DESTINATION_AUDIO_FILE
macOS
- Copia solo el contenido codificado en Base-64 en un archivo de texto. 
- Decodifica el archivo de texto de origen con la herramienta de línea de comandos de Base64: 
$ base64 --decode -i SOURCE_BASE64_TEXT_FILE > DESTINATION_AUDIO_FILE
Windows
- Copia solo el contenido codificado en Base-64 en un archivo de texto. 
- Decodifica el archivo de texto de origen con el comando - certutil.
certutil -decode SOURCE_BASE64_TEXT_FILE DESTINATION_AUDIO_FILE