Codificar contenido de audio en Base64

Cuando envías datos de audio a la API Speech-to-Text, puedes enviar los datos directamente (en el campo content de la solicitud) o hacer que la API realice el reconocimiento de forma remota en los datos almacenados en un segmento de Cloud Storage. Solo puedes enviar datos directamente en el campo content para el reconocimiento síncrono si tus datos de audio tienen una duración máxima de 60 segundos y un tamaño máximo de 10 MB. Los datos de audio del campo content deben estar en formato base64. En esta página se describe cómo convertir audio de un archivo binario a datos codificados en base64.

Si tus datos de audio superan los 60 segundos o los 10 MB, deben almacenarse en un segmento de Cloud Storage para poder enviarse a reconocimiento. Puedes analizarlo de forma asíncrona sin convertirlo al formato base64. Para obtener más información, consulta la documentación sobre el reconocimiento asíncrono.

Usar la línea de comandos

En una solicitud gRPC, puedes escribir datos binarios directamente. Sin embargo, se usa JSON al hacer una solicitud REST. JSON es un formato de texto que no admite directamente datos binarios, por lo que tendrás que convertir esos datos binarios en texto mediante la codificación Base64.

La mayoría de los entornos de desarrollo contienen una utilidad base64 nativa para codificar un archivo binario en datos de texto ASCII. Para codificar un archivo, sigue estos pasos:

Linux

Codifica el archivo con la herramienta de línea de comandos base64. Asegúrate de evitar el salto de línea con la marca -w 0:

base64 INPUT_FILE -w 0 > OUTPUT_FILE

macOS

Codifica el archivo con la herramienta de línea de comandos base64:

base64 -i INPUT_FILE -o OUTPUT_FILE

Windows

Codifica el archivo con la herramienta Base64.exe:

Base64.exe -e INPUT_FILE > OUTPUT_FILE

PowerShell

Codifica el archivo con el método Convert.ToBase64String:

[Convert]::ToBase64String([IO.File]::ReadAllBytes("./INPUT_FILE")) > OUTPUT_FILE

Crea un archivo de solicitud JSON insertando los datos codificados en base64:

JSON

{
  "config": {
    "encoding": "FLAC",
    "sampleRateHertz": 16000,
    "languageCode": "en-US"
  },
  "audio": {
    "content": "ZkxhQwAAACIQABAAAAUJABtAA+gA8AB+W8FZndQvQAyjv..."
  }
}

Usar bibliotecas de cliente

No es recomendable ni práctico insertar datos binarios en solicitudes a través de editores de texto. En la práctica, insertará archivos codificados en base64 en el código del cliente. Todos los lenguajes de programación admitidos tienen mecanismos integrados para codificar contenido en Base64.

Python

En Python, codifica los archivos de audio en base64 de la siguiente manera:

# Import the base64 encoding library.
import base64

# Pass the audio data to an encoding function.
def encode_audio(audio):
  audio_content = audio.read()
  return base64.b64encode(audio_content)

Node.js

En Node.js, codifica los archivos de audio en Base64 de la siguiente manera, donde audioFile es la ruta al archivo de audio codificado.

const fs = require('fs');
const content = fs.readFileSync(audioFile).toString('base64');

Java

En Java, usa el método estático encodeBase64 de org.apache.commons.codec.binary.Base64 para codificar en base64 los archivos binarios:

// Import the Base64 encoding library.
import org.apache.commons.codec.binary.Base64;

// Encode the speech.
byte[] encodedAudio = Base64.encodeBase64(audio.getBytes());