Conteúdo de áudio com codificação Base64

Você pode enviar dados de áudio para a API Speech-to-Text diretamente (no campo content da solicitação) ou fazer com que a API execute o reconhecimento remoto em dados armazenados em um bucket do Cloud Storage. Para isso, especifique o objeto de armazenamento no campo uri da solicitação.

Todos os dados de áudio no campo content em solicitações HTTP precisam estar no formato base64. Nesta página, veja como converter áudio de um arquivo binário para dados codificados como Base64.

Como usar a linha de comando

Em uma solicitação gRPC, você pode simplesmente gravar os dados binários diretamente; no entanto, JSON é usado ao fazer uma solicitação REST. JSON é um formato de texto que não suporta diretamente dados binários, então você precisará converter esses dados binários em texto usando a codificação Base64.

A maioria dos ambientes de desenvolvimento contém um utilitário base64 nativo para codificar um binário em dados de texto ASCII. Para codificar um arquivo, faça o seguinte:

Linux

Codifique o arquivo de vídeo usando a ferramenta de linha de comando em base64, evitando a quebra de linha com a sinalização -w 0:

base64 INPUT_FILE -w 0 > OUTPUT_FILE

macOS

Codifique o arquivo usando a ferramenta de linha de comando base64:

base64 -i INPUT_FILE -o OUTPUT_FILE

Windows

Codifique o arquivo usando a ferramenta Base64.exe:

Base64.exe -e INPUT_FILE > OUTPUT_FILE

PowerShell

Codifique o arquivo usando o método Convert.ToBase64String:

[Convert]::ToBase64String([IO.File]::ReadAllBytes("./INPUT_FILE")) > OUTPUT_FILE

Crie um arquivo de solicitação JSON, incluindo os dados codificados em base64:

JSON

{
  "recognizer": "projects/PROJECT_ID/locations/global/recognizers/_",
  "content": "ZkxhQwAAACIQABAAAAUJABtAA+gA8AB+W8FZndQvQAyjv..."
}

Como usar bibliotecas de cliente

Incorporar dados binários de áudio em solicitações por meio de editores de texto não é desejável nem prático. Na prática, você estará incorporando arquivos com codificação base64 no código do cliente. Todas as linguagens de programação compatíveis têm mecanismos integrados para o conteúdo de codificação base64:

Python

Em Python, codifique os arquivos de áudio em base64 da seguinte maneira:

# Import the base64 encoding library.
import base64

# Pass the audio data to an encoding function.
def encode_audio(audio_file):
    with open(audio_file, "rb") as f:
        encoded_content = base64.b64encode(f.read())
    return encoded_content

Node.js

// Read the file into memory.
var fs = require('fs');
var audioFile = fs.readFileSync('/full/path/to/audio/file.wav');

// Convert the audio data to a Buffer and base64 encode it.
var encoded = Buffer.from(audioFile).toString('base64');

Java

// Import the Base64 encoding library.
import org.apache.commons.codec.binary.Base64;

// Encode the audio.
byte[] audioData = Base64.encodeBase64(audioFile.getBytes());
String encodedString = Base64.getEncoder().encodeToString(audioData);

Go

import (
    "bufio"
    "encoding/base64"
    "io"
    "os"
)

// Open audio file.
f, _ := os.Open("/full/path/to/audio/file.wav")

// Read entire audio into byte slice.
reader := bufio.NewReader(f)
content, _ := io.ReadAll(reader)

// Encode audio as base64.
base64.StdEncoding.EncodeToString(content)