使用 base64 对音频内容进行编码

向 Speech-to-Text API 发送音频数据时,您可以直接发送数据(在请求的 content 字段中),也可以使 API 对存储在 Cloud Storage 存储桶中的数据远程执行识别(通过在请求的 uri 字段中指定存储对象)。

HTTP 请求的 content 字段中的任何音频数据都必须采用 base64 格式。本页面介绍如何将音频从二进制文件转换为使用 base64 编码的数据。

使用命令行

在 gRPC 请求中,您可以直接写出二进制数据;但是,在发出 REST 请求时系统会使用 JSON。JSON 是一种不直接支持二进制数据的文本格式,因此您需要使用 Base64 编码将此类二进制数据转换为文本。

大多数开发环境都包含一个原生 base64 实用程序,用于将二进制文件编码为 ASCII 文本数据。如需对文件进行编码,请按照以下说明操作:

Linux

使用 base64 命令行工具对文件进行编码,请注意,务必使用 -w 0 标志以避免换行:

base64 INPUT_FILE -w 0 > OUTPUT_FILE

macOS

使用 base64 命令行工具对文件进行编码:

base64 -i INPUT_FILE -o OUTPUT_FILE

Windows

使用 Base64.exe 工具对文件进行编码:

Base64.exe -e INPUT_FILE > OUTPUT_FILE

PowerShell

使用 Convert.ToBase64String 方法对文件进行编码:

[Convert]::ToBase64String([IO.File]::ReadAllBytes("./INPUT_FILE")) > OUTPUT_FILE

创建 JSON 请求文件,并内嵌 base64 编码的数据:

JSON

{
  "recognizer": "projects/PROJECT_ID/locations/global/recognizers/_",
  "content": "ZkxhQwAAACIQABAAAAUJABtAA+gA8AB+W8FZndQvQAyjv..."
}

使用客户端库

通过文本编辑器将二进制数据嵌入请求中既不可取也不实用。在实际使用中,您应在客户端代码中嵌入使用 base64 编码的文件。所有受支持的编程语言都内置有适用于 base64 编码内容的机制。

Python

在 Python 中,使用 base64 编码的音频文件如下所示:

# Import the base64 encoding library.
import base64

# Pass the audio data to an encoding function.
def encode_audio(audio_file):
    with open(audio_file, "rb") as f:
        encoded_content = base64.b64encode(f.read())
    return encoded_content

Node.js

// Read the file into memory.
var fs = require('fs');
var audioFile = fs.readFileSync('/full/path/to/audio/file.wav');

// Convert the audio data to a Buffer and base64 encode it.
var encoded = Buffer.from(audioFile).toString('base64');

Java

// Import the Base64 encoding library.
import org.apache.commons.codec.binary.Base64;

// Encode the audio.
byte[] audioData = Base64.encodeBase64(audioFile.getBytes());
String encodedString = Base64.getEncoder().encodeToString(audioData);

Go

import (
    "bufio"
    "encoding/base64"
    "io"
    "os"
)

// Open audio file.
f, _ := os.Open("/full/path/to/audio/file.wav")

// Read entire audio into byte slice.
reader := bufio.NewReader(f)
content, _ := io.ReadAll(reader)

// Encode audio as base64.
base64.StdEncoding.EncodeToString(content)