Speech-to-Text API に音声データを送信する場合は、データを直接送信するか(リクエストの content
フィールド内)、リクエストの uri
フィールドにストレージ オブジェクトを指定することで、API が Cloud Storage バケットに保存されたデータに対してリモートで認識を実行するようにします。
HTTP リクエストの content
フィールド内の音声データは、base64 形式である必要があります。このページでは、音声をバイナリ ファイルから base64 エンコード データに変換する方法について説明します。
コマンドラインの使用
gRPC リクエスト内に単純にバイナリデータを書き込むことができますが、REST リクエストを行う際には、JSON が使われます。JSON はバイナリデータを直接サポートしていないテキスト形式であるため、それらのバイナリデータは Base64 エンコードを使用して、テキストに変換する必要があります。
ほとんどの開発環境には、バイナリを ASCII テキストデータにエンコードするネイティブの base64
ユーティリティがあります。ファイルをエンコードするには:
Linux
base64
コマンドライン ツールを使用してファイルをエンコードし、-w 0
フラグを使用して、行の折り返しを防ぎます。
base64 INPUT_FILE -w 0 > OUTPUT_FILE
macOS
base64
コマンドライン ツールを使用してファイルをエンコードします。
base64 -i INPUT_FILE -o OUTPUT_FILE
Windows
Base64.exe
ツールを使用してファイルをエンコードします。
Base64.exe -e INPUT_FILE > OUTPUT_FILE
PowerShell
Convert.ToBase64String
メソッドを使用してファイルをエンコードします。
[Convert]::ToBase64String([IO.File]::ReadAllBytes("./INPUT_FILE")) > OUTPUT_FILE
base64 エンコードされたデータをインラインで挿入して、JSON リクエスト ファイルを作成します。
JSON
{
"recognizer": "projects/PROJECT_ID/locations/global/recognizers/_",
"content": "ZkxhQwAAACIQABAAAAUJABtAA+gA8AB+W8FZndQvQAyjv..."
}
クライアント ライブラリの使用
テキスト エディタを使ってリクエストにバイナリデータを埋め込むことは実用性に欠け、また望ましくありません。実際には、クライアント コード内に base64 エンコード ファイルを埋め込みます。サポートされるすべてのプログラミング言語には、base64 エンコード コンテンツの組み込みメカニズムがあります。
Python
Python では、次のように音声ファイルを base64 エンコードします。
# Import the base64 encoding library.
import base64
# Pass the audio data to an encoding function.
def encode_audio(audio_file):
with open(audio_file, "rb") as f:
encoded_content = base64.b64encode(f.read())
return encoded_content
Node.js
// Read the file into memory.
var fs = require('fs');
var audioFile = fs.readFileSync('/full/path/to/audio/file.wav');
// Convert the audio data to a Buffer and base64 encode it.
var encoded = Buffer.from(audioFile).toString('base64');
Java
// Import the Base64 encoding library.
import org.apache.commons.codec.binary.Base64;
// Encode the audio.
byte[] audioData = Base64.encodeBase64(audioFile.getBytes());
String encodedString = Base64.getEncoder().encodeToString(audioData);
Go
import (
"bufio"
"encoding/base64"
"io"
"os"
)
// Open audio file.
f, _ := os.Open("/full/path/to/audio/file.wav")
// Read entire audio into byte slice.
reader := bufio.NewReader(f)
content, _ := io.ReadAll(reader)
// Encode audio as base64.
base64.StdEncoding.EncodeToString(content)