Wenn Sie Audiodaten an die Speech-to-Text API senden, können Sie die Daten entweder direkt (im Feld content
der Anfrage) senden oder die API so einrichten, dass eine Remote-Erkennung von Daten, die in einem Cloud Storage-Bucket gespeichert sind, ausgeführt wird. Dazu geben Sie das Speicherobjekt im Feld uri
der Anfrage an.
Alle Audiodaten im Feld content
in HTTP-Anfragen müssen das base64-Format haben.
Auf dieser Seite wird beschrieben, wie Audiodaten aus einer Binärdatei in base64-codierte Daten umgewandelt werden.
Befehlszeile verwenden
Innerhalb einer gRPC-Anfrage können Sie die Binärdaten einfach direkt ausschreiben. Bei einer REST-Anfrage müssen Sie jedoch JSON verwenden. JSON ist ein Textformat, das Binärdaten nicht direkt unterstützt, weshalb diese mit der base64-Codierung in Text umgewandelt werden müssen.
Die meisten Entwicklungsumgebungen enthalten ein natives base64
-Dienstprogramm, um ein Binärbild als ASCII-Textdaten zu codieren. So codieren Sie eine Datei:
Linux
Codieren Sie die Datei mithilfe des base64
-Befehlszeilentools und achten Sie darauf, Zeilenumbrüche mithilfe des Flags -w 0
zu verhindern:
base64 INPUT_FILE -w 0 > OUTPUT_FILE
macOS
Codieren Sie die Datei mit dem base64
-Befehlszeilentool:
base64 -i INPUT_FILE -o OUTPUT_FILE
Windows
Codieren Sie die Datei mit dem Tool Base64.exe
:
Base64.exe -e INPUT_FILE > OUTPUT_FILE
PowerShell
Codieren Sie die Datei mit der Methode Convert.ToBase64String
:
[Convert]::ToBase64String([IO.File]::ReadAllBytes("./INPUT_FILE")) > OUTPUT_FILE
Erstellen Sie eine JSON-Anfragedatei, die die base64-codierten Daten enthält:
JSON
{
"recognizer": "projects/PROJECT_ID/locations/global/recognizers/_",
"content": "ZkxhQwAAACIQABAAAAUJABtAA+gA8AB+W8FZndQvQAyjv..."
}
Clientbibliotheken verwenden
Binäre Daten mit Texteditoren in Anfragen einzubetten, ist weder wünschenswert noch praktisch. In der Praxis betten Sie base64-codierte Dateien in den Clientcode ein. Alle unterstützten Programmiersprachen haben integrierte Mechanismen für die base64-codierte Inhalte:
Python
So codieren Sie Audiodateien mit base64 in Python:
# Import the base64 encoding library.
import base64
# Pass the audio data to an encoding function.
def encode_audio(audio_file):
with open(audio_file, "rb") as f:
encoded_content = base64.b64encode(f.read())
return encoded_content
Node.js
// Read the file into memory.
var fs = require('fs');
var audioFile = fs.readFileSync('/full/path/to/audio/file.wav');
// Convert the audio data to a Buffer and base64 encode it.
var encoded = Buffer.from(audioFile).toString('base64');
Java
// Import the Base64 encoding library.
import org.apache.commons.codec.binary.Base64;
// Encode the audio.
byte[] audioData = Base64.encodeBase64(audioFile.getBytes());
String encodedString = Base64.getEncoder().encodeToString(audioData);
Go
import (
"bufio"
"encoding/base64"
"io"
"os"
)
// Open audio file.
f, _ := os.Open("/full/path/to/audio/file.wav")
// Read entire audio into byte slice.
reader := bufio.NewReader(f)
content, _ := io.ReadAll(reader)
// Encode audio as base64.
base64.StdEncoding.EncodeToString(content)