Package google.cloud.mediatranslation.v1beta1

Index

SpeechTranslationService

Bietet Übersetzungen von/in Medientypen.

StreamingTranslateSpeech

rpc StreamingTranslateSpeech(StreamingTranslateSpeechRequest) returns (StreamingTranslateSpeechResponse)

Führt Übersetzungen von Sprachstreamings in beide Richtungen aus: Die Ergebnisse erhalten Sie, während die Audiodaten gesendet werden. Diese Methode ist nur über die gRPC API (nicht über die REST API) verfügbar.

Autorisierungsbereiche

Erfordert den folgenden OAuth-Bereich:

  • https://www.googleapis.com/auth/cloud-platform

Weitere Informationen finden Sie in der Authentifizierungsübersicht.

StreamingTranslateSpeechConfig

Die für die Streaming-Übersetzung verwendete Konfiguration.

Felder
audio_config

TranslateSpeechConfig

Erforderlich. Die allgemeine Konfiguration für alle folgenden Audioinhalte.

single_utterance

bool

Optional. Wenn der Wert false ist oder nicht angegeben wird, führt das System eine kontinuierliche Übersetzung aus (wartet weiterhin auf Audio und verarbeitet es, auch wenn der Nutzer nicht spricht), bis der Client den Eingabestream (gRPC API) schließt oder das Zeitlimit erreicht ist. Kann mehrere StreamingTranslateSpeechResults zurückgeben, wobei das Flag is_final auf true gesetzt ist.

Bei true erkennt der Übersetzer eine einzelne gesprochene Äußerung. Wird erkannt, dass der Nutzer pausiert oder nicht mehr spricht, gibt er ein END_OF_SINGLE_UTTERANCE-Ereignis zurück und beendet die Übersetzung. Wenn der Client das Ereignis "END_OF_SINGLE_UTTERANCE" empfängt, sollte er keine Anfragen mehr senden. Clients sollten jedoch weiterhin die verbleibenden Antworten erhalten, bis der Stream beendet ist. Zum Erstellen des vollständigen Satzes im Streaming sollte er überschrieben (wenn "is_final" in der vorherigen Antwort den Wert "false" hat) oder angehängt werden (wenn "is_final" in der vorherigen Antwort den Wert "true" hat).

stability

string

Optional. Stabilitätssteuerung für den Text der Medienübersetzung. Beachten Sie, dass Stabilität und Geschwindigkeit Kompromisse eingehen. Der Wert sollte „LOW“, „MEDIUM“, „HIGH“ sein. Ein leerer Standardstring wird als „LOW“ behandelt. (1) „LOW“: Im niedrigen Modus beginnt der Übersetzungsdienst direkt nach dem Erhalt der Erkennungsantwort mit der Übersetzung. Die Geschwindigkeit ist höher. (2) „MITTEL“: Im mittleren Modus prüft der Übersetzungsdienst, ob die Erkennungsantwort stabil genug ist oder nicht. Es wird nur die Erkennungsantwort übersetzt, die später wahrscheinlich nicht mehr geändert wird. (3) „HOCH“: Im hohen Modus wartet der Übersetzungsdienst auf stabilere Erkennungsantworten und beginnt dann mit der Übersetzung. Außerdem können die folgenden Erkennungsantworten vorherige Erkennungsantworten nicht ändern. Daher kann sich dies in manchen Fällen auf die Qualität auswirken. Bei der Stabilität „HOCH“ werden häufiger „finale“ Antworten generiert.

StreamingTranslateSpeechRequest

Die Nachricht auf oberster Ebene, die vom Client an die Methode StreamingTranslateSpeech gesendet wird. Es werden mehrere StreamingTranslateSpeechRequest-Nachrichten gesendet. Die erste Nachricht muss eine streaming_config-Nachricht und darf keine audio_content-Daten enthalten. Alle nachfolgenden Nachrichten müssen audio_content-Daten enthalten und dürfen keine streaming_config-Nachrichten enthalten.

Felder
Union-Feld streaming_request. Die Streaminganfrage, die entweder eine Streamingkonfiguration oder ein Inhalt ist. Für streaming_request ist nur einer der folgenden Werte zulässig:
streaming_config

StreamingTranslateSpeechConfig

Stellt dem Erkennungsmodul Informationen zur Verarbeitung der Anfrage zur Verfügung. Die erste StreamingTranslateSpeechRequest-Nachricht muss eine streaming_config-Nachricht enthalten.

audio_content

bytes

Die zu übersetzenden Audiodaten. Sequenzielle Blöcke von Audiodaten werden in sequenziellen StreamingTranslateSpeechRequest-Nachrichten gesendet. Die erste StreamingTranslateSpeechRequest-Nachricht darf keine audio_content-Daten enthalten, alle nachfolgenden StreamingTranslateSpeechRequest-Nachrichten müssen audio_content-Daten enthalten. Die Audiobyte müssen wie in StreamingTranslateSpeechConfig angegeben codiert sein. Hinweis: Wie bei allen bytes-Feldern verwenden auch Protokollzwischenspeicher eine reine Binärdarstellung (nicht base64).

StreamingTranslateSpeechResponse

Antwort einer Streamingsprachübersetzung, die einem Teil der aktuell verarbeiteten Audiodaten entspricht.

Felder
error

Status

Nur Ausgabe. Wenn festgelegt, wird eine google.rpc.Status-Nachricht zurückgegeben, die den Fehler für den Vorgang angibt.

result

StreamingTranslateSpeechResult

Nur Ausgabe. Das Übersetzungsergebnis, das gerade verarbeitet wird ("is_final" kann "true" oder "false" sein).

speech_event_type

SpeechEventType

Nur Ausgabe. Gibt die Art des Sprachereignisses an.

SpeechEventType

Gibt die Art des Sprachereignisses an.

Enums
SPEECH_EVENT_TYPE_UNSPECIFIED Kein Sprachereignis angegeben.
END_OF_SINGLE_UTTERANCE Mit diesem Ereignis wird angezeigt, dass vom Server das Ende der sprachlichen Äußerung des Nutzers erkannt wurde und keine weiteren Sprachdaten erwartet werden. Daher werden keine weiteren Audiodaten vom Server verarbeitet (möglicherweise gibt er jedoch noch weitere Ergebnisse aus). Wenn der Client das Ereignis "END_OF_SINGLE_UTTERANCE" empfängt, sollte er keine Anfragen mehr senden. Clients sollten jedoch weiterhin die verbleibenden Antworten erhalten, bis der Stream beendet ist. Zum Erstellen des vollständigen Satzes im Streaming sollte er überschrieben (wenn "is_final" in der vorherigen Antwort den Wert "false" hat) oder angehängt werden (wenn "is_final" in der vorherigen Antwort den Wert "true" hat). Dieses Ereignis wird nur gesendet, wenn single_utterance auf true festgelegt wurde. Andernfalls wird es nicht verwendet.

StreamingTranslateSpeechResult

Ergebnis einer Streamingsprachübersetzung, das einem Teil der aktuell verarbeiteten Audiodaten entspricht.

Felder
recognition_result

string

Nur Ausgabe. Das Erkennungsergebnis nur zum Debuggen in der Originalsprache. Dieses Feld dient nur zum Debuggen und wird auf einen leeren String gesetzt, wenn es nicht verfügbar ist. Dies ist ein Implementierungsdetail und wird nicht abwärtskompatibel sein.

text_translation_result

TextTranslationResult

Ergebnis der Textübersetzung.

TextTranslationResult

Ergebnis der Textübersetzung.

Felder
translation

string

Nur Ausgabe. Der übersetzte Satz.

is_final

bool

Nur Ausgabe. Falls false, ist StreamingTranslateSpeechResult ein Zwischenergebnis, das sich ändern kann. Falls true, ist dies das letzte Mal, dass der Übersetzungsdienst dieses spezifische StreamingTranslateSpeechResult zurückgibt. Der Streaming-Übersetzer gibt keine weiteren Hypothesen für diesen Teil des Transkripts und die entsprechenden Audiodaten zurück.

TranslateSpeechConfig

Liefert Informationen darüber, wie die Anfrage bei der Sprachübersetzung verarbeitet werden soll.

Felder
audio_encoding

string

Erforderlich. Codierung von Audiodaten. Unterstützte Formate:

  • linear16

Unkomprimierte 16-Bit-Little-Endian-Samples mit Vorzeichen (Lineare PCM).

  • flac

Als Codierung wird flac (Free Lossless Audio Codec) empfohlen, da sie verlustfrei arbeitet, sodass die Erkennung nicht beeinträchtigt wird, und nur etwa halb so viel Bandbreite wie linear16 benötigt.

  • mulaw

8-Bit-Samples zur Kompandierung von 14-Bit-Audiosamples mit G.711 PCMU/mu-law.

  • amr

Adaptiver Codec für Multi-Rate-Schmalband. sample_rate_hertz muss 8.000 betragen.

  • amr-wb

Adaptiver Codec für Multi-Rate-Breitband. sample_rate_hertz muss 16.000 betragen.

  • ogg-opus

Opus-codierte Audioframes im Ogg-Container. sample_rate_hertz muss 8.000, 12.000, 16.000, 24.000 oder 48.000 betragen.

  • mp3

MP3-Audio. Unterstützt alle gängigen MP3-Bitraten (von 32 bis 320 kbit/s). Bei Verwendung dieser Codierung muss sample_rate_hertz mit der Abtastrate der verwendeten Datei übereinstimmen.

source_language_code

string

Erforderlich. Quellsprachcode (BCP-47) der Audioeingabe.

target_language_code

string

Erforderlich. Zielsprachcode (BCP-47) der Ausgabe.

sample_rate_hertz

int32

Optional. Abtastrate der Audiodaten in Hertz. Gültige Werte sind 8.000 bis 48.000. 16.000 ist optimal. Stellen Sie die Abtastrate der Audioquelle auf 16.000 Hz ein, um die besten Ergebnisse zu erzielen. Falls dies nicht möglich ist, verwenden Sie die native Abtastrate der Audioquelle (anstatt eine erneute Abtastung durchzuführen).

model

string

Optional. google-provided-model/video und google-provided-model/enhanced-phone-call sind Premiummodelle. google-provided-model/phone-call ist kein Premiummodell.