Die Media Translation API wurde verworfen und ist nach dem 1. Juli 2024 nicht mehr in Google Cloud verfügbar. Sie können die Funktionalität der Media Translation API durch eine Kombination anderer Google Cloud-Dienste wie Cloud Speech-to-Text und die Cloud Translation API replizieren.

Package google.cloud.mediatranslation.v1beta1

Index

SpeechTranslationService (Benutzeroberfläche)
StreamingTranslateSpeechConfig (Meldung)
StreamingTranslateSpeechRequest (Meldung)
StreamingTranslateSpeechResponse (Meldung)
StreamingTranslateSpeechResponse.SpeechEventType (Aufzählung)
StreamingTranslateSpeechResult (Meldung)
StreamingTranslateSpeechResult.TextTranslationResult (Meldung)
TranslateSpeechConfig (Meldung)

SpeechTranslationService

Bietet Übersetzungen von/in Medientypen.

StreamingTranslateSpeech

StreamingTranslateSpeech
`rpc StreamingTranslateSpeech(StreamingTranslateSpeechRequest) returns (StreamingTranslateSpeechResponse)` Führt Übersetzungen von Sprachstreamings in beide Richtungen aus: Die Ergebnisse erhalten Sie, während die Audiodaten gesendet werden. Diese Methode ist nur über die gRPC API (nicht über die REST API) verfügbar. Autorisierungsbereiche Erfordert den folgenden OAuth-Bereich: `https://www.googleapis.com/auth/cloud-platform` Weitere Informationen finden Sie in der Authentifizierungsübersicht.

rpc StreamingTranslateSpeech(StreamingTranslateSpeechRequest) returns (StreamingTranslateSpeechResponse)

Führt Übersetzungen von Sprachstreamings in beide Richtungen aus: Die Ergebnisse erhalten Sie, während die Audiodaten gesendet werden. Diese Methode ist nur über die gRPC API (nicht über die REST API) verfügbar.

Autorisierungsbereiche

Erfordert den folgenden OAuth-Bereich:

https://www.googleapis.com/auth/cloud-platform

Weitere Informationen finden Sie in der Authentifizierungsübersicht.

StreamingTranslateSpeechConfig

Die für die Streaming-Übersetzung verwendete Konfiguration.

Felder

Felder
`audio_config`	`TranslateSpeechConfig` Erforderlich. Die allgemeine Konfiguration für alle folgenden Audioinhalte.
`single_utterance`	`bool` Optional. Wenn der Wert `false` ist oder nicht angegeben wird, führt das System eine kontinuierliche Übersetzung aus (wartet weiterhin auf Audio und verarbeitet es, auch wenn der Nutzer nicht spricht), bis der Client den Eingabestream (gRPC API) schließt oder das Zeitlimit erreicht ist. Kann mehrere `StreamingTranslateSpeechResult`s zurückgeben, wobei das Flag `is_final` auf `true` gesetzt ist. Bei `true` erkennt der Übersetzer eine einzelne gesprochene Äußerung. Wird erkannt, dass der Nutzer pausiert oder nicht mehr spricht, gibt er ein `END_OF_SINGLE_UTTERANCE`-Ereignis zurück und beendet die Übersetzung. Wenn der Client das Ereignis "END_OF_SINGLE_UTTERANCE" empfängt, sollte er keine Anfragen mehr senden. Clients sollten jedoch weiterhin die verbleibenden Antworten erhalten, bis der Stream beendet ist. Zum Erstellen des vollständigen Satzes im Streaming sollte er überschrieben (wenn "is_final" in der vorherigen Antwort den Wert "false" hat) oder angehängt werden (wenn "is_final" in der vorherigen Antwort den Wert "true" hat).
`stability`	`string` Optional. Stabilitätssteuerung für den Text der Medienübersetzung. Beachten Sie, dass Stabilität und Geschwindigkeit Kompromisse eingehen. Der Wert sollte „LOW“, „MEDIUM“, „HIGH“ sein. Ein leerer Standardstring wird als „LOW“ behandelt. (1) „LOW“: Im niedrigen Modus beginnt der Übersetzungsdienst direkt nach dem Erhalt der Erkennungsantwort mit der Übersetzung. Die Geschwindigkeit ist höher. (2) „MITTEL“: Im mittleren Modus prüft der Übersetzungsdienst, ob die Erkennungsantwort stabil genug ist oder nicht. Es wird nur die Erkennungsantwort übersetzt, die später wahrscheinlich nicht mehr geändert wird. (3) „HOCH“: Im hohen Modus wartet der Übersetzungsdienst auf stabilere Erkennungsantworten und beginnt dann mit der Übersetzung. Außerdem können die folgenden Erkennungsantworten vorherige Erkennungsantworten nicht ändern. Daher kann sich dies in manchen Fällen auf die Qualität auswirken. Bei der Stabilität „HOCH“ werden häufiger „finale“ Antworten generiert.

audio_config

TranslateSpeechConfig

Erforderlich. Die allgemeine Konfiguration für alle folgenden Audioinhalte.

single_utterance

bool

Optional. Wenn der Wert false ist oder nicht angegeben wird, führt das System eine kontinuierliche Übersetzung aus (wartet weiterhin auf Audio und verarbeitet es, auch wenn der Nutzer nicht spricht), bis der Client den Eingabestream (gRPC API) schließt oder das Zeitlimit erreicht ist. Kann mehrere StreamingTranslateSpeechResults zurückgeben, wobei das Flag is_final auf true gesetzt ist.

Bei true erkennt der Übersetzer eine einzelne gesprochene Äußerung. Wird erkannt, dass der Nutzer pausiert oder nicht mehr spricht, gibt er ein END_OF_SINGLE_UTTERANCE-Ereignis zurück und beendet die Übersetzung. Wenn der Client das Ereignis "END_OF_SINGLE_UTTERANCE" empfängt, sollte er keine Anfragen mehr senden. Clients sollten jedoch weiterhin die verbleibenden Antworten erhalten, bis der Stream beendet ist. Zum Erstellen des vollständigen Satzes im Streaming sollte er überschrieben (wenn "is_final" in der vorherigen Antwort den Wert "false" hat) oder angehängt werden (wenn "is_final" in der vorherigen Antwort den Wert "true" hat).

stability

string

Optional. Stabilitätssteuerung für den Text der Medienübersetzung. Beachten Sie, dass Stabilität und Geschwindigkeit Kompromisse eingehen. Der Wert sollte „LOW“, „MEDIUM“, „HIGH“ sein. Ein leerer Standardstring wird als „LOW“ behandelt. (1) „LOW“: Im niedrigen Modus beginnt der Übersetzungsdienst direkt nach dem Erhalt der Erkennungsantwort mit der Übersetzung. Die Geschwindigkeit ist höher. (2) „MITTEL“: Im mittleren Modus prüft der Übersetzungsdienst, ob die Erkennungsantwort stabil genug ist oder nicht. Es wird nur die Erkennungsantwort übersetzt, die später wahrscheinlich nicht mehr geändert wird. (3) „HOCH“: Im hohen Modus wartet der Übersetzungsdienst auf stabilere Erkennungsantworten und beginnt dann mit der Übersetzung. Außerdem können die folgenden Erkennungsantworten vorherige Erkennungsantworten nicht ändern. Daher kann sich dies in manchen Fällen auf die Qualität auswirken. Bei der Stabilität „HOCH“ werden häufiger „finale“ Antworten generiert.

StreamingTranslateSpeechRequest

Die Nachricht auf oberster Ebene, die vom Client an die Methode StreamingTranslateSpeech gesendet wird. Es werden mehrere StreamingTranslateSpeechRequest-Nachrichten gesendet. Die erste Nachricht muss eine streaming_config-Nachricht und darf keine audio_content-Daten enthalten. Alle nachfolgenden Nachrichten müssen audio_content-Daten enthalten und dürfen keine streaming_config-Nachrichten enthalten.

Felder

Felder
Union-Feld `streaming_request`. Die Streaminganfrage, die entweder eine Streamingkonfiguration oder ein Inhalt ist. Für `streaming_request` ist nur einer der folgenden Werte zulässig:
`streaming_config`	`StreamingTranslateSpeechConfig` Stellt dem Erkennungsmodul Informationen zur Verarbeitung der Anfrage zur Verfügung. Die erste `StreamingTranslateSpeechRequest`-Nachricht muss eine `streaming_config`-Nachricht enthalten.
`audio_content`	`bytes` Die zu übersetzenden Audiodaten. Sequenzielle Blöcke von Audiodaten werden in sequenziellen `StreamingTranslateSpeechRequest`-Nachrichten gesendet. Die erste `StreamingTranslateSpeechRequest`-Nachricht darf keine `audio_content`-Daten enthalten, alle nachfolgenden `StreamingTranslateSpeechRequest`-Nachrichten müssen `audio_content`-Daten enthalten. Die Audiobyte müssen wie in `StreamingTranslateSpeechConfig` angegeben codiert sein. Hinweis: Wie bei allen bytes-Feldern verwenden auch Protokollzwischenspeicher eine reine Binärdarstellung (nicht base64).

Union-Feld streaming_request. Die Streaminganfrage, die entweder eine Streamingkonfiguration oder ein Inhalt ist. Für streaming_request ist nur einer der folgenden Werte zulässig:

streaming_config

StreamingTranslateSpeechConfig

Stellt dem Erkennungsmodul Informationen zur Verarbeitung der Anfrage zur Verfügung. Die erste StreamingTranslateSpeechRequest-Nachricht muss eine streaming_config-Nachricht enthalten.

audio_content

bytes

Die zu übersetzenden Audiodaten. Sequenzielle Blöcke von Audiodaten werden in sequenziellen StreamingTranslateSpeechRequest-Nachrichten gesendet. Die erste StreamingTranslateSpeechRequest-Nachricht darf keine audio_content-Daten enthalten, alle nachfolgenden StreamingTranslateSpeechRequest-Nachrichten müssen audio_content-Daten enthalten. Die Audiobyte müssen wie in StreamingTranslateSpeechConfig angegeben codiert sein. Hinweis: Wie bei allen bytes-Feldern verwenden auch Protokollzwischenspeicher eine reine Binärdarstellung (nicht base64).

StreamingTranslateSpeechResponse

Antwort einer Streamingsprachübersetzung, die einem Teil der aktuell verarbeiteten Audiodaten entspricht.

Felder

Felder
`error`	`Status` Nur Ausgabe. Wenn festgelegt, wird eine `google.rpc.Status`-Nachricht zurückgegeben, die den Fehler für den Vorgang angibt.
`result`	`StreamingTranslateSpeechResult` Nur Ausgabe. Das Übersetzungsergebnis, das gerade verarbeitet wird ("is_final" kann "true" oder "false" sein).
`speech_event_type`	`SpeechEventType` Nur Ausgabe. Gibt die Art des Sprachereignisses an.

error

Status

Nur Ausgabe. Wenn festgelegt, wird eine google.rpc.Status-Nachricht zurückgegeben, die den Fehler für den Vorgang angibt.

result

StreamingTranslateSpeechResult

Nur Ausgabe. Das Übersetzungsergebnis, das gerade verarbeitet wird ("is_final" kann "true" oder "false" sein).

speech_event_type

SpeechEventType

Nur Ausgabe. Gibt die Art des Sprachereignisses an.

SpeechEventType

Gibt die Art des Sprachereignisses an.

Enums

SPEECH_EVENT_TYPE_UNSPECIFIED Kein Sprachereignis angegeben.

END_OF_SINGLE_UTTERANCE Mit diesem Ereignis wird angezeigt, dass vom Server das Ende der sprachlichen Äußerung des Nutzers erkannt wurde und keine weiteren Sprachdaten erwartet werden. Daher werden keine weiteren Audiodaten vom Server verarbeitet (möglicherweise gibt er jedoch noch weitere Ergebnisse aus). Wenn der Client das Ereignis "END_OF_SINGLE_UTTERANCE" empfängt, sollte er keine Anfragen mehr senden. Clients sollten jedoch weiterhin die verbleibenden Antworten erhalten, bis der Stream beendet ist. Zum Erstellen des vollständigen Satzes im Streaming sollte er überschrieben (wenn "is_final" in der vorherigen Antwort den Wert "false" hat) oder angehängt werden (wenn "is_final" in der vorherigen Antwort den Wert "true" hat). Dieses Ereignis wird nur gesendet, wenn single_utterance auf true festgelegt wurde. Andernfalls wird es nicht verwendet.

Enums
`SPEECH_EVENT_TYPE_UNSPECIFIED`	Kein Sprachereignis angegeben.
`END_OF_SINGLE_UTTERANCE`	Mit diesem Ereignis wird angezeigt, dass vom Server das Ende der sprachlichen Äußerung des Nutzers erkannt wurde und keine weiteren Sprachdaten erwartet werden. Daher werden keine weiteren Audiodaten vom Server verarbeitet (möglicherweise gibt er jedoch noch weitere Ergebnisse aus). Wenn der Client das Ereignis "END_OF_SINGLE_UTTERANCE" empfängt, sollte er keine Anfragen mehr senden. Clients sollten jedoch weiterhin die verbleibenden Antworten erhalten, bis der Stream beendet ist. Zum Erstellen des vollständigen Satzes im Streaming sollte er überschrieben (wenn "is_final" in der vorherigen Antwort den Wert "false" hat) oder angehängt werden (wenn "is_final" in der vorherigen Antwort den Wert "true" hat). Dieses Ereignis wird nur gesendet, wenn `single_utterance` auf `true` festgelegt wurde. Andernfalls wird es nicht verwendet.

StreamingTranslateSpeechResult

Ergebnis einer Streamingsprachübersetzung, das einem Teil der aktuell verarbeiteten Audiodaten entspricht.

Felder

Felder
`recognition_result`	`string` Nur Ausgabe. Das Erkennungsergebnis nur zum Debuggen in der Originalsprache. Dieses Feld dient nur zum Debuggen und wird auf einen leeren String gesetzt, wenn es nicht verfügbar ist. Dies ist ein Implementierungsdetail und wird nicht abwärtskompatibel sein.
`text_translation_result`	`TextTranslationResult` Ergebnis der Textübersetzung.

recognition_result

string

Nur Ausgabe. Das Erkennungsergebnis nur zum Debuggen in der Originalsprache. Dieses Feld dient nur zum Debuggen und wird auf einen leeren String gesetzt, wenn es nicht verfügbar ist. Dies ist ein Implementierungsdetail und wird nicht abwärtskompatibel sein.

text_translation_result

TextTranslationResult

Ergebnis der Textübersetzung.

TextTranslationResult

Ergebnis der Textübersetzung.

Felder

Felder
`translation`	`string` Nur Ausgabe. Der übersetzte Satz.
`is_final`	`bool` Nur Ausgabe. Falls `false`, ist `StreamingTranslateSpeechResult` ein Zwischenergebnis, das sich ändern kann. Falls `true`, ist dies das letzte Mal, dass der Übersetzungsdienst dieses spezifische `StreamingTranslateSpeechResult` zurückgibt. Der Streaming-Übersetzer gibt keine weiteren Hypothesen für diesen Teil des Transkripts und die entsprechenden Audiodaten zurück.

translation

string

Nur Ausgabe. Der übersetzte Satz.

is_final

bool

Nur Ausgabe. Falls false, ist StreamingTranslateSpeechResult ein Zwischenergebnis, das sich ändern kann. Falls true, ist dies das letzte Mal, dass der Übersetzungsdienst dieses spezifische StreamingTranslateSpeechResult zurückgibt. Der Streaming-Übersetzer gibt keine weiteren Hypothesen für diesen Teil des Transkripts und die entsprechenden Audiodaten zurück.

TranslateSpeechConfig

Liefert Informationen darüber, wie die Anfrage bei der Sprachübersetzung verarbeitet werden soll.

Felder
`audio_encoding`	`string` Erforderlich. Codierung von Audiodaten. Unterstützte Formate: `linear16` Unkomprimierte 16-Bit-Little-Endian-Samples mit Vorzeichen (Lineare PCM). `flac` Als Codierung wird `flac` (Free Lossless Audio Codec) empfohlen, da sie verlustfrei arbeitet, sodass die Erkennung nicht beeinträchtigt wird, und nur etwa halb so viel Bandbreite wie `linear16` benötigt. `mulaw` 8-Bit-Samples zur Kompandierung von 14-Bit-Audiosamples mit G.711 PCMU/mu-law. `amr` Adaptiver Codec für Multi-Rate-Schmalband. `sample_rate_hertz` muss 8.000 betragen. `amr-wb` Adaptiver Codec für Multi-Rate-Breitband. `sample_rate_hertz` muss 16.000 betragen. `ogg-opus` Opus-codierte Audioframes im Ogg-Container. `sample_rate_hertz` muss 8.000, 12.000, 16.000, 24.000 oder 48.000 betragen. `mp3` MP3-Audio. Unterstützt alle gängigen MP3-Bitraten (von 32 bis 320 kbit/s). Bei Verwendung dieser Codierung muss `sample_rate_hertz` mit der Abtastrate der verwendeten Datei übereinstimmen.
`source_language_code`	`string` Erforderlich. Quellsprachcode (BCP-47) der Audioeingabe.
`target_language_code`	`string` Erforderlich. Zielsprachcode (BCP-47) der Ausgabe.
`sample_rate_hertz`	`int32` Optional. Abtastrate der Audiodaten in Hertz. Gültige Werte sind 8.000 bis 48.000. 16.000 ist optimal. Stellen Sie die Abtastrate der Audioquelle auf 16.000 Hz ein, um die besten Ergebnisse zu erzielen. Falls dies nicht möglich ist, verwenden Sie die native Abtastrate der Audioquelle (anstatt eine erneute Abtastung durchzuführen).
`model`	`string` Optional. `google-provided-model/video` und `google-provided-model/enhanced-phone-call` sind Premiummodelle. `google-provided-model/phone-call` ist kein Premiummodell.