Index
SpeechTranslationService
(Benutzeroberfläche)StreamingTranslateSpeechConfig
(Meldung)StreamingTranslateSpeechRequest
(Meldung)StreamingTranslateSpeechResponse
(Meldung)StreamingTranslateSpeechResponse.SpeechEventType
(Aufzählung)StreamingTranslateSpeechResult
(Meldung)StreamingTranslateSpeechResult.TextTranslationResult
(Meldung)TranslateSpeechConfig
(Meldung)
SpeechTranslationService
Bietet Übersetzungen von/in Medientypen.
StreamingTranslateSpeech |
---|
Führt Übersetzungen von Sprachstreamings in beide Richtungen aus: Die Ergebnisse erhalten Sie, während die Audiodaten gesendet werden. Diese Methode ist nur über die gRPC API (nicht über die REST API) verfügbar.
|
StreamingTranslateSpeechConfig
Die für die Streaming-Übersetzung verwendete Konfiguration.
Felder | |
---|---|
audio_config |
Erforderlich. Die allgemeine Konfiguration für alle folgenden Audioinhalte. |
single_utterance |
Optional. Wenn der Wert Bei |
stability |
Optional. Stabilitätssteuerung für den Text der Medienübersetzung. Beachten Sie, dass Stabilität und Geschwindigkeit Kompromisse eingehen. Der Wert sollte „LOW“, „MEDIUM“, „HIGH“ sein. Ein leerer Standardstring wird als „LOW“ behandelt. (1) „LOW“: Im niedrigen Modus beginnt der Übersetzungsdienst direkt nach dem Erhalt der Erkennungsantwort mit der Übersetzung. Die Geschwindigkeit ist höher. (2) „MITTEL“: Im mittleren Modus prüft der Übersetzungsdienst, ob die Erkennungsantwort stabil genug ist oder nicht. Es wird nur die Erkennungsantwort übersetzt, die später wahrscheinlich nicht mehr geändert wird. (3) „HOCH“: Im hohen Modus wartet der Übersetzungsdienst auf stabilere Erkennungsantworten und beginnt dann mit der Übersetzung. Außerdem können die folgenden Erkennungsantworten vorherige Erkennungsantworten nicht ändern. Daher kann sich dies in manchen Fällen auf die Qualität auswirken. Bei der Stabilität „HOCH“ werden häufiger „finale“ Antworten generiert. |
StreamingTranslateSpeechRequest
Die Nachricht auf oberster Ebene, die vom Client an die Methode StreamingTranslateSpeech
gesendet wird. Es werden mehrere StreamingTranslateSpeechRequest
-Nachrichten gesendet. Die erste Nachricht muss eine streaming_config
-Nachricht und darf keine audio_content
-Daten enthalten. Alle nachfolgenden Nachrichten müssen audio_content
-Daten enthalten und dürfen keine streaming_config
-Nachrichten enthalten.
Felder | |
---|---|
Union-Feld streaming_request . Die Streaminganfrage, die entweder eine Streamingkonfiguration oder ein Inhalt ist. Für streaming_request ist nur einer der folgenden Werte zulässig: |
|
streaming_config |
Stellt dem Erkennungsmodul Informationen zur Verarbeitung der Anfrage zur Verfügung. Die erste |
audio_content |
Die zu übersetzenden Audiodaten. Sequenzielle Blöcke von Audiodaten werden in sequenziellen |
StreamingTranslateSpeechResponse
Antwort einer Streamingsprachübersetzung, die einem Teil der aktuell verarbeiteten Audiodaten entspricht.
Felder | |
---|---|
error |
Nur Ausgabe. Wenn festgelegt, wird eine |
result |
Nur Ausgabe. Das Übersetzungsergebnis, das gerade verarbeitet wird ("is_final" kann "true" oder "false" sein). |
speech_event_type |
Nur Ausgabe. Gibt die Art des Sprachereignisses an. |
SpeechEventType
Gibt die Art des Sprachereignisses an.
Enums | |
---|---|
SPEECH_EVENT_TYPE_UNSPECIFIED |
Kein Sprachereignis angegeben. |
END_OF_SINGLE_UTTERANCE |
Mit diesem Ereignis wird angezeigt, dass vom Server das Ende der sprachlichen Äußerung des Nutzers erkannt wurde und keine weiteren Sprachdaten erwartet werden. Daher werden keine weiteren Audiodaten vom Server verarbeitet (möglicherweise gibt er jedoch noch weitere Ergebnisse aus). Wenn der Client das Ereignis "END_OF_SINGLE_UTTERANCE" empfängt, sollte er keine Anfragen mehr senden. Clients sollten jedoch weiterhin die verbleibenden Antworten erhalten, bis der Stream beendet ist. Zum Erstellen des vollständigen Satzes im Streaming sollte er überschrieben (wenn "is_final" in der vorherigen Antwort den Wert "false" hat) oder angehängt werden (wenn "is_final" in der vorherigen Antwort den Wert "true" hat). Dieses Ereignis wird nur gesendet, wenn single_utterance auf true festgelegt wurde. Andernfalls wird es nicht verwendet. |
StreamingTranslateSpeechResult
Ergebnis einer Streamingsprachübersetzung, das einem Teil der aktuell verarbeiteten Audiodaten entspricht.
Felder | |
---|---|
recognition_result |
Nur Ausgabe. Das Erkennungsergebnis nur zum Debuggen in der Originalsprache. Dieses Feld dient nur zum Debuggen und wird auf einen leeren String gesetzt, wenn es nicht verfügbar ist. Dies ist ein Implementierungsdetail und wird nicht abwärtskompatibel sein. |
text_translation_result |
Ergebnis der Textübersetzung. |
TextTranslationResult
Ergebnis der Textübersetzung.
Felder | |
---|---|
translation |
Nur Ausgabe. Der übersetzte Satz. |
is_final |
Nur Ausgabe. Falls |
TranslateSpeechConfig
Liefert Informationen darüber, wie die Anfrage bei der Sprachübersetzung verarbeitet werden soll.
Felder | |
---|---|
audio_encoding |
Erforderlich. Codierung von Audiodaten. Unterstützte Formate:
Unkomprimierte 16-Bit-Little-Endian-Samples mit Vorzeichen (Lineare PCM).
Als Codierung wird
8-Bit-Samples zur Kompandierung von 14-Bit-Audiosamples mit G.711 PCMU/mu-law.
Adaptiver Codec für Multi-Rate-Schmalband.
Adaptiver Codec für Multi-Rate-Breitband.
Opus-codierte Audioframes im Ogg-Container.
MP3-Audio. Unterstützt alle gängigen MP3-Bitraten (von 32 bis 320 kbit/s). Bei Verwendung dieser Codierung muss |
source_language_code |
Erforderlich. Quellsprachcode (BCP-47) der Audioeingabe. |
target_language_code |
Erforderlich. Zielsprachcode (BCP-47) der Ausgabe. |
sample_rate_hertz |
Optional. Abtastrate der Audiodaten in Hertz. Gültige Werte sind 8.000 bis 48.000. 16.000 ist optimal. Stellen Sie die Abtastrate der Audioquelle auf 16.000 Hz ein, um die besten Ergebnisse zu erzielen. Falls dies nicht möglich ist, verwenden Sie die native Abtastrate der Audioquelle (anstatt eine erneute Abtastung durchzuführen). |
model |
Optional. |