Index
SpeechTranslationService
(Benutzeroberfläche)StreamingTranslateSpeechConfig
(Meldung)StreamingTranslateSpeechRequest
(Meldung)StreamingTranslateSpeechResponse
(Meldung)StreamingTranslateSpeechResponse.SpeechEventType
(Aufzählung)StreamingTranslateSpeechResult
(Meldung)StreamingTranslateSpeechResult.TextTranslationResult
(Meldung)TranslateSpeechConfig
(Meldung)
SpeechTranslationService
Bietet Übersetzungen von/in Medientypen.
StreamingTranslateSpeech | |
---|---|
Führt Übersetzungen von Sprachstreamings in beide Richtungen aus: Die Ergebnisse erhalten Sie, während die Audiodaten gesendet werden. Diese Methode ist nur über die gRPC API (nicht über die REST API) verfügbar.
|
StreamingTranslateSpeechConfig
Die für die Streaming-Übersetzung verwendete Konfiguration.
Felder | |
---|---|
audio_config |
Erforderlich. Die allgemeine Konfiguration für alle folgenden Audioinhalte. |
single_utterance |
Optional. Wenn der Wert Bei |
StreamingTranslateSpeechRequest
Die Nachricht auf oberster Ebene, die vom Client an die Methode StreamingTranslateSpeech
gesendet wird. Es werden mehrere StreamingTranslateSpeechRequest
-Nachrichten gesendet. Die erste Nachricht muss eine streaming_config
-Nachricht und darf keine audio_content
-Daten enthalten. Alle nachfolgenden Nachrichten müssen audio_content
-Daten enthalten und dürfen keine streaming_config
-Nachrichten enthalten.
Felder | ||
---|---|---|
Union-Feld streaming_request . Die Streaminganfrage, die entweder eine Streamingkonfiguration oder ein Inhalt ist. Für streaming_request ist nur einer der folgenden Werte zulässig: |
||
streaming_config |
Stellt dem Erkennungsmodul Informationen zur Verarbeitung der Anfrage zur Verfügung. Die erste |
|
audio_content |
Die zu übersetzenden Audiodaten. Sequenzielle Blöcke von Audiodaten werden in sequenziellen |
StreamingTranslateSpeechResponse
Antwort einer Streamingsprachübersetzung, die einem Teil der aktuell verarbeiteten Audiodaten entspricht.
Felder | |
---|---|
error |
Nur Ausgabe. Wenn festgelegt, wird eine |
result |
Nur Ausgabe. Das Übersetzungsergebnis, das gerade verarbeitet wird ("is_final" kann "true" oder "false" sein). |
speech_event_type |
Nur Ausgabe. Gibt die Art des Sprachereignisses an. |
SpeechEventType
Gibt die Art des Sprachereignisses an.
Enums | |
---|---|
SPEECH_EVENT_TYPE_UNSPECIFIED |
Kein Sprachereignis angegeben. |
END_OF_SINGLE_UTTERANCE |
Mit diesem Ereignis wird angezeigt, dass vom Server das Ende der sprachlichen Äußerung des Nutzers erkannt wurde und keine weiteren Sprachdaten erwartet werden. Daher werden keine weiteren Audiodaten vom Server verarbeitet (möglicherweise gibt er jedoch noch weitere Ergebnisse aus). Wenn der Client das Ereignis "END_OF_SINGLE_UTTERANCE" empfängt, sollte er keine Anfragen mehr senden. Clients sollten jedoch weiterhin die verbleibenden Antworten erhalten, bis der Stream beendet ist. Zum Erstellen des vollständigen Satzes im Streaming sollte er überschrieben (wenn "is_final" in der vorherigen Antwort den Wert "false" hat) oder angehängt werden (wenn "is_final" in der vorherigen Antwort den Wert "true" hat). Dieses Ereignis wird nur gesendet, wenn single_utterance auf true festgelegt wurde. Andernfalls wird es nicht verwendet. |
StreamingTranslateSpeechResult
Ergebnis einer Streamingsprachübersetzung, das einem Teil der aktuell verarbeiteten Audiodaten entspricht.
Felder | |
---|---|
text_translation_result |
Ergebnis der Textübersetzung. |
TextTranslationResult
Ergebnis der Textübersetzung.
Felder | |
---|---|
translation |
Nur Ausgabe. Der übersetzte Satz. |
is_final |
Nur Ausgabe. Falls |
TranslateSpeechConfig
Liefert Informationen darüber, wie die Anfrage bei der Sprachübersetzung verarbeitet werden soll.
Felder | |
---|---|
audio_encoding |
Erforderlich. Codierung von Audiodaten. Unterstützte Formate:
Unkomprimierte 16-Bit-Little-Endian-Samples mit Vorzeichen (Lineare PCM).
Als Codierung wird
8-Bit-Samples zur Kompandierung von 14-Bit-Audiosamples mit G.711 PCMU/mu-law.
Adaptiver Codec für Multi-Rate-Schmalband.
Adaptiver Codec für Multi-Rate-Breitband.
Opus-codierte Audioframes im Ogg-Container. |
source_language_code |
Erforderlich. Quellsprachcode (BCP-47) der Audioeingabe. |
target_language_code |
Erforderlich. Zielsprachcode (BCP-47) der Ausgabe. |
sample_rate_hertz |
Optional. Abtastrate der Audiodaten in Hertz. Gültige Werte sind 8.000 bis 48.000. 16.000 ist optimal. Stellen Sie die Abtastrate der Audioquelle auf 16.000 Hz ein, um die besten Ergebnisse zu erzielen. Falls dies nicht möglich ist, verwenden Sie die native Abtastrate der Audioquelle (anstatt eine erneute Abtastung durchzuführen). |
model |
Optional. Zulässige Werte sind: Sofern nicht festgelegt, wird das von Google bereitgestellte Modell oder der Standardwert verwendet. |