索引
SpeechTranslationService
(インターフェース)StreamingTranslateSpeechConfig
(メッセージ)StreamingTranslateSpeechRequest
(メッセージ)StreamingTranslateSpeechResponse
(メッセージ)StreamingTranslateSpeechResponse.SpeechEventType
(列挙型)StreamingTranslateSpeechResult
(メッセージ)StreamingTranslateSpeechResult.TextTranslationResult
(メッセージ)TranslateSpeechConfig
(メッセージ)
SpeechTranslationService
メディアタイプとの間の翻訳を提供します。
StreamingTranslateSpeech |
---|
音声翻訳を双方向ストリーミングで実行します。音声を送信しながら結果を受け取ります。このメソッドは、REST ではなく、gRPC API を介してのみ使用できます。
|
StreamingTranslateSpeechConfig
ストリーミング翻訳に使用される構成。
フィールド | |
---|---|
audio_config |
必須。次のすべての音声コンテンツに共通する構成。 |
single_utterance |
省略可。
|
stability |
省略可。メディア翻訳テキストの安定性を制御します。安定性と速度はトレードオフの関係にあります。値は「LOW」、「MEDIUM」、「HIGH」のいずれかにします。デフォルトである空の文字列は「LOW」として扱われます。(1)「LOW」: 低モードの場合、翻訳サービスは認識レスポンスを受け取るとすぐに翻訳を開始します。他の値と比べて速度が高くなります。(2)「MEDIUM」: 中モードの場合、翻訳サービスは認識レスポンスが十分に安定しているかどうかを確認し、後で変更される可能性が低い認識レスポンスのみを翻訳します。(3)「HIGH」: 高モードの場合、翻訳サービスはより安定した認識レスポンスを待機し、安定したレスポンスが届いた後で翻訳を開始します。また、以降の認識レスポンスによって以前の認識レスポンスが変更されることはありません。そのため、場合によっては品質に影響があります。安定性が「HIGH」の場合、「最終」のレスポンスが生成される頻度が高くなります。 |
StreamingTranslateSpeechRequest
StreamingTranslateSpeech
メソッド向けにクライアントから送信される最上位レベルのメッセージ。複数の StreamingTranslateSpeechRequest
メッセージが送信されます。最初のメッセージには必ず streaming_config
メッセージが含まれ、audio_content
データが含まれることはありません。後続のすべてのメッセージには必ず audio_content
データが含まれ、streaming_config
メッセージが含まれることはありません。
フィールド | |
---|---|
共用体フィールド streaming_request 。ストリーミング リクエスト。ストリーミング構成またはコンテンツのいずれかです。streaming_request は次のいずれかになります。 |
|
streaming_config |
認識機能にリクエストの処理方法を指定する情報を提供します。最初の |
audio_content |
翻訳する音声データ。音声データの連続したチャンクは、連続した |
StreamingTranslateSpeechResponse
現在処理されている音声の一部に対応するストリーミング音声翻訳レスポンス。
フィールド | |
---|---|
error |
出力のみ。設定されている場合、オペレーションのエラーを指定する |
result |
出力のみ。現在処理されている翻訳結果(is_final は true または false です)。 |
speech_event_type |
出力のみ。speech イベントのタイプを示します。 |
SpeechEventType
speech イベントのタイプを示します。
列挙型 | |
---|---|
SPEECH_EVENT_TYPE_UNSPECIFIED |
speech イベントが指定されていません。 |
END_OF_SINGLE_UTTERANCE |
このイベントは、サーバーがユーザーの発話の終わりを検出し、これ以上発話が続くことはないと推測したことを示します。したがって、サーバーは追加の音声を処理しません(ただし、後で追加の結果を返すことがあります)。クライアントが「END_OF_SINGLE_UTTERANCE」イベントを受信すると、クライアントはリクエストの送信を停止する必要があります。ただし、クライアントはストリームが終了するまで残りのレスポンスを受信する必要があります。ストリーミング形式で完全なセンテンスを作成するには、オーバーライド(前のレスポンスの「is_final」が false の場合)または追加(前のレスポンスの「is_final」が true の場合)が必要です。このイベントは、single_utterance が true に設定されている場合にのみ送信され、それ以外の場合には使用されません。 |
StreamingTranslateSpeechResult
現在処理されている音声の部分に対応するストリーミング音声翻訳の結果。
フィールド | |
---|---|
recognition_result |
出力のみ。デバッグ専用の元の言語での認識結果。このフィールドはデバッグ専用です。使用できない場合は、空の文字列に設定されます。これは実装の詳細であり、下位互換性はありません。 |
text_translation_result |
テキスト翻訳の結果。 |
TextTranslationResult
テキスト翻訳の結果。
フィールド | |
---|---|
translation |
出力のみ。翻訳されたセンテンス。 |
is_final |
出力のみ。 |
TranslateSpeechConfig
音声翻訳機能にリクエストの処理方法を指定する情報を提供します。
フィールド | |
---|---|
audio_encoding |
必須。音声データのエンコード。サポートされている形式は次のとおりです。
非圧縮 16 ビット符号付きリトル エンディアンのサンプル(Linear PCM)。
G.711 PCMU/mu-law を使用して 14 ビットの音声サンプルの圧縮と伸張を行う 8 ビットのサンプル。
Adaptive Multi-Rate Narrowband コーデック。
Adaptive Multi-Rate Wideband コーデック。
Ogg コンテナに格納された Opus エンコード形式の音声フレーム。
MP3 オーディオ。すべての標準的な MP3 ビットレート(32~320 kbps の範囲)をサポートします。このエンコードを使用する場合、 |
source_language_code |
必須。入力音声のソース言語コード(BCP-47)。 |
target_language_code |
必須。出力のターゲット言語コード(BCP-47)。 |
sample_rate_hertz |
省略可。音声データのサンプルレート(ヘルツ単位)。有効な値は 8,000~48,000 です。16,000 が最適な値です。可能であれば、音源のサンプルレートを 16,000 Hz に設定します。可能でない場合は、(再サンプリングせずに)音源のネイティブ サンプルレートを使用します。 |
model |
省略可。 |