Package google.cloud.mediatranslation.v1beta1

索引

SpeechTranslationService

メディアタイプとの間の翻訳を提供します。

StreamingTranslateSpeech

rpc StreamingTranslateSpeech(StreamingTranslateSpeechRequest) returns (StreamingTranslateSpeechResponse)

音声翻訳を双方向ストリーミングで実行します。音声を送信しながら結果を受け取ります。このメソッドは、REST ではなく、gRPC API を介してのみ使用できます。

承認スコープ

次の OAuth スコープが必要です。

  • https://www.googleapis.com/auth/cloud-platform

詳細については、認証の概要をご覧ください。

StreamingTranslateSpeechConfig

ストリーミング翻訳に使用される構成。

フィールド
audio_config

TranslateSpeechConfig

必須。次のすべての音声コンテンツに共通する構成。

single_utterance

bool

省略可。false または省略した場合は、クライアントが入力ストリーム(gRPC API)を閉じるか、最大時間制限に達するまで、システムは継続的に翻訳を実行します(ユーザーが発話を一時停止した場合でも、引き続き音声を待機し、処理を続けます)。is_final フラグが true に設定された複数の StreamingTranslateSpeechResult が返されることがあります。

true の場合は、音声翻訳ツールを使って 1 つの読み上げ音声が検出されます。ユーザーが発話を一時停止または停止したことを検出すると、END_OF_SINGLE_UTTERANCE イベントを返して翻訳を中止します。クライアントが「END_OF_SINGLE_UTTERANCE」イベントを受信すると、クライアントはリクエストの送信を停止する必要があります。ただし、クライアントはストリームが終了するまで残りのレスポンスを受信する必要があります。ストリーミング形式で完全なセンテンスを作成するには、オーバーライド(前のレスポンスの「is_final」が false の場合)または追加(前のレスポンスの「is_final」が true の場合)が必要です。

stability

string

省略可。メディア翻訳テキストの安定性を制御します。安定性と速度はトレードオフの関係にあります。値は「LOW」、「MEDIUM」、「HIGH」のいずれかにします。デフォルトである空の文字列は「LOW」として扱われます。(1)「LOW」: 低モードの場合、翻訳サービスは認識レスポンスを受け取るとすぐに翻訳を開始します。他の値と比べて速度が高くなります。(2)「MEDIUM」: 中モードの場合、翻訳サービスは認識レスポンスが十分に安定しているかどうかを確認し、後で変更される可能性が低い認識レスポンスのみを翻訳します。(3)「HIGH」: 高モードの場合、翻訳サービスはより安定した認識レスポンスを待機し、安定したレスポンスが届いた後で翻訳を開始します。また、以降の認識レスポンスによって以前の認識レスポンスが変更されることはありません。そのため、場合によっては品質に影響があります。安定性が「HIGH」の場合、「最終」のレスポンスが生成される頻度が高くなります。

StreamingTranslateSpeechRequest

StreamingTranslateSpeech メソッド向けにクライアントから送信される最上位レベルのメッセージ。複数の StreamingTranslateSpeechRequest メッセージが送信されます。最初のメッセージには必ず streaming_config メッセージが含まれ、audio_content データが含まれることはありません。後続のすべてのメッセージには必ず audio_content データが含まれ、streaming_config メッセージが含まれることはありません。

フィールド
共用体フィールド streaming_request。ストリーミング リクエスト。ストリーミング構成またはコンテンツのいずれかです。streaming_request は次のいずれかになります。
streaming_config

StreamingTranslateSpeechConfig

認識機能にリクエストの処理方法を指定する情報を提供します。最初の StreamingTranslateSpeechRequest メッセージには streaming_config メッセージを含める必要があります。

audio_content

bytes

翻訳する音声データ。音声データの連続したチャンクは、連続した StreamingTranslateSpeechRequest メッセージで送信されます。最初の StreamingTranslateSpeechRequest メッセージには audio_content データが含まれることはありません。また、後続のすべての StreamingTranslateSpeechRequest メッセージには必ず audio_content データが含まれます。音声バイトは StreamingTranslateSpeechConfig で指定されたとおりにエンコードされる必要があります。注: すべてのバイト フィールドと同様に、protobuffers では(base64 ではなく)純 2 進表現を使用します。

StreamingTranslateSpeechResponse

現在処理されている音声の一部に対応するストリーミング音声翻訳レスポンス。

フィールド
error

Status

出力のみ。設定されている場合、オペレーションのエラーを指定する google.rpc.Status メッセージを返します。

result

StreamingTranslateSpeechResult

出力のみ。現在処理されている翻訳結果(is_final は true または false です)。

speech_event_type

SpeechEventType

出力のみ。speech イベントのタイプを示します。

SpeechEventType

speech イベントのタイプを示します。

列挙型
SPEECH_EVENT_TYPE_UNSPECIFIED speech イベントが指定されていません。
END_OF_SINGLE_UTTERANCE このイベントは、サーバーがユーザーの発話の終わりを検出し、これ以上発話が続くことはないと推測したことを示します。したがって、サーバーは追加の音声を処理しません(ただし、後で追加の結果を返すことがあります)。クライアントが「END_OF_SINGLE_UTTERANCE」イベントを受信すると、クライアントはリクエストの送信を停止する必要があります。ただし、クライアントはストリームが終了するまで残りのレスポンスを受信する必要があります。ストリーミング形式で完全なセンテンスを作成するには、オーバーライド(前のレスポンスの「is_final」が false の場合)または追加(前のレスポンスの「is_final」が true の場合)が必要です。このイベントは、single_utterancetrue に設定されている場合にのみ送信され、それ以外の場合には使用されません。

StreamingTranslateSpeechResult

現在処理されている音声の部分に対応するストリーミング音声翻訳の結果。

フィールド
recognition_result

string

出力のみ。デバッグ専用の元の言語での認識結果。このフィールドはデバッグ専用です。使用できない場合は、空の文字列に設定されます。これは実装の詳細であり、下位互換性はありません。

text_translation_result

TextTranslationResult

テキスト翻訳の結果。

TextTranslationResult

テキスト翻訳の結果。

フィールド
translation

string

出力のみ。翻訳されたセンテンス。

is_final

bool

出力のみ。false の場合、この StreamingTranslateSpeechResult は変更される可能性がある中間結果を表します。true の場合、これは翻訳サービスが特定の StreamingTranslateSpeechResult を返す最後の機会であり、ストリーミング翻訳が変換テキストと対応する音声のこの部分に対して、これ以上の仮説が返されることはありません。

TranslateSpeechConfig

音声翻訳機能にリクエストの処理方法を指定する情報を提供します。

フィールド
audio_encoding

string

必須。音声データのエンコード。サポートされている形式は次のとおりです。

  • linear16

非圧縮 16 ビット符号付きリトル エンディアンのサンプル(Linear PCM)。

  • flac

flac(Free Lossless Audio Codec)はロスレスである(したがって、認識は損なわれない)ため推奨されるエンコード方式であり、linear16 の約半分の帯域幅しか必要としません。

  • mulaw

G.711 PCMU/mu-law を使用して 14 ビットの音声サンプルの圧縮と伸張を行う 8 ビットのサンプル。

  • amr

Adaptive Multi-Rate Narrowband コーデック。sample_rate_hertz は 8,000 にする必要があります。

  • amr-wb

Adaptive Multi-Rate Wideband コーデック。sample_rate_hertz は 16,000 にする必要があります。

  • ogg-opus

Ogg コンテナに格納された Opus エンコード形式の音声フレーム。sample_rate_hertz は 8,000、12,000、16,000、24,000、または 48,000 にする必要があります。

  • mp3

MP3 オーディオ。すべての標準的な MP3 ビットレート(32~320 kbps の範囲)をサポートします。このエンコードを使用する場合、sample_rate_hertz は、使用するファイルのサンプルレートと一致する必要があります。

source_language_code

string

必須。入力音声のソース言語コード(BCP-47)。

target_language_code

string

必須。出力のターゲット言語コード(BCP-47)。

sample_rate_hertz

int32

省略可。音声データのサンプルレート(ヘルツ単位)。有効な値は 8,000~48,000 です。16,000 が最適な値です。可能であれば、音源のサンプルレートを 16,000 Hz に設定します。可能でない場合は、(再サンプリングせずに)音源のネイティブ サンプルレートを使用します。

model

string

省略可。google-provided-model/videogoogle-provided-model/enhanced-phone-call はプレミアム モデルです。google-provided-model/phone-call はプレミアム モデルではありません。