双方向ストリーミングで音声を合成する
このドキュメントでは、双方向ストリーミングを使用して音声を合成するプロセスについて説明します。
双方向ストリーミングでは、テキスト入力を送信しながら音声データを受信できます。つまり、入力テキスト全体が送信される前に音声合成を開始できるため、レイテンシが短縮され、リアルタイムのインタラクションが可能になります。音声アシスタントとインタラクティブ ゲームでは、双方向ストリーミングを使用して、より動的で応答性の高いアプリケーションを作成します。
Text-to-Speech の基本コンセプトについて詳しくは、Text-to-Speech の基本をご覧ください。
始める前に
Text-to-Speech API にリクエストを送信する前に、以下の操作を完了していなければなりません。詳細については、始める前にのページをご覧ください。
- Google Cloud プロジェクトで Text-to-Speech を有効にする。
- Text-to-Speech の課金が有効になっていることを確認する。
-
After installing the Google Cloud CLI, configure the gcloud CLI to use your federated identity and then initialize it by running the following command:
gcloud init
双方向ストリーミングで音声を合成する
クライアント ライブラリをインストールする
Python
ライブラリをインストールする前に、Python 開発用の環境を用意しておいてください。
pip install --upgrade google-cloud-texttospeech
テキスト ストリームを送信して音声ストリームを受信する
この API は、StreamingSynthesisInput
または StreamingSynthesizeConfig
を含む StreamingSynthesizeRequest
タイプのリクエスト ストリームを受け入れます。
テキスト入力を提供する StreamingSynthesisInput
を使用してストリーム StreamingSynthesizeRequest
を送信する前に、StreamingSynthesizeConfig
を使用して 1 つの StreamingSynthesizeRequest
を送信します。
ストリーミング テキスト読み上げは、Journey の音声のみに対応しています。
Python
サンプルを実行する前に、Python 開発用の環境を用意しておいてください。
クリーンアップ
不要な Google Cloud Platform 料金が発生しないようにするには、Google Cloud コンソールを使用して、不要なプロジェクトを削除します。
次のステップ