クイックスタート: コマンドラインの使用

このクイックスタートでは、Cloud Text-to-Speech API について紹介します。Google Cloud Platform プロジェクトと認証を設定し、Text-to-Speech API に対してリクエストを行い、テキストから音声を作成します。

Cloud Text-to-Speech API の基本的なコンセプトの詳細については、Cloud Text-to-Speech API の基本をお読みください。

始める前に

  1. Google アカウントにログインします。

    Google アカウントをまだお持ちでない場合は、新しいアカウントを登録します。

  2. Google Cloud Platform プロジェクトを選択または作成します。

    [リソースの管理] ページに移動

  3. Google Cloud Platform プロジェクトに対して課金が有効になっていることを確認します。

    課金を有効にする方法について

  4. Cloud Text-to-Speech API を有効にします。

    APIを有効にする

  5. 認証情報の設定:
    1. GCP Console で [サービス アカウントキーの作成] ページに移動します。

      [サービス アカウントキーの作成] ページに移動
    2. [サービス アカウント] リストから [新しいサービス アカウント] を選択します。
    3. [サービス アカウント名] フィールドに名前を入力します。
    4. [役割] リストから値を選択しないでください。このサービスにアクセスするために必要な役割はありません。
    5. [作成] をクリックします。このサービス アカウントには役割がないという警告メッセージが表示されます。
    6. [役割なしで作成] をクリックします。キーが含まれている JSON ファイルがパソコンにダウンロードされます。
  6. 環境変数 GOOGLE_APPLICATION_CREDENTIALS をサービス アカウント キーが含まれる JSON ファイルのファイルパスに設定します。この変数は現在のシェル セッションにのみ適用されるため、新しいセッションを開く場合は、変数を再度設定してください。

  7. Cloud SDK をインストールして初期化します。

テキストから音声を合成する

テキストを音声に変換するには、https://texttospeech.googleapis.com/v1/text:synthesize エンドポイントに HTTP POST リクエストを発行します。POST コマンドの本文内の voice 構成セクションで、合成する声の種類を指定します。さらに、input セクションの text フィールドで合成するテキストを指定し、audioConfig セクションで作成する音声の種類を指定します。

  1. コマンドラインで次の行を実行して、Text-to-Speech API でテキストから音声を合成します。このコマンドは、gcloud auth application-default print-access-token コマンドを使用してリクエストの承認トークンを取得します。

    レスポンスは synthesize-text.txt ファイルに出力されます。

    curl -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
      -H "Content-Type: application/json; charset=utf-8" \
      --data "{
        'input':{
          'text':'Android is a mobile operating system developed by Google,
             based on the Linux kernel and designed primarily for
             touchscreen mobile devices such as smartphones and tablets.'
        },
        'voice':{
          'languageCode':'en-gb',
          'name':'en-GB-Standard-A',
          'ssmlGender':'FEMALE'
        },
        'audioConfig':{
          'audioEncoding':'MP3'
        }
      }" "https://texttospeech.googleapis.com/v1/text:synthesize" > synthesize-text.txt
    

    synthesize-text.txt ファイルの内容は次のようになります。

    {
      "audioContent": "//NExAASCCIIAAhEAGAAEMW4kAYPnwwIKw/BBTpwTvB+IAxIfghUfW.."
    }
    
    
  2. 上記の REST コマンドの JSON 出力には、合成された音声が base64 エンコード形式で格納されています。audioContent フィールドの内容を、synthesize-output-base64.txt という名前の新しいファイルにコピーします。新しいファイルは次のようになります。

    //NExAARqoIIAAhEuWAAAGNmBGMY4EBcxvABAXBPmPIAF//yAuh9Tn5CEap3/o
    ...
    VVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVV
    
  3. synthesize-output-base64.txt フィールドの内容を、synthesized-audio.mp3 という名前の新しいファイルにデコードします。base64 のデコード方法について詳しくは、Base64 でエンコードされた音声コンテンツのデコードをご覧ください。

    base64 synthesize-output-base64.txt --decode > synthesized-audio.mp3
    
  4. synthesized-audio.mp3 の内容を音声アプリケーションまたは音声デバイスで再生します。また、Chrome ブラウザで synthesized-audio.mp3 を開いて、ファイルが含まれているフォルダ(たとえば、file://my_file_path/synthesized-audio.mp3)に移動して音声を再生することもできます。

クリーンアップ

Google Cloud Platform の不必要な課金を避けるため、GCP Console を使用して、不要になったプロジェクトを削除します。

次のステップ

  • Cloud Text-to-Speech の詳細については、基本をお読みください。
  • 合成音声に利用可能な音声の一覧を確認します。

このページは役立ちましたか?評価をお願いいたします。

フィードバックを送信...

ご不明な点がありましたら、Google のサポートページをご覧ください。