音声データはバイナリデータです。バイナリデータは、gRPC レスポンスから直接読み取ることができますが、REST リクエストへのレスポンスには JSON が使用されます。JSON はバイナリデータを直接サポートしていないテキスト形式であるため、Text-to-Speech は Base64 でエンコードされたレスポンス文字列を返します。レスポンス内の、Base64 でエンコードされたテキストデータをデバイスで再生するには、そのテキストデータをバイナリに変換する必要があります。
Text-to-Speech からの JSON レスポンスでは、audioContent
フィールドに base64 でエンコードされた音声コンテンツが格納されています。例:
{ "audioContent": "//NExAARqoIIAAhEuWAAAGNmBGMY4EBcxvABAXBPmPIAF//yAuh9Tn5CEap3/o... " }
base64 を音声ファイルにデコードするには:
base-64 エンコード形式のコンテンツのみをテキスト ファイルにコピーします。
base64 コマンドライン ツールで
-d
フラグを使用してソーステキスト ファイルをデコードします。
$ base64SOURCE_BASE64_TEXT_FILE -d >DESTINATION_AUDIO_FILE
base-64 エンコード形式のコンテンツのみをテキスト ファイルにコピーします。
base64 コマンドライン ツールを使用してソース テキスト ファイルをデコードします。
$ base64 --decode -iSOURCE_BASE64_TEXT_FILE >DESTINATION_AUDIO_FILE
base-64 エンコード形式のコンテンツのみをテキスト ファイルにコピーします。
certutil
コマンドを使用して、ソース テキスト ファイルをデコードします。
certutil -decodeSOURCE_BASE64_TEXT_FILE DESTINATION_AUDIO_FILE