音声データはバイナリデータです。バイナリデータは、gRPC レスポンスから直接読み取ることができますが、REST リクエストへのレスポンスには JSON が使用されます。JSON はバイナリデータを直接サポートしていないテキスト形式であるため、Text-to-Speech は Base64 でエンコードされたレスポンス文字列を返します。レスポンス内の、Base64 でエンコードされたテキストデータをデバイスで再生するには、そのテキストデータをバイナリに変換する必要があります。
Text-to-Speech からの JSON レスポンスでは、audioContent
フィールドに base64 でエンコードされた音声コンテンツが格納されています。例:
{ "audioContent": "//NExAARqoIIAAhEuWAAAGNmBGMY4EBcxvABAXBPmPIAF//yAuh9Tn5CEap3/o..." }
base64 を音声ファイルにデコードするには:
Linux
base-64 エンコード形式のコンテンツのみをテキスト ファイルにコピーします。
base64 コマンドライン ツールで
-d
フラグを使用してソーステキスト ファイルをデコードします。
$ base64 SOURCE_BASE64_TEXT_FILE -d > DESTINATION_AUDIO_FILE
Mac OSX
base-64 エンコード形式のコンテンツのみをテキスト ファイルにコピーします。
base64 コマンドライン ツールを使用してソース テキスト ファイルをデコードします。
$ base64 --decode -i SOURCE_BASE64_TEXT_FILE > DESTINATION_AUDIO_FILE
Windows
base-64 エンコード形式のコンテンツのみをテキスト ファイルにコピーします。
certutil
コマンドを使用して、ソース テキスト ファイルをデコードします。
certutil -decode SOURCE_BASE64_TEXT_FILE DESTINATION_AUDIO_FILE