Google の最先端 AI テクノロジーを活用した API を利用して、テキストを自然な音声に変換できます。
新規のお客様には、Text-to-Speech やその他の Google Cloud プロダクトをお試しいただける無料クレジット最大 $300 分を差し上げます。
自然な AI 音声で、インテリジェントかつリアルなユーザー対応を実現
テキスト読み上げ機能が統合されたアプリの音声インターフェースを構築
ユーザーの音声と言語の設定に基づいて、コミュニケーションと音声をパーソナライズ
利点
忠実度の高い音声
Google の画期的なテクノロジーを導入すれば、人間のような自然なイントネーションの音声を生成できます。DeepMind の専門的な音声合成技術をベースに構築された API が、人間にかなり近い音声を実現します。
豊富な音声の種類
中国語(北京語)、ヒンディー語、スペイン語、アラビア語、ロシア語など、75 以上の言語と言語変種、380 種類以上の音声から選択できます。ユーザーとアプリケーションに最適な音声を選ぶことができます。
独自の音声
他社と同じ一般的な音声を使用するのではなく、貴社のブランドを象徴するオリジナルの音声を作成して、顧客とのあらゆるタッチポイントに使用できます。
デモ
テキストを入力し、言語を選択して [Speak It] をクリックすれば、すぐに読み上げられます。
主な機能
短いスニペットから長編のナレーションまで、単一または複数の話者の音声を合成し、文脈を維持します。スタイル、アクセント、速度、トーン、感情表現を詳細に指定できます。すべて、75 以上の言語 / 地域での自然言語による簡単なプロンプトで制御可能です。詳しくは Media Studio にアクセスするか、こちらのドキュメントをご確認ください。
AudioML に基づく最新の自然な会話音声を使用して、魅力的なエージェントを構築します。これらの音声は、高品質なオーディオと低レイテンシのストリーミングに加えて、人間の非流暢性やさまざまな感情表現、正確なイントネーションを再現した自然な発話を実現します。詳しくは Media Studio にアクセスするか、こちらのドキュメントをご確認ください。
わずか 10 秒の音声入力から、パーソナライズされた音声モデルを作成できます。ビデオゲーム、オーディオブック、ポッドキャストなどに最適です。30 以上の言語 / 地域で利用できます。詳しくは Media Studio にアクセスするか、こちらのドキュメントをご確認ください。
モデルのサポートに応じ、シンプルな平文スクリプト、SSML タグ、または効果的な自然言語プロンプトを使用して、数値と時間の形式、話し方、発音、感情を制御できます。詳しくは Media Studio にアクセスするか、こちらのドキュメントをご確認ください。
最新情報
Google Cloud のニュースレターにご登録いただくと、プロダクトの最新情報、イベント情報、特典のお知らせなどが配信されます。
ドキュメント
ユースケース
あらかじめ録音された固定音声を再生するのではなく、動的に音声を生成する Dialogflow の音声 bot で、カスタマー サービスにおける音声エクスペリエンスを改善します。発信者に親近感とパーソナルな印象を与える高品質の合成音声で対応できるようになります。
デバイスをテキスト リーダーとして使用し、人間のような自然な音声を再生可能にすることで、ユーザーとの自然なコミュニケーションが実現します。Speech-to-Text と Natural Language を取り入れてエンドツーエンドの音声ユーザー インターフェースを構築し、スムーズかつ魅力的なインタラクションでユーザー エクスペリエンスを改善しましょう。
EPG でテキストを読み上げることによって、ユーザー エクスペリエンスが向上するほか、サービスやアプリケーションのユーザー補助の要件も満たすことができます。EPG のデモをお試しください。
EPG のテキスト読み上げ機能は簡単に実装できます。
すべての機能
| ストリーミングの音声合成 | ストリーミングの音声合成による超低レイテンシの音声で AI エージェントを強化し、シームレスなリアルタイム会話を実現します。 |
| 長尺音声の合成 | 長尺音声の合成では、最大 100 万バイトの入力を非同期で合成できます。 |
| 選択できる音声と言語 | 75 以上の言語と言語変種、380 種類以上の音声から選択できます(今後も順次追加予定)。 |
| テキストと SSML のサポート | SSML タグを使用して、息つぎ、数字、日時形式、その他の発音上の指示を追加することで、発話をカスタマイズできます。 |
| 声の高さのチューニング | 選択した音声の高さ(ピッチ)を、デフォルトから上下 20 セミトーン(半音 20 個分)の幅で調整可能です。 |
| 発話速度のチューニング | 発話の速度を通常の 4 倍まで速く、または 4 分の 1 まで遅くすることができます。 |
| ボリュームのゲイン コントロール | 出力の音量を最大 16 db、最小 -96 db の幅で調整可能です。 |
| 統合された REST API と gRPC API | スマートフォン、PC、タブレット、IoT デバイス(例: 自動車、テレビ、スピーカー)など、REST または gRPC リクエストを送信できるすべてのアプリケーションやデバイスと簡単に統合できます。 |
| さまざまな音声形式に柔軟に対応 | テキストを MP3、Linear16、OGG Opus、その他さまざまな音声形式に変換します。 |
| 音声プロファイル | 再生するスピーカーの種類(ヘッドフォン、電話回線など)に応じて音声を最適化できます。 |
料金
Text-to-Speech の料金は、音声への合成のためにサービスに送信された文字数に基づいて、月単位で請求されます。WaveNet 音声の最初の 100 万文字は、毎月無料です。WaveNet 以外の標準音声では、毎月最初の 400 万文字が無料です。無料枠を超えた分の Text-to-Speech の料金は、100 万文字単位で請求されます。
米ドル以外の通貨でお支払いの場合は、Google Cloud SKU に記載されている当該通貨の料金が適用されます。