次世代の AI アプリケーションを構築する方法を学びましょう。12 月 13 日に開催される Applied AI Summit にご参加ください。
移動
Text-to-Speech

Text-to-Speech AI

Google の最先端 AI テクノロジーを活用した API を利用して、テキストを自然な音声に変換できます。

新規のお客様には、Text-to-Speech で使用できる無料クレジット $300 分を差し上げます。

  • 自然でスマートな応答で顧客対応を改善

  • デバイスやアプリケーションの音声ユーザー インターフェースでユーザーを引き付ける

  • ユーザーが選ぶ音声と言語に基づいてコミュニケーションをパーソナライズ

利点

忠実度の高い音声

Google の画期的なテクノロジーを導入すれば、人間のような自然なイントネーションの音声を生成できます。DeepMind の専門的な音声合成技術をベースに構築された API が、人間にかなり近い音声を実現します。

豊富な音声の種類

中国語(北京語)、ヒンディー語、スペイン語、アラビア語、ロシア語など、50 以上の言語と言語変種、380 種類以上の音声から選択できます。ユーザーとアプリケーションに最適な音声を選ぶことができます。

独自の音声

他の企業も使用している一般的な音声の代わりに、貴社のブランドを代表するオリジナルの音声を作成して、顧客とのあらゆるタッチポイントに使用できます。

デモ

Text-to-Speech を試してみましょう

テキストを入力し、言語を選択して [Speak It] をクリックすれば、すぐに読み上げられます。

主な機能

主な機能

Neural2 音声

カスタム音声の背後にある最新の研究に基づく音声を使用して、音声エクスペリエンスを多言語化できます。

Studio Voices(プレビュー版)

スタジオ品質の環境で録音された、プロフェッショナルなナレーションのコンテンツでリスナーの注意を引き付けます。ぜひヘッドホンでお試しください。

カスタム音声

独自の音声録音を使用してカスタム音声モデルをトレーニングし、より自然なオリジナルの音声を作成します。自社に合う音声プロファイルを定義、選択でき、音声を変更する必要が生じたときにもすばやく調整可能です。新しくフレーズを録音する必要はありません。

音声のチューニング

選択した音声の高さ(ピッチ)を、デフォルトから上下 20 セミトーン(半音 20 個分)の幅で調整可能です。また、発話の速度を通常の 4 倍まで速く、または遅くすることができます。

テキストと SSML のサポート

SSML タグを使用すると、息つぎ、数字、日時形式、その他の発音上の指示を追加して発話をカスタマイズできます。

すべての機能を表示

ドキュメント

ドキュメント

Google Cloud の基礎

Text-to-Speech の基本

Text-to-Speech API の使用に関する基本的なコンセプトのガイドです。
クイックスタート

クイックスタート: コマンドラインの使用

Google Cloud プロジェクトと認証情報を設定し、テキストから音声を生成するよう Text-to-Speech にリクエストを送信します。
Google Cloud の基礎

サポートされている音声と言語

このプロダクトに関するガイドとリソースをご覧ください。
Google Cloud の基礎

カスタム音声(ベータ版)の概要

カスタム音声機能を使用して、独自のスタジオ品質の音声録音をベースに、より自然なオリジナルの音声を作成する方法をご確認ください。
チュートリアル

WaveNet とその他の合成音声

プレミアム WaveNet 音声など、Text-to-Speech で使用できるさまざまな合成音声について学習します。
チュートリアル

SSML で住所を読み上げる

このチュートリアルでは、音声合成マークアップ言語(SSML)を使用して、いくつかの住所を含むテキスト ファイルを読み上げる方法を説明します。

お探しのものが見つからない場合

ユースケース

ユースケース

使用例
コンタクト センターにおける音声 bot

あらかじめ録音された固定的な音声を再生するのではなく、動的に音声を生成する Dialogflow の音声 bot で、カスタマー サービスにおける音声エクスペリエンスを改善します。発信者に親近感とパーソナルな印象を与える高品質の合成音声で対応します。

コンタクト センターの音声 bot: リファレンス アーキテクチャ
使用例
デバイスでの音声生成

デバイスのテキスト リーダーで人間のような音声を使用することで、ユーザーとの自然なコミュニケーションが可能になります。Speech-to-TextNatural Language を取り入れてエンドツーエンドの音声ユーザー インターフェースを構築し、スムーズで魅力的なインタラクションでユーザー エクスペリエンスを改善します。

デバイスでの音声生成のリファレンス アーキテクチャ
使用例
ユーザー補助対応 EPG(電子番組ガイド)

EPG でテキストを読み上げることによって、ユーザー エクスペリエンスが向上するほか、サービスやアプリケーションのユーザー補助の要件も満たすことができます。EPG デモをお試しください

EPG のテキスト読み上げ機能は簡単に実装できます。

TTS API がユーザー補助対応 EPG を作成する仕組みを示すリファレンス アーキテクチャ

すべての機能

すべての機能

カスタム音声
独自の音声録音を使用してカスタム音声合成モデルをトレーニングし、より自然なオリジナルの音声を作成します。自社に合う音声プロファイルを定義、選択でき、音声を変更する必要が生じたときにもすばやく調整可能です。新しくフレーズを録音する必要はありません。詳細
長い音声合成
Long Audio Synthesis を使用して、最大 100 万バイトの入力を非同期的に合成します。
選択できる音声と言語
40 以上の言語と言語変種、220 種類以上の音声から選択できます(今後も順次追加予定)。
WaveNet 音声
DeepMind の音声生成に関する画期的な研究に基づいて開発された 90 以上の WaveNet 音声を利用すると、実際の人間による発話との差が大きく縮まります。
テキストと SSML のサポート
SSML タグを使用すると、息つぎ、数字、日時形式、その他の発音上の指示を追加して発話をカスタマイズできます。
声の高さのチューニング
選択した音声の高さ(ピッチ)を、デフォルトから上下 20 セミトーン(半音 20 個分)の幅で調整可能です。
発話速度のチューニング
発話の速度を通常の 4 倍まで速く、または遅くすることができます。
ボリュームのゲイン コントロール
出力のボリュームを最大 16 db、最小 -96 db の幅で調整可能です。
REST と gRPC API の統合
スマートフォン、PC、タブレット、IoT デバイス(例: 自動車、テレビ、スピーカー)など、REST または gRPC リクエストを送信できるすべてのアプリケーションやデバイスとの間で簡単に統合できます。
さまざまな音声形式に柔軟に対応
テキストを MP3、Linear16、OGG Opus、その他さまざまな音声形式に変換します。
音声プロファイル
スピーカーの種類(ヘッドホン、電話回線など)に応じて音声を最適化できます。

料金

料金

Text-to-Speech の料金は、音声への合成のためにサービスに送信された文字数に基づいて、月単位で請求されます。WaveNet 音声の最初の 100 万文字は、毎月無料です。WaveNet 以外の標準音声では、毎月最初の 400 万文字が無料です。Text-to-Speech は無料枠以降 100 万文字ごとに課金されます。

米ドル以外の通貨でお支払いの場合は、Google Cloud SKU に記載されている該当の通貨の料金が適用されます。

次のステップ

$300 分の無料クレジットと 20 以上の Always Free プロダクトを活用して、Google Cloud で構築を開始しましょう。

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
コンソール
  • Google の透明性の高い料金設定の手法で費用を削減
  • Google Cloud の従量課金制では、毎月の使用量と、リソース料金の前払い割引に基づいて自動的に割引が適用されます。見積もりをご希望の場合は、今すぐお問い合わせください。
Google Cloud