【Next Tokyo ’24】セッションのアーカイブ動画とスライドを公開中です。生成 AI を中心とした Google Cloud のアップデートや顧客事例をチェックしましょう。
移動
Text-to-Speech

Text-to-Speech AI

Google の最先端 AI テクノロジーを活用した API を利用して、テキストを自然な音声に変換できます。

新規のお客様には、Text-to-Speech や他の Google Cloud プロダクトをお試しいただける無料クレジットを最大 $300 分差し上げます。

  • 自然でスマートな応答で顧客対応を改善

  • デバイスやアプリケーションの音声ユーザー インターフェースでユーザーを引き付ける

  • ユーザーが選ぶ音声と言語に基づいてコミュニケーションをパーソナライズ

利点

忠実度の高い音声

Google の画期的なテクノロジーを導入すれば、人間のような自然なイントネーションの音声を生成できます。DeepMind の専門的な音声合成技術をベースに構築された API が、人間にかなり近い音声を実現します。

豊富な音声の種類

中国語(北京語)、ヒンディー語、スペイン語、アラビア語、ロシア語など、50 以上の言語と言語変種、380 種類以上の音声から選択できます。ユーザーとアプリケーションに最適な音声を選ぶことができます。

独自の音声

他の企業も使用している一般的な音声の代わりに、貴社のブランドを代表するオリジナルの音声を作成して、顧客とのあらゆるタッチポイントに使用できます。

デモ

Text-to-Speech を試してみましょう

テキストを入力し、言語を選択して [Speak It] をクリックすれば、すぐに読み上げられます。

主な機能

主な機能

ジャーニー音声(試験運用版)

AudioLM に基づく最新の自然な会話音声を使用して、魅力的なエージェントを構築します。

スタジオ音声

スタジオ品質の環境で録音された、プロフェッショナルなナレーションのコンテンツでリスナーの注意を引き付けます。ぜひヘッドホンでお試しください。

Neural2 音声

カスタム音声の背後にある最新の研究に基づく音声を使用して、音声エクスペリエンスを多言語化できます。

カスタム音声

独自の音声録音を使用してカスタム音声モデルをトレーニングし、より自然なオリジナルの音声を作成します。自社に合う音声プロファイルを定義、選択でき、音声を変更する必要が生じたときにもすばやく調整可能です。新しくフレーズを録音する必要はありません。

テキストと SSML のサポート

SSML タグを使用すると、息つぎ、数字、日時形式、その他の発音上の指示を追加して発話をカスタマイズできます。

すべての機能を表示

ドキュメント

ドキュメント

Google Cloud Basics

Text-to-Speech の基本

Text-to-Speech API の使用に関する基本的なコンセプトのガイドです。
Quickstart

クイックスタート: コマンドラインの使用

Google Cloud プロジェクトと認証情報を設定し、テキストから音声を生成するよう Text-to-Speech にリクエストを送信します。
Google Cloud Basics

サポートされている音声と言語

このプロダクトに関するガイドとリソースをご覧ください。
Google Cloud Basics

カスタム音声(ベータ版)の概要

カスタム音声機能を使用して、独自のスタジオ品質の音声録音をベースに、より自然なオリジナルの音声を作成する方法をご確認ください。
Tutorial

WaveNet とその他の合成音声

プレミアム WaveNet 音声など、Text-to-Speech で使用できるさまざまな合成音声について学習します。
Tutorial

SSML で住所を読み上げる

このチュートリアルでは、音声合成マークアップ言語(SSML)を使用して、いくつかの住所を含むテキスト ファイルを読み上げる方法を説明します。

お探しのものが見つからない場合

ユースケース

ユースケース

使用例
コンタクト センターにおける音声 bot

あらかじめ録音された固定的な音声を再生するのではなく、動的に音声を生成する Dialogflow の音声 bot で、カスタマー サービスにおける音声エクスペリエンスを改善します。発信者に親近感とパーソナルな印象を与える高品質の合成音声で対応します。

コンタクト センターの音声 bot: リファレンス アーキテクチャ
使用例
デバイスでの音声生成

デバイスのテキスト リーダーで人間のような音声を使用することで、ユーザーとの自然なコミュニケーションが可能になります。Speech-to-TextNatural Language を取り入れてエンドツーエンドの音声ユーザー インターフェースを構築し、スムーズで魅力的なインタラクションでユーザー エクスペリエンスを改善します。

デバイスでの音声生成のリファレンス アーキテクチャ
使用例
ユーザー補助対応 EPG(電子番組ガイド)

EPG でテキストを読み上げることによって、ユーザー エクスペリエンスが向上するほか、サービスやアプリケーションのユーザー補助の要件も満たすことができます。EPG デモをお試しください

EPG のテキスト読み上げ機能は簡単に実装できます。

TTS API がユーザー補助対応 EPG を作成する仕組みを示すリファレンス アーキテクチャ

すべての機能

すべての機能

カスタム音声
独自の音声録音を使用してカスタム音声合成モデルをトレーニングし、より自然なオリジナルの音声を作成します。自社に合う音声プロファイルを定義、選択でき、音声を変更する必要が生じたときにもすばやく調整可能です。新しくフレーズを録音する必要はありません。詳細
長い音声合成
Long Audio Synthesis を使用して、最大 100 万バイトの入力を非同期的に合成します。
選択できる音声と言語
40 以上の言語と言語変種、220 種類以上の音声から選択できます(今後も順次追加予定)。
WaveNet 音声
DeepMind の音声生成に関する画期的な研究に基づいて開発された 90 以上の WaveNet 音声を利用すると、実際の人間による発話との差が大きく縮まります。
テキストと SSML のサポート
SSML タグを使用すると、息つぎ、数字、日時形式、その他の発音上の指示を追加して発話をカスタマイズできます。
声の高さのチューニング
選択した音声の高さ(ピッチ)を、デフォルトから上下 20 セミトーン(半音 20 個分)の幅で調整可能です。
発話速度のチューニング
発話の速度を通常の 4 倍まで速く、または遅くすることができます。
ボリュームのゲイン コントロール
出力のボリュームを最大 16 db、最小 -96 db の幅で調整可能です。
REST と gRPC API の統合
スマートフォン、PC、タブレット、IoT デバイス(例: 自動車、テレビ、スピーカー)など、REST または gRPC リクエストを送信できるすべてのアプリケーションやデバイスとの間で簡単に統合できます。
さまざまな音声形式に柔軟に対応
テキストを MP3、Linear16、OGG Opus、その他さまざまな音声形式に変換します。
音声プロファイル
スピーカーの種類(ヘッドホン、電話回線など)に応じて音声を最適化できます。

料金

料金

Text-to-Speech の料金は、音声への合成のためにサービスに送信された文字数に基づいて、月単位で請求されます。WaveNet 音声の最初の 100 万文字は、毎月無料です。WaveNet 以外の標準音声では、毎月最初の 400 万文字が無料です。Text-to-Speech は無料枠以降 100 万文字ごとに課金されます。

米ドル以外の通貨でお支払いの場合は、Google Cloud SKU に記載されている該当の通貨の料金が適用されます。

次のステップ

新規のお客様には、Text-to-Speech や他の Google Cloud プロダクトを試すための無料クレジット $300 分を差し上げます。

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
コンソール
  • Google Cloud プロダクト
  • 100 種類を超えるプロダクトをご用意しています。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。また、すべてのお客様に 25 以上のプロダクトを無料でご利用いただけます(毎月の使用量上限があります)。
Google Cloud