【Next Tokyo】120 以上のセッションをアーカイブ公開中。話題の Gemini、生成 AI、AI エージェントなどの Google Cloud のアップデートや顧客事例をチェックしましょう。

Text-to-Speech

Text-to-Speech AI

Google の最先端 AI テクノロジーを活用した API を利用して、テキストを自然な音声に変換できます。

新規のお客様には、Text-to-Speech や他の Google Cloud プロダクトをお試しいただける無料クレジットを最大 $300 分差し上げます。

自然でスマートな応答で顧客対応を改善
デバイスやアプリケーションの音声ユーザーインターフェースでユーザーを引き付ける
ユーザーが選ぶ音声と言語に基づいてコミュニケーションをパーソナライズ

Text-to-Speech API を使用して合成音声を作成する方法を学習する

セルフペースラボを開始

利点

忠実度の高い音声

Google の画期的なテクノロジーを導入すれば、人間のような自然なイントネーションの音声を生成できます。DeepMind の専門的な音声合成技術をベースに構築された API が、人間にかなり近い音声を実現します。

豊富な音声の種類

中国語（北京語）、ヒンディー語、スペイン語、アラビア語、ロシア語など、50 以上の言語と言語変種、380 種類以上の音声から選択できます。ユーザーとアプリケーションに最適な音声を選ぶことができます。

独自の音声

他の企業も使用している一般的な音声の代わりに、貴社のブランドを代表するオリジナルの音声を作成して、顧客とのあらゆるタッチポイントに使用できます。

デモ

Text-to-Speech を試してみましょう

テキストを入力し、言語を選択して [Speak It] をクリックすれば、すぐに読み上げられます。

主な機能

Chirp 3: HD 音声

AudioLM に基づく最新の自然な会話音声を使用して、魅力的なエージェントを構築します。これらの音声は、高品質なオーディオ、低レイテンシのストリーミング、人間の非流暢性や正確なイントネーションを再現した自然な発話を提供します。

スタジオ音声

スタジオ品質の環境で録音された、プロフェッショナルなナレーションのコンテンツでリスナーの注意を引き付けます。ぜひヘッドフォンでお試しください。

複数のスピーカーによる会話を生成して、インタラクティブなシナリオを作成できるようになりました。

Neural2 音声

カスタム音声の背後にある最新の研究に基づく音声を使用して、音声エクスペリエンスを多言語化できます。

インスタントカスタム音声

わずか 10 秒の音声入力から、パーソナライズされた音声モデルを作成できます。早期アクセスでプレビュー版をお試しください。

テキストと SSML のサポート

SSML タグを使用すると、息つぎ、数字、日時形式、その他の発音上の指示を追加して発話をカスタマイズできます。

Text-to-Speech の基本

Text-to-Speech API の使用に関する基本的なコンセプトのガイドです。

Quickstart

クイックスタート: コマンドラインの使用

Google Cloud プロジェクトと認証情報を設定し、テキストから音声を生成するよう Text-to-Speech にリクエストを送信します。

Google Cloud Basics

サポートされている音声と言語

このプロダクトに関するガイドとリソースをご覧ください。

Google Cloud Basics

インスタントカスタム音声の概要

10 秒間の録音からカスタム音声を作成する方法をご確認ください。

Tutorial

WaveNet とその他の合成音声

プレミアム WaveNet 音声など、Text-to-Speech で使用できるさまざまな合成音声について学習します。

Tutorial

SSML で住所を読み上げる

このチュートリアルでは、音声合成マークアップ言語（SSML）を使用して、いくつかの住所を含むテキストファイルを読み上げる方法を説明します。

お探しのものが見つからない場合

リリースノート

Text-to-Speech の最新リリースノートを読む

ユースケース

使用例

コンタクトセンターにおける音声 bot

あらかじめ録音された固定的な音声を再生するのではなく、動的に音声を生成する Dialogflow の音声 bot で、カスタマーサービスにおける音声エクスペリエンスを改善します。発信者に親近感とパーソナルな印象を与える高品質の合成音声で対応します。

使用例

デバイスでの音声生成

デバイスのテキストリーダーで人間のような音声を使用することで、ユーザーとの自然なコミュニケーションが可能になります。Speech-to-Text と Natural Language を取り入れてエンドツーエンドの音声ユーザーインターフェースを構築し、スムーズで魅力的なインタラクションでユーザーエクスペリエンスを改善します。

使用例

ユーザー補助対応 EPG（電子番組ガイド）

EPG でテキストを読み上げることによって、ユーザーエクスペリエンスが向上するほか、サービスやアプリケーションのユーザー補助の要件も満たすことができます。EPG デモをお試しください。

EPG のテキスト読み上げ機能は簡単に実装できます。

ソリューションの生成

解決したい問題は何ですか？

What you'll get:

手順ガイド

リファレンスアーキテクチャ

利用可能な事前構築済みソリューション

このサービスは Vertex AI を使用して構築されました。ご利用いただけるのは 18 歳以上のユーザーのみです。機密情報や個人情報は入力しないでください。

すべての機能

インスタントカスタム音声	独自に録音した音声からパーソナライズされた音声モデルを作成し、オリジナルの自然な音声を生成して利用できます。個人の声を迅速に生成することが可能で、これを Cloud TTS API による音声の合成に利用できます。ストリーミングと長文テキストの両方に対応しています。詳細
長い音声合成	Long Audio Synthesis を使用して、最大 100 万バイトの入力を非同期的に合成します。
選択できる音声と言語	40 以上の言語と言語変種、220 種類以上の音声から選択できます（今後も順次追加予定）。
WaveNet 音声	DeepMind の音声生成に関する画期的な研究に基づいて開発された 90 以上の WaveNet 音声を利用すると、実際の人間による発話との差が大きく縮まります。
テキストと SSML のサポート	SSML タグを使用すると、息つぎ、数字、日時形式、その他の発音上の指示を追加して発話をカスタマイズできます。
声の高さのチューニング	選択した音声の高さ（ピッチ）を、デフォルトから上下 20 セミトーン（半音 20 個分）の幅で調整可能です。
発話速度のチューニング	発話の速度を通常の 4 倍まで速く、または遅くすることができます。
ボリュームのゲインコントロール	出力のボリュームを最大 16 db、最小 -96 db の幅で調整可能です。
REST と gRPC API の統合	スマートフォン、PC、タブレット、IoT デバイス（例: 自動車、テレビ、スピーカー）など、REST または gRPC リクエストを送信できるすべてのアプリケーションやデバイスとの間で簡単に統合できます。
さまざまな音声形式に柔軟に対応	テキストを MP3、Linear16、OGG Opus、その他さまざまな音声形式に変換します。
音声プロファイル	スピーカーの種類（ヘッドホン、電話回線など）に応じて音声を最適化できます。

料金

Text-to-Speech の料金は、音声への合成のためにサービスに送信された文字数に基づいて、月単位で請求されます。WaveNet 音声の最初の 100 万文字は、毎月無料です。WaveNet 以外の標準音声では、毎月最初の 400 万文字が無料です。Text-to-Speech は無料枠以降 100 万文字ごとに課金されます。

米ドル以外の通貨でお支払いの場合は、Google Cloud SKU に記載されている該当の通貨の料金が適用されます。

次のステップ

新規のお客様には、Text-to-Speech や他の Google Cloud プロダクトを試すための無料クレジット $300 分を差し上げます。

開始にあたりサポートが必要な場合
お問い合わせ
信頼できるパートナーと連携する
パートナーを探す
もっと見る
すべてのプロダクトを見る