Gemini 3 をお試しください。Gemini Enterprise Agent Platform における推論、コーディング、マルチモーダル理解に最適なモデルです。

Text-to-Speech

Text-to-Speech AI

Google の最先端 AI テクノロジーを活用した API を利用して、テキストを自然な音声に変換できます。

新規のお客様には、Text-to-Speech やその他の Google Cloud プロダクトをお試しいただける無料クレジット最大 $300 分を差し上げます。

自然な AI 音声で、インテリジェントかつリアルなユーザー対応を実現
テキスト読み上げ機能の統合により、アプリの音声インターフェースを構築
ユーザーの音声と言語の設定に基づいて、コミュニケーションと音声をパーソナライズ

Text-to-Speech API を使用して合成音声を作成する方法を学習する

セルフペースラボを開始

利点

高忠実度の音声

Google の画期的なテクノロジーを導入すれば、人間のような自然なイントネーションの音声を生成できます。DeepMind の専門的な音声合成技術をベースに構築された API が、まるで人間が話しているかのような音声を実現します。

豊富な種類の音声

中国語（北京語）、ヒンディー語、スペイン語、アラビア語、ロシア語など、75 以上の言語と言語変種にわたる 380 種類以上の音声から選択できます。ユーザーとアプリケーションに最適な音声を選ぶことができます。

独自の音声

他社と同じ一般的な音声を使用するのではなく、貴社のブランドを象徴するオリジナルの音声を作成して、顧客とのあらゆるタッチポイントに使用できます。

デモ

Text-to-Speech を試してみる

テキストを入力し、言語を選択して [Speak It] をクリックすれば、すぐに読み上げられます。

主な機能

Gemini-TTS

短いスニペットから長編のナレーションまで、単一または複数の話者の音声を合成し、文脈を維持できます。スタイル、アクセント、速度、トーン、感情表現を詳細に指定できます。すべて、75 以上の言語 / 地域での自然言語による簡単なプロンプトで制御可能です。詳しくは Media Studio にアクセスするか、こちらのドキュメントをご確認ください。

Chirp 3: HD 音声

AudioML に基づく最新の自然な会話音声を使用して、魅力的なエージェントを構築できます。これらの音声は、高品質なオーディオと低レイテンシのストリーミングに加えて、人間の非流暢性やさまざまな感情表現、正確なイントネーションを再現した自然な発話を実現します。詳しくは Media Studio にアクセスするか、こちらのドキュメントをご確認ください。

Chirp 3: インスタントカスタム音声

わずか 10 秒の音声入力から、パーソナライズされた音声モデルを作成できます。ビデオゲーム、オーディオブック、ポッドキャストなどに最適です。30 以上の言語 / 地域で利用できます。詳しくは Media Studio にアクセスするか、こちらのドキュメントをご確認ください。

プロンプト、テキスト、SSML のサポート

モデルのサポート状況に応じて、シンプルな平文スクリプト、SSML タグ、さらには効果的な自然言語プロンプトも使用して、数値と時間の形式、話し方、発音、感情を制御できます。詳しくは Media Studio にアクセスするか、こちらのドキュメントをご確認ください。

Gemini-TTS

Gemini-TTS で音声合成を詳細に制御する方法を紹介します。自然言語プロンプトを使用して、スタイル、トーン、速度、感情表現を指定できます。

Quickstart

Chirp 3: HD 音声の概要

「Chirp 3: HD 音声」を使用して、リアルで感情に訴える音声を合成する方法と、高度な設定を使い、スクリプトのベストプラクティスに沿って音声を微調整する方法を学びます。

Quickstart

Chirp 3: インスタントカスタム音声の概要

わずか 10 秒の音声録音を使用して、組織向けにパーソナライズされた独自の音声モデルを作成できます。個人の声を迅速に生成することが可能です。

Tutorial

SSML で住所を読み上げる

音声合成マークアップ言語（SSML）を使用して、テキストファイル内の住所を読み上げる方法を学べます。

Google Cloud Basics

Text-to-Speech の基本

Text-to-Speech API の使用に関する基本的なコンセプトのガイドです。

Google Cloud Basics

サポートされている音声と言語

このプロダクトに関するガイドとリソースをご覧ください。

お探しのものが見つからない場合

リリースノート

Text-to-Speech の最新リリースノートを読む

ユースケース

コンタクトセンターにおける voicebot

あらかじめ録音された定型文の音声を再生するのではなく、動的に音声を生成する Customer Experience Agent Studio の voicebot で、カスタマーサービスにおける音声エクスペリエンスを改善します。発信者に親近感とパーソナルな印象を与える高品質の合成音声で対応できるようになります。

ユースケース

デバイスでの音声生成

デバイスをテキストリーダーとして使用し、人間のような自然な音声を再生可能にすることで、ユーザーとの自然なコミュニケーションが実現します。Speech-to-Text と Natural Language を取り入れてエンドツーエンドの音声ユーザーインターフェースを構築し、スムーズかつ魅力的なインタラクションでユーザーエクスペリエンスを改善しましょう。

ユースケース

ユーザー補助対応 EPG（電子番組ガイド）

EPG でテキストを読み上げることによって、ユーザーエクスペリエンスが向上するほか、サービスやアプリケーションのユーザー補助の要件も満たすことができます。EPG のデモをお試しください。

EPG にテキスト読み上げ機能を簡単に実装することで、ユーザーエクスペリエンスが向上するほか、サービスやアプリケーションのユーザー補助の要件も満たすことができます。

すべての機能

ストリーミングの音声合成	ストリーミングの音声合成による超低レイテンシの音声で AI エージェントを強化し、シームレスなリアルタイムの会話を実現します。
長尺音声の合成	長尺音声の合成では、最大 100 万バイトの入力を非同期で合成できます。
選択できる音声と言語	75 以上の言語と言語変種にわたり、380 種類以上の音声から選択できます（今後も順次追加予定）。
テキストと SSML のサポート	SSML タグを使用して、沈黙の「間」、数字、日時形式、その他の発音上の指示を追加することで、発話をカスタマイズできます。
声の高さのチューニング	選択した音声の高さ（ピッチ）を、デフォルトから上下 20 セミトーン（半音 20 個分）の幅で調整できます。
発話速度のチューニング	発話の速度を通常の 4 倍から 4 分の 1 までの範囲で調整できます。
ボリュームのゲインコントロール	出力の音量を最大 16 db、最小 -96 db の幅で調整可能です。
統合された REST API と gRPC API	スマートフォン、PC、タブレット、IoT デバイス（例: 自動車、テレビ、スピーカー）など、REST または gRPC リクエストを送信できるあらゆるアプリケーションやデバイスと簡単に統合できます。
さまざまな音声形式に柔軟に対応	テキストを MP3、Linear16、OGG Opus など、さまざまな音声形式に変換できます。
音声プロファイル	再生するスピーカーの種類（ヘッドフォン、電話回線など）に応じて音声を最適化できます。

料金

Text-to-Speech の料金は、音声への合成のためにサービスに送信された文字数に基づいて、月単位で請求されます。WaveNet 音声は、毎月 100 万文字まで無料でご利用いただけます。WaveNet 以外の標準音声は、毎月 400 万文字までが無料です。無料枠を超えた分の Text-to-Speech の料金は、100 万文字単位で課金されます。

米ドル以外の通貨でお支払いの場合は、Google Cloud SKU に記載されている該当の通貨の料金が適用されます。

次のステップ

新規のお客様には、Text-to-Speech やその他の Google Cloud プロダクトをお試しいただける無料クレジット $300 分を差し上げます。

開始にあたりサポートが必要な場合
お問い合わせ
信頼できるパートナーと連携する
パートナーを探す
もっと見る
すべてのプロダクトを見る