Text-to-Speech

Google の AI テクノロジーを搭載した API を利用すると、テキストを自然な音声に変換できます。

無料トライアル
  • action/check_circle_24px Sketch で作成。

    自然でスマートな応答で顧客対応を改善

  • action/check_circle_24px Sketch で作成。

    デバイスやアプリケーションの音声ユーザー インターフェースでユーザーを引きつける

  • action/check_circle_24px Sketch で作成。

    ユーザーが選ぶ音声と言語に基づいてコミュニケーションをパーソナライズ

利点

Hi-Fi 音声

Google の画期的なテクノロジーを導入すれば、人間のような自然なイントネーションの音声を生成できます。DeepMind の音声合成に関する専門技術を基に構築された API は、人間にかなり近い音声を実現します。

とても豊富な音声の種類

40 以上の言語と方言で 220 種類以上の音声から選択できます。ユーザーとアプリケーションに最適な音声を選ぶことができます。

独自の音声

他の企業も使用している一般的な音声の代わりに、お客様のブランドを代表する独自の音声を作成して、顧客とのあらゆるタッチポイントに使用できます。

デモ

Text-to-Speech を試してみましょう

テキストを入力し、言語を選択して [Speak It] をクリックすれば、すぐに読み上げられます。

主な機能

主な機能

Custom Voice(ベータ版)

独自の音声録音を使用してカスタム音声合成モデルをトレーニングし、お客様オリジナルのより自然な音声を作成します。新しいフレーズを録音する手間をかけず、企業に合った音声プロファイルを定義、選択して、必要な音声の変更に合わせてすばやく調整できます。 詳細

WaveNet 音声

音声の生成に関する DeepMind の画期的な研究に基づいて開発された 90 以上の WaveNet 音声を利用すると、実際の人間による発話との差が大きく縮まります。

音声のチューニング

選択した音声の高さ(ビッチ)を、デフォルトから上下 20 セミトーン(半音 20 個分)の幅で調整可能です。発話の速度を通常の 4 倍まで速くまたは遅くカスタマイズできます。

テキストと SSML のサポート

SSML タグを使用すると、発話休止、数字、日時形式、その他の発音上の指示を追加して発話をカスタマイズできます。

すべての機能を表示

最新情報

最新情報

Google Cloud のニュースレターにご登録いただくと、サービスの最新情報、イベント情報、スペシャル オファーなどを受け取ることができます。

ドキュメント

ドキュメント

Google Cloud の基礎
Text-to-Speech の基本

Text-to-Speech API の使用に関する基本的なコンセプトのガイドです。

クイックスタート
クイックスタート: コマンドラインの使用

Google Cloud プロジェクトと認証を設定し、Text-to-Speech にリクエストしてテキストから音声を作成します。

Google Cloud の基礎
サポートされている音声と言語

Text-to-Speech でサポートされている言語を確認し、各言語で利用できる音声のサンプルを聞くことができます。

Google Cloud の基礎
Custom Voice(ベータ版)の概要

独自のスタジオ品質の音声録音を使用して、Custom Voice でお客様オリジナルのより自然な音声を作成する方法をご確認ください。

チュートリアル
WaveNet とその他の合成音声

プレミアム WaveNet 音声を含め、Text-to-Speech で使用できるさまざまな合成音声について学習します。

チュートリアル
SSML で住所を読み上げる

このチュートリアルでは、音声合成マークアップ言語(SSML)を使用して、いくつかの住所を含むテキスト ファイルを読み上げる方法を説明します。

ユースケース

ユースケース

ユースケース
コンタクト センターにおける音声 bot

あらかじめ録音された固定的な音声を再生するのではなく、動的に生成される音声を使用して、カスタマー サービスでの音声エクスペリエンスを改善します。発信者に親近感とパーソナルな印象を与える高品質の合成音声で対応します。

コンタクト センターの音声 bot: リファレンス アーキテクチャ
ユースケース
デバイスでの音声生成

デバイスで人間のような自然な音声を再生可能にすることで、ユーザーとの自然なコミュニケーションが実現します。Speech-to-Text を取り入れてエンドツーエンドの音声ユーザー インターフェースを構築し、簡単操作で魅力的なユーザーエクスペリエンスを実現します。

デバイスでの音声生成のリファレンス アーキテクチャ

すべての機能

すべての機能

Custom Voice(ベータ版) 独自の音声録音を使用してカスタム音声合成モデルをトレーニングし、お客様オリジナルのより自然な音声を作成します。新しいフレーズを録音する手間をかけず、企業に合った音声プロファイルを定義、選択して、必要な音声の変更に合わせてすばやく調整できます。 詳細
選択できる音声と言語 40 以上の言語と方言で 220 種類以上の音声から選択できます(今後も順次追加予定)
WaveNet 音声 DeepMind の音声生成に関する画期的な研究に基づいて開発された 90 以上の WaveNet 音声を利用すると、実際の人間による発話との差が大きく縮まります。
テキストと SSML のサポート SSML タグを使用すると、発話休止、数字、日時形式、その他の発音上の指示を追加して発話をカスタマイズできます。
声の高さのチューニング 選択した音声の高さ(ビッチ)を、デフォルトから上下 20 セミトーン(半音 20 個分)の幅で調整できます。
発話速度のチューニング 発話の速度を通常の 4 倍まで速くまたは遅くカスタマイズできます。
ボリュームのゲイン コントロール 出力のボリュームを最大 16 db、最小 -96 db の幅で調整可能です。
REST と gRPC API の統合 スマートフォン、PC、タブレット、IoT デバイス(例: 自動車、テレビ、スピーカー)など、REST または gRPC リクエストを送信できるすべてのアプリケーションやデバイスとの間で簡単に統合できます。
さまざまな音声形式に柔軟に対応 MP3、Linear16、Ogg Opus など、多様な音声形式から選択できます。
音声プロファイル スピーカーの種類(ヘッドホン、電話回線など)に応じて音声を最適化できます。

料金

料金

Text-to-Speech は無料枠以降 100 万文字ごとに課金されます。

米ドル以外の通貨でお支払いの場合は、Google Cloud SKU に記載されている該当通貨の料金が適用されます。