AI & 機械学習

Google Cloud Text-to-Speech API がカスタム音声に対応

2022年3月11日

Google Cloud Japan Team

※この投稿は米国時間 2022 年 3 月 5 日に、Google Cloud blog に投稿されたものの抄訳です。

昨今では、デジタルアシスタントと会話型インターフェースが増加し、合成音声との会話が当たり前のものになってきています。こうした音声はどのように聞こえますか？多くの場合、毎回同じような音声です。たとえば、私たちは Google アシスタントの声に慣れています。

このたび、Google は Cloud Text-to-Speech（TTS）API でのカスタム音声の一般提供を開始いたします。この新機能では、独自の音声録音を使用してカスタム音声モデルをトレーニングし、他にはないエクスペリエンスを実現できます。

強力なブランドアイデンティティを構築しようとする企業は、インタラクティブ音声レスポンス（IVR）を基盤とするモバイルアプリの操作やカスタマーサービスに独自の音声を使用して、他社とは違うカスタマーエクスペリエンスを提供できます。Google の TTS API は、これまでも音声の静的リストで音声合成サービスを提供してきましたが、今回、カスタム音声により、このような事前定義オプションよりも優れた音声を簡単に作成できるようになりました。

カスタム音声では、録音した音声があれば TTS API の新しい音声ディレクトリを利用できます。カスタム音声 TTS には、高品質なカスタム TTS 音声モデルを生成する際の、音声の要件に関するガイダンスが含まれています。新しいモデルのトレーニングが完了したら、Cloud TTS API の呼び出しでモデル ID を参照するだけで、新しくトレーニングされた音声を使い始めることができます。

Google は、安全で説明責任を重視した AI プロダクトの構築に取り組んでいます。これは倫理性だけの問題ではなく、本番環境での使用において成果を上げるための重要なステップだからです。Google Cloud の責任ある AI への取り組みにおけるガバナンスプロセスの一環として、発生する可能性のある潜在的な有害性を明らかにして緩和するために、カスタム音声 TTS と、その構成メディアとの関係について詳細な倫理的分析を行いました。カスタム音声 TTS を利用する場合は、各ユースケースが Google の AI の原則に沿い、適切な声優の同意が得られていることを確認できるレビュープロセスが用意されています。

さらに、その声優が実際に音声を作成していることを確認するため、Google Cloud が指定する文章（たとえば「私は、合成された Text-to-Speech のカスタム音声を作成するために自分の声が使用されることに同意します」など）の音声ファイルを提出する必要があります。

簡単、迅速、かつスケーラブルな問題解決に、この API をお役立てください。現在、TTS のカスタム音声は次の言語で一般提供されています。