概要
Speech-to-Text のファインチューニングでは、独自の音声データとテキストデータを使用して既存の音声モデルをチューニングし、音声認識サービスの精度を高めることができます。
音声モデルをファインチューニングすると、ベース音声モデルを拡張して、過度な背景ノイズ(サイレン、大きなノイズ、音楽や会話など)、商品名のような独自の語彙や用語、特有のアクセントなどが含まれる音響状況での音声文字変換機能を改善することができます。
音声モデルのファインチューニングは、Google Cloud コンソールと API の両方から利用でき、ノーコードの統合環境で専用の音声モデルのトレーニング、評価、デプロイを行うことができます。トレーニングでは、音声条件を代表する音声データのみをトレーニング セットとして提供します。参照用の音声文字変換は使用しません。ただし、評価セットの一部として音声データと参照用の音声文字変換を提供する必要があります。
次のステップ
アプリケーションで音声モデルをファインチューニングするには、以下のリソースを参照してモデルをデプロイします。