モデル適応を使用して、Speech-to-Text から取得する音声文字変換の結果の精度を改善できます。モデル適応機能では、音声データの中で Speech-to-Text がより頻繁に認識しなければならない単語やフレーズを、他の候補よりも多く指定できます。モデル適応は、特に次のようなユースケースで音声文字変換の精度を改善するうえで有用です。
- 頻繁に出現する可能性が高い単語やフレーズが音声に含まれている。
- まれにしか使用されない単語(固有名詞など)や一般的には使用されない単語が音声に含まれている可能性がある。
- 音声に雑音が入っていたり、はっきりと聞こえない。
この機能の使用方法について詳しくは、モデル適応を使用して音声文字変換の結果を改善するをご覧ください。モデル適応リクエストごとのフレーズと文字の制限について詳しくは、割り当てと上限をご覧ください。すべてのモデルが音声適応をサポートしているわけではありません。適応をサポートするモデルを確認するには、言語サポートをご覧ください。
コードサンプル
音声適応は Speech-to-Text のオプション構成で、必要に応じて音声文字変換の結果をカスタマイズするために使用できます。認識リクエストの本文の構成については、RecognitionConfig
のドキュメントをご覧ください。
次のコードサンプルでは、SpeechAdaptation リソース(PhraseSet
、CustomClass
、モデル適応ブースト)を使用して音声文字変換の精度を改善する方法を示しています。将来のリクエストで PhraseSet
または CustomClass
を使用するには、リソース作成時にレスポンスで返されたリソース name
をメモします。
ご使用の言語で利用可能なビルド済みクラスの一覧については、サポートされているクラストークンをご覧ください。
Python
Speech-to-Text 用のクライアント ライブラリをインストールして使用する方法については、Speech-to-Text クライアント ライブラリをご覧ください。 詳細については、Speech-to-Text の Python API リファレンス ドキュメントをご覧ください。
Speech-to-Text に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証を設定するをご覧ください。