API を使用すると、コードを必要とせずにカスタム Speech-to-Text モデルを作成してトレーニングし、既存の Speech-to-Text モデルにおける認識精度を改善できます。このフルマネージド サービスでは、コンピューティング リソースのプロビジョニング、トレーニング アプリケーション コードの実行、トレーニング ジョブの終了後にコンピューティング リソースの削除が自動的に行われます。これにより、あらゆるダウンストリーム アプリケーションに役立つ、完全にファインチューニングされた音声文字変換モデルが得られます。
ML モデルと同様に、カスタム Speech-to-Text モデルのトレーニングは通常、反復的なものです。出発点としてベースモデルを選択し、テキスト データセットと音声データセットでファインチューニングしてから、モデルの認識品質をテストします。結果が期待どおりでない場合は、異なる組み合わせのデータで新しいモデルを再トレーニングするか、再度テストする、またはドメインで音声文字変換に直接使用します。
始める前に
Google Cloud アカウントに登録して Google Cloud プロジェクトを作成し、Speech-to-Text API を有効にしていることを確認してください。Google Cloud コンソールで [音声] に移動してから Speech-to-Text API に移動します。左側のナビゲーション バーの [カスタムモデル] セクションで操作します。
カスタムモデルを作成する
まず、カスタム Speech-to-Text モデルを作成し、モデルのパラメータ(ベースモデルや音声文字変換の言語など)を定義します。
- [作成] をクリックして、カスタムモデルを作成します。
- [モデル名] を入力します。モデル名は表示に使用され、API リクエストと Google Cloud Speech コンソールで参照されます。
- モデルの [説明] を入力します。
- ユースケースに最適な [ベースモデル] を選択します。
- モデルの音声文字変換 [言語] を選択します。
- トレーニングを行う [リージョン] を選択します。
- [続行] をクリックします。
カスタム Speech-to-Text モデルジョブの定義を完了してトレーニングを開始するには、トレーニング データセットと検証データセットを定義する必要があります。
- 有効な Cloud Storage ディレクトリ URI を指定して、トレーニング データセット を選択します。音声ファイルとテキスト ファイルのみが存在し、音声の合計時間がトレーニング データセットの要件を満たしていることを確認します。
- 有効な Cloud Storage ディレクトリ URI を指定して、検証データセットを選択します。音声ファイルとテキスト ファイルのみが存在し、音声の合計時間が検証データセットの要件を満たしていることを確認します。
- [作成] をクリックしてトレーニング プロセスを開始します。
十分な音声時間がインデックスに登録されていない場合や、ファイルがガイドラインを遵守していない場合、トレーニング ジョブは失敗します。
トレーニング ジョブは、Google システム内の他のジョブの背後でキューに入れられる場合があります。モデルのトレーニングには、データセットのサイズに応じて数時間から数日を要する可能性があります。モデルのトレーニングが完了すると、状態には有効のフラグが付けられます。
カスタムモデルを削除する
始める前に、エンドポイントを介してカスタム Speech-to-Text モデルに転送されているトラフィックが存在しないことを確認してください。エンドポイントを削除すると、リクエストが処理されなくなります。
- [カスタムモデル] セクションの [モデル] タブに移動します。
- クリックしてオプションを開き、[削除] をクリックします。しばらくすると、カスタム Speech-to-Text モデルがすべてのエンドポイントとともに削除され、トラフィックが処理されなくなります。
カスタムモデルを一覧表示する
[カスタムモデル] セクションで [モデル] を選択すると、すべてのカスタム Speech-to-Text モデル(トレーニング中のモデル、アクティブなモデル、削除中のモデルを含む)を一覧表示できます。
次のステップ
アプリケーションでカスタム音声モデルを活用するには、次のリソースをご覧ください。