モデルのトレーニングと管理

API を使用すると、コードを必要とせずにカスタム Speech-to-Text モデルを作成してトレーニングし、既存の Speech-to-Text モデルにおける認識精度を改善できます。このフルマネージドサービスでは、コンピューティングリソースのプロビジョニング、トレーニングアプリケーションコードの実行、トレーニングジョブの終了後にコンピューティングリソースの削除が自動的に行われます。これにより、あらゆるダウンストリームアプリケーションに役立つ、完全にファインチューニングされた音声文字変換モデルが得られます。

ML モデルと同様に、カスタム Speech-to-Text モデルのトレーニングは通常、反復的なものです。出発点としてベースモデルを選択し、テキストデータセットと音声データセットでファインチューニングしてから、モデルの認識品質をテストします。結果が期待どおりでない場合は、異なる組み合わせのデータで新しいモデルを再トレーニングするか、再度テストする、またはドメインで音声文字変換に直接使用します。

始める前に

Google Cloud アカウントに登録して Google Cloud プロジェクトを作成し、Speech-to-Text API を有効にしていることを確認してください。 Google Cloud コンソールで [Speech] を選択し、[Speech-to-Text API] に移動します。左側のナビゲーションバーの [カスタムモデル] セクションで操作します。

カスタムモデルを作成する

まず、カスタム Speech-to-Text モデルを作成し、モデルのパラメータ（ベースモデルや音声文字変換の言語など）を定義します。

[作成] をクリックして、カスタムモデルを作成します。
モデル名を入力します。モデル名は表示に使用され、API リクエストと Google Cloud Speech コンソールで参照されます。
モデルの説明を入力します。
ユースケースに最適な [ベースモデル] を選択します。
モデルの音声文字変換 [言語] を選択します。
トレーニングを行う [リージョン] を選択します。
[続行] をクリックします。

カスタム Speech-to-Text モデルの作成ワークフローのスクリーンショット。カスタムモデルに必要なフィールドが示されています

カスタム Speech-to-Text モデルジョブの定義を完了してトレーニングを開始するには、トレーニングデータセットと検証データセットを定義する必要があります。

有効な Cloud Storage ディレクトリ URI を指定して、トレーニングデータセット を選択します。音声ファイルとテキストファイルのみが存在し、音声の合計時間がトレーニングデータセットの要件を満たしていることを確認します。
有効な Cloud Storage ディレクトリ URI を指定して、検証データセットを選択します。音声ファイルとテキストファイルのみが存在し、音声の合計時間が検証データセットの要件を満たしていることを確認します。
[作成] をクリックしてトレーニングプロセスを開始します。

十分な音声時間がインデックスに登録されていない場合や、ファイルがガイドラインを遵守していない場合、トレーニングジョブは失敗します。

カスタム Speech-to-Text モデルの作成ワークフローのスクリーンショット。カスタムモデルのトレーニングデータセットと検証データセットに必要なフィールドが示されています

トレーニングジョブは、Google システム内の他のジョブの背後でキューに入れられる場合があります。モデルのトレーニングには、データセットのサイズに応じて数時間から数日を要する可能性があります。モデルのトレーニングが完了すると、状態には有効のフラグが付けられます。

カスタムモデルを削除する

始める前に、エンドポイントを介してカスタム Speech-to-Text モデルに転送されているトラフィックが存在しないことを確認してください。エンドポイントを削除すると、リクエストが処理されなくなります。

[カスタムモデル] セクションの [モデル] タブに移動します。
クリックしてオプションを開き、[削除] をクリックします。しばらくすると、カスタム Speech-to-Text モデルがすべてのエンドポイントとともに削除され、トラフィックが処理されなくなります。

カスタムモデルのリストを取得する

[カスタムモデル] セクションで [モデル] を選択すると、すべてのカスタム Speech-to-Text モデル（トレーニング中のモデル、アクティブなモデル、削除中のモデルを含む）を一覧表示できます。

カスタム Speech-to-Text モデルリストのワークフローのスクリーンショット。作成済みのすべてのカスタムモデルを含むテーブルが示されています

次のステップ

アプリケーションでカスタム音声モデルを活用するには、次のリソースをご覧ください。