モデルを評価する

Cloud Speech-to-Text コンソールのベンチマーク機能を使用して、Speech-to-Text V2 API で使用されている音声文字変換モデルの精度を測定します。

Cloud Speech-to-Text コンソールは、事前トレーニング済みモデルとカスタム Speech-to-Text モデルの視覚的なベンチマークの実施を可能にします。複数の音声文字変換モデル間でワードエラー率(WER)の評価指標を比較することで、認識品質を検査し、アプリケーションに最適なモデルを決定できます。

始める前に

Google Cloud アカウントに登録してプロジェクトを作成し、カスタム音声モデルをトレーニングして、エンドポイントを使用してデプロイしたことを確認します。

グラウンド トゥルース データセットを作成する

カスタム ベンチマーク データセットを作成するには、本番環境の音声文字変換モデルに対して発生するトラフィックの種類を正確に反映した音声サンプルを収集します。これらの音声ファイルの合計再生時間は、30 分以上かつ 10 時間以下であることが理想的です。データセットを作成するには、以下の作業を行う必要があります。

  1. 任意の Cloud Storage バケットに、データセットの音声ファイルとテキスト ファイルを保存するディレクトリを作成します。
  2. データセット内のすべての音声ファイルに対して、一定の精度を備えた音声文字変換を作成します。音声ファイル(example_audio_1.wav など)ごとに、対応するグラウンド トゥルース テキスト ファイル(example_audio_1.txt)を作成する必要があります。このサービスは、Cloud Storage バケット内の音声とテキストのペアを使用してデータセットを構築します。

モデルのベンチマークを行う

カスタム Speech-to-Text モデルとベンチマーク データセットを使用してモデルの精度を評価し、精度の測定と改善に関するガイドに沿って操作します。