Cloud Speech-to-Text の精度評価機能のご紹介
Google Cloud Japan Team
※この投稿は米国時間 2023 年 4 月 28 日に、Google Cloud blog に投稿されたものの抄訳です。
この投稿では、Cloud Speech UI の最新機能である精度評価をご紹介します。この機能により、Speech-to-Text(STT)API のモデルと構成のベンチマークを簡単かつシームレスに実行できます。STT API は、音声入力やショート コマンドから字幕作成まで、幅広いユースケースに対応します。しかし、STT を最大限に有効利用するには複雑なプロセスがともないます。AI のいかなるユースケースでも、最高レベルの精度を得るには、慎重なテストと微調整による最適な構成の特定が不可欠です。
Google Cloud はお客様からのフィードバックに真摯に耳を傾け、現在および未来の STT API ソリューションの迅速かつ効果的なベンチマークを実現するための手法を検討してきました。以前のお客様と企業ユーザーは、手動でこの作業を行わなければなりませんでした。つまり、API を起動して音声文字変換を実行し、結果を保存してから、コマンドライン ツールまたはサードパーティのライブラリを使用するかコードを記述して、STT システムの結果とグラウンド トゥルース ファイルを比較する必要がありました。すべてのモデルと構成についてこの処理を繰り返さなければならないため、手間も時間もかかり、エラーが発生しやすい状況にありました。
精度測定の 3 ステップのプロセス
本日ご紹介する新機能により、このプロセスが大幅に簡素化されます。Cloud Speech UI に追加された精度評価機能のインターフェースはユーザー フレンドリーであるため、チームの誰でも簡単に STT API の精度を独自のデータセットと照合して評価できます。ユーザーが音声ファイルをアップロードして目的の STT API の構成とグラウンド トゥルースを指定すると、ベンチマークが自動的に実行されます。プライバシーとセキュリティを最大限に保護するために、アップロードされた音声ファイルの処理はユーザーの Google Cloud テナント プロジェクト内でのみ行われます。
STT API の精度の測定と比較には、業界標準のワードエラー率(WER)を採用しています。これは、さまざまなモデルやデータセットの比較に使用できるシンプルで理解しやすい指標です。この指標は、基準となる音声文字変換の合計ワード数に占めるエラー(挿入、削除、置換)の合計数の比率として計算されます。結果の範囲は 0%(STT システムの出力がグラウンド トゥルースと完全に一致する)~100%(まったく一致しない)です。Google Cloud のツールは STT 出力とグラウンド トゥルースの WER を計算するだけでなく、挿入、置換、削除の各エラーの詳細な内訳も提示するため、サイエンティストとアプリケーション開発者はワークフローを成功させるために必要な情報を的確に入手できます。
精度評価機能を使用するには、Speech-to-Text のユーザー インターフェースにログインし、[音声文字変換] タブに移動します。音声ファイルの音声文字変換が完了したら、精度評価のセクションを使用します。セクションの最上部にある [正解をアップロードする] をクリックすると、精度の計算が開始されます。
精度に関する詳細情報
この新機能の使用方法について詳しくはこちらをご覧ください。また、本番環境向けの音声文字変換システムでの精度の測定方法について詳しくは、こちらのドキュメントをご覧ください。
今後、Cloud Speech UI の精度評価機能を活用して有用な分析情報を手に入れ、改良を積み重ねていく事例を目にできることを楽しみにしています。Google Cloud は今後も、クラス最高の Speech-to-Text システムで皆様を支援していきます。