AI & 機械学習

Cloud Speech-to-Text の精度評価機能のご紹介

2023年5月8日

Google Cloud Japan Team

※この投稿は米国時間 2023 年 4 月 28 日に、Google Cloud blog に投稿されたものの抄訳です。

この投稿では、Cloud Speech UI の最新機能である精度評価をご紹介します。この機能により、Speech-to-Text（STT）API のモデルと構成のベンチマークを簡単かつシームレスに実行できます。STT API は、音声入力やショートコマンドから字幕作成まで、幅広いユースケースに対応します。しかし、STT を最大限に有効利用するには複雑なプロセスがともないます。AI のいかなるユースケースでも、最高レベルの精度を得るには、慎重なテストと微調整による最適な構成の特定が不可欠です。

Google Cloud はお客様からのフィードバックに真摯に耳を傾け、現在および未来の STT API ソリューションの迅速かつ効果的なベンチマークを実現するための手法を検討してきました。以前のお客様と企業ユーザーは、手動でこの作業を行わなければなりませんでした。つまり、API を起動して音声文字変換を実行し、結果を保存してから、コマンドラインツールまたはサードパーティのライブラリを使用するかコードを記述して、STT システムの結果とグラウンドトゥルースファイルを比較する必要がありました。すべてのモデルと構成についてこの処理を繰り返さなければならないため、手間も時間もかかり、エラーが発生しやすい状況にありました。

精度測定の 3 ステップのプロセス

本日ご紹介する新機能により、このプロセスが大幅に簡素化されます。Cloud Speech UI に追加された精度評価機能のインターフェースはユーザーフレンドリーであるため、チームの誰でも簡単に STT API の精度を独自のデータセットと照合して評価できます。ユーザーが音声ファイルをアップロードして目的の STT API の構成とグラウンドトゥルースを指定すると、ベンチマークが自動的に実行されます。プライバシーとセキュリティを最大限に保護するために、アップロードされた音声ファイルの処理はユーザーの Google Cloud テナントプロジェクト内でのみ行われます。

STT API の精度の測定と比較には、業界標準のワードエラー率（WER）を採用しています。これは、さまざまなモデルやデータセットの比較に使用できるシンプルで理解しやすい指標です。この指標は、基準となる音声文字変換の合計ワード数に占めるエラー（挿入、削除、置換）の合計数の比率として計算されます。結果の範囲は 0%（STT システムの出力がグラウンドトゥルースと完全に一致する）～100%（まったく一致しない）です。Google Cloud のツールは STT 出力とグラウンドトゥルースの WER を計算するだけでなく、挿入、置換、削除の各エラーの詳細な内訳も提示するため、サイエンティストとアプリケーション開発者はワークフローを成功させるために必要な情報を的確に入手できます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Accuracy_Evaluation.max-1900x1900.jpg

精度評価機能を使用するには、Speech-to-Text のユーザーインターフェースにログインし、[音声文字変換] タブに移動します。音声ファイルの音声文字変換が完了したら、精度評価のセクションを使用します。セクションの最上部にある [正解をアップロードする] をクリックすると、精度の計算が開始されます。