ユニバーサル音声モデル(USM)

ユニバーサル音声モデル(USM)は Google が提供する次世代の Speech-to-Text モデルです。このモデルは Google のリサーチチームによる長年の研究の成果を表しています。USM の最初のバージョンがリリースされました。しかし、現在のモデルは新しい画期的な研究の始まりにすぎません。Google では、さらに能力を高めるための取り組みを継続していきます。サービスの向上に伴い、USM のモデルが更新されたり、モデル ID が追加される可能性があります。

ユニバーサル音声モデルは、現行の音声モデルとは異なるアーキテクチャでトレーニングされています。1 つのモデルにさまざまな言語のデータが含まれています。トレーニング データとモデルは統合されていますが、モデルで音声認識を試みる言語を指定する必要があります。USM では、他のモデルが提供している Google の音声認識機能の一部がサポートされていません。詳しくは、以下をご確認ください。また、このモデルでは他の Google 音声モデルと異なる出力を生成することもできます。

モデル ID

USM は Cloud Speech-to-Text API v2 で使用できます。他のモデルと同様に利用できます。

USM モデルのモデル ID は usm です。

認識ツールを作成するときにこのモデルを指定すると、ユニバーサル音声モデル(USM)を利用できます。

料金

限定公開プレビューの期間中、USM は無料でご利用いただけます。モデルの料金については後日お知らせいたします。

利用可能な API メソッド

ユニバーサル音声モデルは、より大規模なバッチで音声を処理します。そのため、他の Google Speech-to-Text モデルのような、真の「リアルタイム」な使用方法には適していない可能性があります。USM は次の API メソッドを通じて利用できます。

  • v2 Speech.Recognize(1 分未満の短い音声信号に適しています)
  • v2 Speech.BatchRecognize(1 分~8 時間の長い音声信号に適しています)

ユニバーサル音声モデルは、次の API メソッドでは使用できません

  • v2 Speech.StreamingRecognize
  • v1 Speech.StreamingRecognize
  • v1 Speech.Recognize
  • v1 Speech.LongRunningRecognize
  • v1p1beta1 Speech.StreamingRecognize
  • v1p1beta1 Speech.Recognize
  • v1p1beta1 Speech.LongRunningRecognize

言語

次の言語コードを指定できます。

  • af-ZA
  • am-ET
  • ar-EG
  • az-AZ
  • be-BY
  • bg-BG
  • bn-BD
  • ca-ES
  • zh-Hans-CN
  • cs-CZ
  • da-DK
  • de-DE
  • el-GR
  • en-AU
  • en-GB
  • en-IN
  • en-US
  • es-US
  • et-EE
  • eu-ES
  • fa-IR
  • fi-FI
  • fil-PH
  • fr-CA
  • fr-FR
  • gl-ES
  • gu-IN
  • iw-IL
  • hi-IN
  • hu-HU
  • hy-AM
  • id-ID
  • is-IS
  • it-IT
  • ja-JP
  • jv-ID
  • ka-GE
  • kk-KZ
  • km-KH
  • kn-IN
  • ko-KR
  • lo-LA
  • lt-LT
  • lv-LV
  • mk-MK
  • ml-IN
  • mn-MN
  • mr-IN
  • ms-MY
  • my-MM
  • no-NO
  • ne-NP
  • nl-NL
  • pa-Guru-IN
  • pl-PL
  • pt-BR
  • ro-RO
  • ru-RU
  • si-LK
  • sk-SK
  • sl-SI
  • sq-AL
  • sr-RS
  • su-ID
  • sv-SE
  • sw
  • ta-IN
  • te-IN
  • th-TH
  • tr-TR
  • uk-UA
  • ur-PK
  • uz-UZ
  • vi-VN
  • yue-Hant-HK
  • zu-ZA
  • as-IN
  • ast-ES
  • bs-BA
  • ceb-PH
  • ckb-IQ
  • cy-GB
  • ha-NG
  • hr-HR
  • kam-KE
  • kea-CV
  • ky-KG
  • lb-LU
  • ln-CD
  • luo-KE
  • mi-NZ
  • mt-MT
  • nso-ZA
  • ny-MW
  • oc-FR
  • or-IN
  • ps-AF
  • sd-IN
  • sn-ZW
  • so-SO
  • tg-TJ
  • wo-SN
  • yo-NG

機能のサポートと制限事項

現在、ユニバーサル音声モデルでは多くの STT API 機能がサポートされていません。具体的な制限事項は次のとおりです。

  • 信頼スコア - API は値を返しますが、実際には信頼スコアではありません。
  • 音声適応 - 適応機能はサポートされていません。
  • ダイアライゼーション - 自動ダイアライゼーションはサポートされていません。チャネル分割はサポートされていません。
  • 句読点 - 発話された句読点はサポートされていません。句読点の自動入力はサポートされていません。
  • 正規化の強制 - サポートされていません。
  • 単語レベルの信頼 - サポートされていません。
  • 言語検出 - サポートされていません。
  • ワード タイミング - サポートされていません。

句読点に関する注意

限定公開プレビューの USM では句読点が生成されません。評価の際にこの点を考慮する必要があります。Google では、USM が適している多くのユースケースでは句読点の自動入力が重要であることを認識しています。この機能を可能な限り早く追加するように取り組んでいます。

Cloud コンソール UI を使ってみる

  1. Google Cloud アカウントを登録して、プロジェクトを作成していることを確認します。USM での使用が許可されたプロジェクトとアカウントを使用する必要があります。
  2. Google Cloud コンソールで [Speech] に移動します。
  3. API が有効になっていない場合は有効にします。
  4. ユニバーサル音声モデルを使用する STT 認識ツールを作成します。

    • 認識ツールのタブに移動して、[作成] をクリックします。

      Speech-to-Text 認識ツールリストのスクリーンショット。

    • [Create Recognizer] ページで、USM の必須フィールドを入力します。

      Speech-to-Text で認識ツールを作成するページのスクリーンショット。

      • 認識ツールの名前を入力します。
      • 現在、USM を使用できるリージョンは us-central1 だけです。[region]、[us-central1] の順に選択します。
      • モデルとして [usm] を選択します。モデルのリストに「usm」が表示されていない場合は、プロジェクトが許可リストに登録されていません。
      • 使用する言語を選択します。テストする言語ごとに 1 つの認識ツールが必要です。
      • 他の機能は選択しないでください。
  5. us-central1 リージョンに STT UI ワークスペースがあることを確認します。新しいワークスペースの作成が必要になる場合があります。

    • 音声文字変換のページ(console.cloud.google.com/speech/transcriptions)にアクセスします。
    • [音声文字変換] ページで [New Transcription] をクリックします。
    • Workspace プルダウンを開き、[NEW WORKSPACE] をクリックして、音声文字変換用のワークスペースを作成します。
    • Create a new workspace サイド ナビゲーションで Browse をクリックします。
    • 新しいバケット アイコンをクリックして、ワークスペースを表す Cloud Storage バケットを作成します。
    • バケットの名前を入力して、[続行] をクリックします。
    • [重要] プルダウンから [region] と [us-central1] を選択して、ユニバーサル音声モデルで音声を処理できるようにしてください。
    • create をクリックして Cloud Storage バケットを作成します。
    • バケットが作成されたら、select をクリックして使用するバケットを選択します。
    • [create] をクリックして、Speech-to-Text UI 用のワークスペースの作成を完了します。
  6. 実際の音声に音声文字変換を行います。

    ファイルの選択またはアップロードを示す音声文字変換の作成ページのスクリーンショット。
    • [New Transcription] ページで、アップロード(Local upload)または既存の Cloud Storage ファイル(Cloud Storage)を指定して、音声ファイルを選択します。UI で音声ファイルのパラメータが自動的に評価されます。
    • [続行] をクリックして [Transcription options] に移動します
    ユニバーサル音声モデルの選択と音声文字変換ジョブの送信を示す、音声文字変換の作成ページのスクリーンショット。
    • 以前に作成した認識ツールから、ユニバーサル音声モデルを使用した認識に使用する話し言葉を選択します。
    • モデルのプルダウンで [Universal Speech Model] を選択します。
    • [recognizer] プルダウンで、新しく作成された認識ツールを選択します。
    • submit をクリックして、ユニバーサル音声モデルを使用した最初の認識リクエストを実行します。
  7. ユニバーサル音声モデルの音声文字変換結果を表示します。

    • [音声文字変換] ページで、音声文字変換名をクリックして結果を表示します。
    • [Transcription details] ページで、音声文字変換の結果を表示し、必要に応じてブラウザで音声を再生します。

Python ノートブックを使ってみる

このガイドでは、Python ノートブックを使用して STT API v2 で USM を使用する方法について説明します。

  1. Google Cloud アカウントを登録して、プロジェクトを作成していることを確認します。USM での使用が許可されたプロジェクトとアカウントを使用する必要があります。
  2. Python ノートブック環境が機能することを確認します。
  3. こちらでノートブックを確認し、独自のコピーを作成してください。
  4. 任意の実行環境でノートブックを実行します。ノートブックの手順に沿って、認証と認識ツールを設定してから音声文字変換リクエストを実行します。