カスタム Speech-to-Text モデルを使用すると、特定のニーズに合わせて音声認識モデルをファインチューニングできます。このサービスは、お客さまのドメイン固有の音声データとテキストデータを使用して、多様な環境やユースケースで音声認識サービスの精度と関連性を高めるように設計されています。
Google Cloud コンソールと API の両方からアクセスできるカスタム Speech-to-Text モデルにより、ノーコードの統合環境で専用の音声モデルのトレーニング、評価、デプロイを行うことができます。トレーニングでは、音声条件を代表する音声データのみをトレーニング セットとして提供します。参照用の音声文字変換は使用しません。ただし、評価セットの一部として音声データと参照用の音声文字変換を提供する必要があります。
カスタム Speech-to-Text モデルを作成して使用するには、次の操作を行います。
- トレーニング データを準備して Cloud Storage バケットにアップロードします。
- 新しいカスタムモデルをトレーニングします。
- エンドポイントを使用してカスタムモデルをデプロイし管理します。
- アプリケーションでカスタムモデルを使用して評価します。
仕組み
カスタム Speech-to-Text モデルを使用すると、ベースの音声文字変換モデルを補強して音声文字変換の認識を改善できます。サイレン、音楽、過度の背景雑音など、音声の状態によっては、音響的な問題が生じることがあります。特定のアクセントや特殊な語彙(商品名など)も同様です。
すべてのカスタム Speech-to-Text モデルは、事前トレーニングされたコンフォーマー ベースのアーキテクチャをベースモデルとして、一般的な話し言葉に関する独自データでトレーニングしたものです。トレーニング プロセスでは、かなりの割合で元の重みを適応させてベースモデルを微調整し、分野固有の語彙やアプリケーション固有の音声条件の認識を改善します。
カスタム Speech-to-Text モデルを効果的にトレーニングするには、次のものが必要です。
- 100 音声時間以上のトレーニング データ(音声のみの場合もあれば、音声とグラウンド トゥルースとして対応するテキスト文字起こしを使用する場合もあります)。このデータは初期のトレーニング フェーズで重要です。このため、モデルは音声パターンと語彙のニュアンスを包括的に学習します。詳細については、グラウンド トゥルース データセットを作成するをご覧ください。
- 少なくとも 10 音声時間の検証データを含む別個のデータセット(グラウンド トゥルースとして対応するテキストの文字起こしを含む)。想定される形式と遵守すべきグラウンド トゥルース規則の詳細については、データを準備する手順をご覧ください。
トレーニングに成功したら、ワンクリックでカスタム Speech-to-Text モデルをエンドポイントにデプロイし、Cloud Speech-to-Text V2 API を介して直接推論とベンチマークに使用できます。
サポートされているモデル、言語、リージョン
カスタム Speech-to-Text モデルは、トレーニング用に以下のモデル、言語、ロケールの組み合わせをサポートしています。
言語 | BCP-47 | ベースモデル |
---|---|---|
ドイツ語(ドイツ) |
de-DE |
|
英語(オーストラリア) |
en-AU |
|
英語(英国) |
en-GB |
|
英語(インド) |
en-IN |
|
英語(米国) |
en-US |
|
スペイン語(米国) |
es-US |
|
スペイン語(スペイン) |
es-ES |
|
フランス語(カナダ) |
fr-CA |
|
フランス語(フランス) |
fr-FR |
|
ヒンディー語(インド) |
hi-IN |
|
イタリア語(イタリア) |
it-IT |
|
日本語(日本) |
ja-JP |
|
韓国語(韓国) |
ko-KR |
|
オランダ語(オランダ) |
nl-NL |
|
ポルトガル語(ブラジル) |
pt-BR |
|
ポルトガル語(ポルトガル) |
pt-PT |
|
さらに、データ所在地の要件を遵守するため、さまざまなリージョンでトレーニングとデプロイ用のハードウェアを提供しています。専用ハードウェアは、次のモデルとリージョンの組み合わせでサポートされています。
ベースモデル | Google Cloud リージョン | サポートされているタスク |
---|---|---|
|
|
トレーニングとデプロイ |
|
|
トレーニングとデプロイ |
割り当て
カスタム Speech-to-Text モデル トレーニングでは、各 Google Cloud プロジェクトに、複数のトレーニング ジョブを同時に実行するのに十分なデフォルトの割り当てが必要です。これらの割り当ては、追加調整なしでほとんどのプロジェクトのニーズを満たすことを目的としています。しかし、より多くの同時実行トレーニング ジョブを実行する必要がある場合や、より広範なラベル付けやコンピューティング リソースが必要な場合は、追加の割り当てをリクエストしてください。
エンドポイント デプロイを提供するカスタム Speech-to-Text モデルの場合、各エンドポイントの理論上の上限は 20 QPS(秒間クエリ数)です。より高いスループットが必要な場合は、追加のサービス割り当てをリクエストしてください。
料金
カスタム Speech-to-Text モデルを作成して使用するには一定の費用がかかります。これらの費用は主にモデルのトレーニング時と、それに続くデプロイ中に使用されるリソースに基づきます。具体的には、カスタム Speech-to-Text モデルは、一般的なモデルのライフサイクルで次の費用が発生します。
- トレーニング: モデルのトレーニング時間数に対して課金されます。この時間は、トレーニング データセットに含まれる音声時間の量に比例します。原則として、トレーニングにはデータセットの音声時間数の 10 分の 1 が必要になります。
- デプロイ: モデルがエンドポイントにデプロイされる 1 時間ごとに課金されます。
- 推論: 通常の Speech-to-Text の料金と同様、音声文字変換で音声をストリーミングした秒数に対して課金されます。
これらの費用を理解することは、効果的な予算編成とリソース配分のために不可欠です。詳細については、カスタム Speech-to-Text モデルのセクションで Cloud Speech-to-Text の料金をご覧ください。
次のステップ
アプリケーションでカスタム音声モデルを活用するには、次のリソースをご覧ください。