Cloud Speech-to-Text V2 API と Chirp を経済的な新しい料金で一般提供開始
Google Cloud Japan Team
※この投稿は米国時間 2023 年 8 月 10 日に、Google Cloud blog に投稿されたものの抄訳です。
音声は最も生得的でありふれた表現形式として、人と人とのやり取りの基本的な柱となっています。Google Cloud の Speech API が、6 年前に一般提供向けにリリースされてから、企業のお客様にとって重要なツールになり、1 か月ごとに 10 億分を超える音声を処理するようになったことは当然と言えるでしょう。
Speech API により、Google は何千ものお客様にサービスを提供し、業界トップクラスの音声認識品質と費用対効果に優れたプロダクトをさまざまな業種にわたって提供してきました。自社のパッケージを絶えず進化させ、組織に新しいメリットをもたらそうという Google の努力が実を結び、このたび新しい Speech-to-Text v2 API の一般提供リリースを発表できる運びとなりました。
Speech-to-Text v2 により、Google の API インターフェースがモダナイズされ、新しい機能が導入されます。また、STT v1 API または v1p1beta1 API で使用していた同じモデルと機能を使用できるように、Google の既存のすべての機能が移行されます。さらに、この新しいバージョンの API により、Google のサービス提供パスでの大幅な費用削減が実現し、これを反映して基本料金を下げる以外にも、大規模なワークロードや処理時間が長くなってもかまわない場合向けの料金のインセンティブを追加できるようになりました。
この新しいインフラストラクチャではさまざまな新しいタイプのモデルに対応することもできます。その中には 20 億ものパラメータを使用する Google 最新の大規模スピーチモデル、Chirp が含まれます。このたび、これらのすべてが Google Cloud Platform のお客様とユーザーへ一般提供されるようになりました。
ここでは、Speech-to-Text API V2 の強化された機能をさらに詳しく紹介しながら、新しい機能が事業にどのようなメリットをもたらすかについて説明していきます。
V2 API での Speech-to-Text 機能の拡張
2017 年の Speech-to-Text API のリリース以来、Google は自社のグローバルなインフラストラクチャを活用して本番環境向けの音声文字変換モデルをホストし、モニタリングしてきました。この堅牢で接続性の高いネットワークが、お客様向けのすべてのパッケージのバックボーンとなっています。
一方で、特に銀行や公共部門などの規制の厳しい業種に属し、データ所在地とコンプライアンスの要件を満たす必要がある企業のお客様から、Google の Speech-to-Text サービスを一元的に把握できるようにすることが強く求められていました。Google はこのフィードバックに注意深く耳を傾けました。そしてこのたび、Speech-to-Text v2 API で完全なリージョン指定サポートされるようになりました。これにより、お客様は Google Cloud Platform の選択したリージョンで同じ一連の音声文字変換モデルを起動できます。
お客様が任意のリージョンにデプロイできる柔軟性に加え、次のものをはじめとして、この API を使用するデベロッパーにとって有益な新機能も追加しています。
認識ツール: モデル識別子と音声文字変換される音声の言語ロケール、音声文字変換モデルが実行されるクラウド リージョンを組み合わせてユーザーが定義し、命名する構成です。作成した認識ツールは後続のすべての音声文字変換リクエストで参照できるため、ユーザーが同じ構成パラメータを繰り返し定義する必要がなくなります。この便利な認識ツールが実装されたことでユーザーが専用のサービス アカウントを設定する必要がなくなるため、認証と認可の柔軟性を高めることができます。
Cloud Logging: 認識ツール オブジェクトを使用して実行されるリクエストでは、デフォルトで自動的に Cloud Logging がサポートされます。認識ツールは名前付きエンティティとして定義されるため、お客様は関心のある認識ツールに基づいて、または集合的にトラフィックをパーティション化できます。
音声形式自動検出: 音声文字変換リクエストに渡す音声構成設定をユーザーが分析して手動で定義する代わりに、新しい Speech-to-Text V2 API はエンコード、サンプリング レート、チャネル数などの設定を検出して自動的にリクエスト パラメータを入力します。
Chirp による企業スケールでの精度向上
基盤となるスピーチモデルへの継続的な投資の一環として、Google は、20 億ものパラメータを使用し、300 を超える言語の音声文字変換に対応する最先端のスピーチモデル ファミリーである、ユニバーサル音声モデル(USM)の研究結果を 2023 年 3 月にリリースしました。2023 年 5 月、Google は Google I/O で Chirp の限定公開プレビュー版を発表しました。これはクラウド固有のユースケース向けにファイン チューニングされた USM ファミリーの最新バージョンです。
Chirp はこのたび Speech-to-Text v2 API を介して一般提供されました。Google は、お客様による広範なテストとフィードバックに基づき、シンプルなエンタープライズ グレードの API サーフェスから事前トレーニング済みの大規模モデルの能力にアクセスできるようにしています。新しいモデルの市場をリードする精度と多言語対応により、先行ユーザーの皆様の顧客エンゲージメントが大きな高まりを見せるなか、企業のお客様がどのようなメリットを実現させるかが大いに期待されます。
新しい料金、ティア、オプションの導入
お客様から、多くのワークロードにとって価格が品質と同様に重要であるとお聞きしています。このため、Speech-to-Text API v2 機能の料金を全面的に刷新しました。まず、リアルタイムとバッチの音声文字変換の費用を 1 分あたり $0.024 から 1 分あたり $0.016 に引き下げました。さらに、非常に大きい音声文字変換のワークロードがある場合に料金が懸念事項となる可能性があることも承知しています。このため、1 分あたりの費用がわずか $0.004 のスタンダード ボリューム ティアも導入します。より大きいワークロードがある場合は追加の割引を利用できます。


料金の柔軟性と選択肢に対する取り組みを進める中で、お客様の大部分がリアルタイムの音声文字変換シナリオのためのモデルに関心を抱くと同時に、保存データを非リアルタイムで音声文字変換することにも興味を持たれていることがわかりました。Google の新しい API v2 インフラストラクチャを使用すると、特定の時間に使用されなくなる容量をさらに活用できます。新しい動的バッチ料金により、この節約分をレイテンシに対する要求が比較的緩やかなお客様に還元します。動的バッチは、音声文字変換の結果を 24 時間以内に取得できればよいというユーザー向けの新しい割引料金ティアとして、スタンダード ティアと比較して 1 分あたり 75% 低い料金で音声文字変換を提供します。


動的バッチとすべての新しい STT v2 API の料金について詳しくは、料金のページをご覧ください。
詳細を確認して Speech-to-Text への移行を開始する
V1 から V2 への移行を開始するための詳しい情報は詳細なドキュメントで参照し、リージョン指定と認識ツールを最大限活用するにはチュートリアルをお試しください。
Chirp の詳しい使用方法にご興味がある場合は、チュートリアルから始めることができます。構築方法の詳細も、研究ブログ投稿でお読みになれます。
このような進歩をすべて Google のデベロッパー エコシステムに組み入れ、お客様のビジネス、プログラム、アプリケーションに音声を活用するためのツールを提供することは Google にとって大きな喜びです。
- Cloud Speech プロダクト マネージャー Calum Barnes
- Cloud Speech プロダクト マネージャー Haris Ioannou