コンテンツに移動
AI & 機械学習

Google Cloud の Speech-to-Text API で新しいビジュアル ユーザー インターフェースが利用可能に

2022年2月10日
Google Cloud Japan Team

※この投稿は米国時間 2022 年 2 月 5 日に、Google Cloud blog に投稿されたものの抄訳です。

Google Cloud では、人工知能(AI)を誰もが利用できるものにし、新しいユースケースへの適用を簡単にするために取り組んでいます。そこでこのたび、Google Cloud の Speech-to-Text(STT)API 用の新しいユーザー インターフェースの一般提供を開始いたしました。この直感的に操作できる新しいビジュアルのユーザー インターフェースは Google Cloud Console 内で直接使用でき、デベロッパーは API をよりシンプルかつ簡単に利用できるようになります。  

STT API を使用すると、デベロッパーは Google の長年にわたる自動音声認識と音声文字変換技術の研究成果を活用して、音声をテキストに変換できます。近年の AI の発達により、音声を認識する新しいインターフェースやデバイスが増え続けています。デベロッパーは STT API を利用することで、アプリケーションに音声機能を追加してユーザーのニーズにより的確に応えることができます。

STT API は、音声入力やショート コマンドから字幕作成まで、幅広いユースケースに対応します。しかし、STT を最大限に有効利用するには複雑なプロセスがともないます。AI のいかなるユースケースでも、最高レベルの正確性を得るには、慎重なテストと微調整が不可欠です。

STT API を使用した開発でも、デベロッパーはこれまでこの作業を、API を通じた入念な試験を重ねて手作業で行う必要がありました。第一にデベロッパーは GCP 統合のコンセプトに精通する必要があり、独自のツールを開発するか、さまざまなスクリプトと API 呼び出しを管理して、API ドキュメントを完全に理解しなければなりませんでした。これらはとても面倒で時間のかかる作業であり、モデルの測定、カスタマイズ、改善を一層困難にしていました。  

このようなプロセスを大幅に簡素化する本日の発表は、デベロッパーの皆様への朗報です。すべての API 関数を Google Cloud Console 内から実行できるようになり、モデルの反復処理とアプリケーションへの統合が円滑化されます。これらのツールによって、デベロッパーは自分のプロダクトやサービスに STT API を簡単に統合できるようになります。また、このたびの更新は、Model Adaptation を使用した STT モデルのカスタマイズの管理と迅速な反復処理を可能にするものです。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Speech-to-Text_API.max-1300x1300.jpg

Model Adaptation を使用すると、STT をカスタマイズして自分のドメインやユースケース用に特化させることができます。デベロッパーが単語とウェイトのリストを管理して、それを必要に応じてすべてのリクエストまたは単一のリクエストに適用できます。Model Adaptation で得られるモデル適応は再利用が可能なので、一度 STT Cloud Console で適切な結果が得られたら、それをソリューション全体にデプロイすることができます。

この Speech-to-Text Cloud ConsoleModel Adaptation API はすべての Google Cloud リージョンおよび言語で、すべての GCP ユーザーにご利用いただけます。基盤となる API の使用に加えて別料金が発生することはありません。STT API は 70 以上の言語の 120 の地域方言に対応しています。使いやすくて統合しやすい、高品質の STT をお求めのデベロッパーの方は、今すぐ無料トライアルに申し込み、ご自分のデータセットで新しいインターフェースをご体験ください。



- Google Cloud Speaker ID 担当プロダクト マネージャー Calum Barnes
投稿先