Speech-to-Text
Google の AI テクノロジーを活用した API を利用すると、音声を正確にテキストに変換できます。
-
コンテンツを正確な字幕へ音声文字変換
-
音声コマンドによりプロダクトのユーザー エクスペリエンスが向上
-
お客様の操作から分析情報を得てサービスを改善
利点
最先端の精度
Google 最新のディープ ラーニングのニューラル ネットワーク アルゴリズムを利用して、自動音声認識(ASR)を実現します。
モデルのカスタマイズが簡単
Speech-to-Text の UI により、カスタム リソースのテスト、作成、管理を行えます。
柔軟なデプロイ
クラウドなら API、オンプレミスなら Speech-to-Text On-Prem を使用して、どこにでも必要な場所に音声認識をデプロイできます。
デモ
Speech-to-Text を実際に使ってみる
このデモのように、Speech-to-Text API を使用して音声文字変換をアプリケーションに簡単に統合できます。
主な機能
主な機能
音声適応
ヒントを提供することで、分野特有の用語やあまり使われない単語を音声文字変換するように音声認識をカスタマイズし、特定の単語やフレーズの音声文字変換の精度を向上できます。クラスを使用して音声の数字を住所、年、通貨などに自動的に変換します。
分野固有モデル
音声操作や通話と動画の音声文字変換のために、分野固有の品質要件に合わせて最適化された各種トレーニング済みモデルが用意されており、その中から選択できます。たとえば、拡張通話モデルは 8 kHz のサンプリング レートで録音された通話など、テレフォニーから発信された音声向けに調整されています。
品質を容易に比較
使いやすいユーザー インターフェースを使用して音声をテストします。さまざまな構成を試して品質と精度を最適化できます。
Speech-to-Text On-Prem
Google の音声認識技術を独自のプライベート データセンターにてオンプレミスで活用することで、インフラストラクチャと保護された音声データに対する完全な制御を維持できます。使用を開始する方法については、営業担当者までお問い合わせください。
ドキュメント
ドキュメント
Speech-to-Text の基本
Speech-to-Text の基本的なコンセプトについて学びます。
クイックスタート: Speech-to-Text UI の使用
プロジェクトと承認を設定し、音声文字変換を作成および改良して、その構成をコンソールで使用する方法について学習します。
クイックスタート: gcloud ツールの使用
コマンドラインから gcloud ツールを使用して、Speech-to-Text に音声文字変換リクエストを送信します。
ベスト プラクティス
Speech-to-Text を使用して音声文字変換をする際のベスト プラクティスを確認します。
ML ON-RAMP
Speech-to-Text のチュートリアルや Codelab などを確認します。
サポートされる言語
Speech-to-Text で利用できる言語に加えて、各言語で使用可能な機能と認識モデルについて学習します。
Speech-to-Text On-Prem
Google の音声認識技術をオンプレミス ソリューションに簡単に統合できる Speech-to-Text On-Prem について学習します。
ユースケース
ユースケース
IVR(インタラクティブ音声レスポンス)とエージェントの会話をコールセンターに追加することにより、カスタマー サービス システムを強化します。会話データを分析し、通話と顧客についてより多くの分析情報を得ます。Speech-to-Text と拡張通話モデルは、Google Cloud の強力なソリューションである Contact Center AI に搭載されています。
「音量を上げて」などの音声コマンドや「パリの気温は?」などの音声検索を実装します。これに Text-to-Speech API を組み合わせて、IoT(モノのインターネット)アプリケーションで音声対応のエクスペリエンスを提供します。
音声や動画の音声文字変換を行い、字幕を入れ、視聴者のリーチとエクスペリエンスを向上させます。リアルタイムで字幕をストリーミング コンテンツに追加します。動画の音声文字変換モデルは動画や複数話者のコンテンツのインデックス作成または字幕作成に適しており、YouTube の動画字幕作成機能に似た機械学習技術を使用します。
すべての機能
すべての機能
グローバルな語彙 | Speech-to-Text は 125 以上の言語や言語変種におよぶ広範な言語に対応しており、世界中のユーザーベースをサポートします。 |
ストリーミング音声認識 | アプリケーションのマイクからストリーミングした音声入力や、事前に録音した音声ファイル(インラインや Cloud Storage)から取得した音声入力を API が処理するのに伴って、音声認識の結果をリアルタイムに受け取ることができます。 |
音声適応 | ヒントを提供することで、分野特有の用語やあまり使われない単語を音声文字変換するように音声認識をカスタマイズし、特定の単語やフレーズの音声文字変換の精度を向上させることができます。クラスを使用して音声の数字を住所、年、通貨などに自動的に変換します。 |
Speech-to-Text On-Prem | Google の音声認識技術を独自のプライベート データセンターにてオンプレミスで活用することで、インフラストラクチャと保護された音声データに対する完全な制御を維持できます。使用を開始する方法については、営業担当者までお問い合わせください。 |
マルチチャネル認識 | Speech-to-Text はマルチチャネルの状況(ビデオ会議など)で個別のチャネルを認識し、音声文字変換にアノテーションを付けて順序を維持できます。 |
ノイズ耐性 | Speech-to-Text は雑音の多い音声も正常に処理できます。別途ノイズ キャンセルを行う必要はありません。 |
分野固有モデル | 音声操作や通話と動画の音声文字変換のために、分野固有の品質要件に合わせて最適化された各種トレーニング済みモデルが用意されており、その中から選択できます。たとえば、拡張通話モデルは 8 kHz のサンプリング レートで録音された通話など、テレフォニーから発信された音声向けに調整されています。 |
コンテンツ フィルタリング | 冒とくフィルタは音声データ内の不適切なコンテンツや職業倫理に反するコンテンツを検出し、テキスト結果の冒とく的な語句をフィルタで除外するのに役立ちます。 |
音声文字変換の評価 | 自分の音声データをアップロードし、コードなしで音声文字変換します。構成で反復処理することで、品質を評価します。 |
句読点入力の自動化(ベータ版) | Speech-to-Text は音声文字変換テキストに正確に句読点(カンマ、疑問符、ピリオドなど)を付けることができます。 |
話者ダイアライゼーション(ベータ版) | 会話におけるそれぞれの発話が、どちらの話者によるものなのかを自動予測できます。 |
料金
料金
Speech-to-Text では、60 分の無料枠を超えると、15 秒ごとに音声処理の料金が発生します。