Speech-to-Text

Google の AI テクノロジーを搭載した API を利用すると、音声を正確にテキストに変換できます。

無料で開始
  • action/check_circle_24px Sketch で作成。

    コンテンツを正確な字幕へ音声文字変換

  • action/check_circle_24px Sketch で作成。

    音声コマンドによりプロダクトのユーザー エクスペリエンスが向上

  • action/check_circle_24px Sketch で作成。

    お客様の操作から分析情報を得てサービスを改善

最先端の精度

Google 最新のディープ ラーニングのニューラル ネットワーク アルゴリズムを利用して、自動音声認識(ASR)を実現します。

世界中を網羅

125 以上の言語や方言に対応する音声認識を使用して、世界中のユーザーにアクセスできます。

イノベーションを加速

Text-to-SpeechNatural Language の Google 最高のテクノロジーと組み合わせて、音声 bot や音声感情分析などのユースケースを達成します。

Speech-to-Text を有効に活用する

主な機能

音声適応

ヒントを提供することで、分野特有の用語やあまり使われない単語を音声文字変換するように音声認識をカスタマイズし、特定の単語やフレーズの音声文字変換の精度を向上できます。クラスを使用して音声の数字を住所、年、通貨などに自動的に変換します。

ドメイン固有モデル

音声制御や通話と動画の音声文字変換のために、ドメイン固有の品質要件に合わせて最適化されたトレーニング済みモデルが用意されており、その中から選択できます。たとえば、拡張通話モデルは 8 kHz のサンプリング レートで録音された通話など、テレフォニーから発信された音声向けに調整されています。

ストリーミング音声認識

アプリケーションのマイクからストリーミングした音声入力や、事前に録音した音声ファイルをインラインや Cloud Storage から取得した音声入力を API が処理するのに伴って、音声認識の結果をリアルタイムに受け取ることができます。

すべての機能を表示

ドキュメント

Google Cloud の基礎
Speech-to-Text の基本

Speech-to-Text の基本的なコンセプトについて学びます。

クイックスタート
クイックスタート: gcloud ツールの使用

コマンドラインから gcloud ツールを使用して、Speech-to-Text に音声文字変換リクエストを送信します。

ベスト プラクティス
ベスト プラクティス

Speech-to-Text を使用して音声文字変換をする際のベスト プラクティスを確認します。

チュートリアル
ML ON-RAMP

Speech-to-Text のチュートリアルや Codelab などを確認します。

Google Cloud の基礎
サポートされる言語

Speech-to-Text で利用できる言語に加えて、各言語で使用可能な機能と認識モデルについて学習します。

ユースケース

ユースケース
顧客サービスの向上

IVR(インタラクティブ音声レスポンス)とエージェントの会話をコールセンターに追加することにより、カスタマー サービス システムを強化します。会話データを分析し、通話と顧客についてより多くの分析情報を得ます。Speech-to-Text と拡張通話モデルは、Google Cloud の強力なソリューションである Contact Center AI に搭載されています。

Contact Center AI と Speech-to-Text テクノロジーを組み合わせてカスタマー サービスを改善する
ユースケース
音声制御を有効にする

「音量を上げて」などの音声コマンドや「パリの気温は?」などの音声検索を実装します。これに Text-to-Speech API を組み合わせて、IoT(モノのインターネット)アプリケーションで音声対応のエクスペリエンスを提供します。

Speech-to-Text API を使用した音声制御のワークフロー
ユースケース
マルチメディア コンテンツの音声文字変換

音声や動画の音声文字変換を行い、字幕を入れ、視聴者のリーチとエクスペリエンスを向上させます。リアルタイムで字幕をストリーミング コンテンツに追加します。動画の音声文字変換モデルは動画や複数話者のコンテンツのインデックス作成または字幕作成に適しており、YouTube の動画字幕作成機能に似た機械学習技術を使用します。

マルチメディア コンテンツの音声文字変換のワークフロー

すべての機能

グローバルな語彙 Speech-to-Text は 125 以上の言語や方言におよぶ広範な言語に対応しており、世界中のユーザーベースをサポートします。
ストリーミング音声認識 アプリケーションのマイクからストリーミングした音声入力や、事前に録音した音声ファイルをインラインや Cloud Storage から取得した音声入力を API が処理するのに伴って、音声認識の結果をリアルタイムに受け取ることができます。
音声適応 ヒントを提供することで、分野特有の用語やあまり使われない単語を音声文字変換するように音声認識をカスタマイズし、特定の単語やフレーズの音声文字変換の精度を向上できます。クラスを使用して音声の数字を住所、年、通貨などに自動的に変換します。
マルチチャンネル認識 Speech-to-Text はマルチチャネルの状況(ビデオ会議など)で個別のチャネルを認識し、音声文字変換にアノテーションを付けて順序を維持できます。
ノイズ耐性 Speech-to-Text は雑音の多い音声も正常に処理できます。ノイズ除去の必要はありません。
ドメイン固有モデル 音声制御や通話と動画の音声文字変換のために、ドメイン固有の品質要件に合わせて最適化されたトレーニング済みモデルが用意されており、その中から選択できます。たとえば、拡張通話モデルは 8 kHz のサンプリング レートで録音された通話など、テレフォニーから発信された音声向けに調整されています。
コンテンツ フィルタリング 冒とくフィルタは音声データ内の不適切なコンテンツや職業倫理に反するコンテンツを検出し、テキスト結果の冒とく的な語句をフィルタで除外するのに役立ちます。
言語の自動検出(ベータ版) 言語コードを 4 種類まで指定することで、Speech-to-Text は音声言語を正しく自動識別します。
句読点入力の自動化(ベータ版) Speech-to-Text は音声文字変換テキストに正確に句読点(カンマ、疑問符、ピリオドなど)を付けることができます。
話者ダイアライゼーション(ベータ版) 会話におけるそれぞれの発話が、どちらの話者によるものなのかを自動予測できます。

料金

Speech-to-Text では、60 分の無料枠を超えると、15 秒ごとに音声処理の料金が発生します。