ジャンプ先

Speech-to-Text

Google の AI テクノロジーを活用した API を利用すると、音声を正確にテキストに変換できます。

  • action/check_circle_24px Sketch で作成。

    コンテンツを正確な字幕へ音声文字変換

  • action/check_circle_24px Sketch で作成。

    音声コマンドによりプロダクトのユーザー エクスペリエンスが向上

  • action/check_circle_24px Sketch で作成。

    ユーザーの操作から分析情報を得てサービスを改善

利点

最先端の精度

Google 最新のディープ ラーニングのニューラル ネットワーク アルゴリズムを利用して、自動音声認識(ASR)を実現します。

モデルのカスタマイズが簡単

Speech-to-Text の UI により、カスタム リソースのテスト、作成、管理を行えます。

柔軟なデプロイ

クラウドなら API、オンプレミスなら Speech-to-Text On-Prem を使用して、どこにでも必要な場所に音声認識をデプロイできます。

デモ

Speech-to-Text を実際に使ってみる

このデモのように、Speech-to-Text API を使用して音声文字変換をアプリケーションに簡単に統合できます。

主な機能

主な機能

音声適応

ヒントを提供することで、分野特有の用語やあまり使われない単語を音声文字変換するように音声認識をカスタマイズし、特定の単語やフレーズの音声文字変換の精度を向上できます。クラスを使用して音声の数字を住所、年、通貨などに自動的に変換します。

分野固有モデル

音声操作や通話と動画の音声文字変換のために、分野固有の品質要件に合わせて最適化されたトレーニング済みモデルが用意されており、その中から選択できます。たとえば、拡張通話モデルは 8 kHz のサンプリング レートで録音された通話など、テレフォニーから発信された音声向けに調整されています。

品質を容易に比較

使いやすいユーザー インターフェースを使用して音声をテストします。さまざまな構成を試して品質と精度を最適化できます。

Speech-to-Text On-Prem

Google の音声認識技術を独自のプライベート データセンターで直接オンプレミスで活用することで、インフラストラクチャと保護された音声データに対する完全な制御を維持できます。使用を開始する方法については、営業担当者までお問い合わせください。

すべての機能を表示

最新情報

Google Cloud のニュースレターにご登録いただくと、サービスの最新情報、イベント情報、スペシャル オファーのお知らせなどが配信されます。

ドキュメント

ドキュメント

Google Cloud の基礎
Speech-to-Text の基本

Speech-to-Text の基本的なコンセプトについて学びます。

クイックスタート
クイックスタート: Speech-to-Text UI の使用

プロジェクトと承認を設定し、音声文字変換を作成および改良して、その構成をコンソールで使用する方法について学習します。

クイックスタート
クイックスタート: gcloud ツールの使用

コマンドラインから gcloud ツールを使用して、Speech-to-Text に音声文字変換リクエストを送信します。

ベスト プラクティス
ベスト プラクティス

Speech-to-Text を使用して音声文字変換をする際のベスト プラクティスを確認します。

チュートリアル
ML ON-RAMP

Speech-to-Text のチュートリアルや Codelab などを確認します。

Google Cloud の基礎
サポートされる言語

Speech-to-Text で利用できる言語に加えて、各言語で使用可能な機能と認識モデルについて学習します。

Google Cloud の基礎
Speech-to-Text On-Prem

Google の音声認識技術をオンプレミス ソリューションに簡単に統合できる Speech-to-Text On-Prem について学習します。

ユースケース

ユースケース

ユースケース
カスタマー サービスの改善

IVR(インタラクティブ音声レスポンス)とエージェントの会話をコールセンターに追加することにより、カスタマー サービス システムを強化します。会話データを分析し、通話と顧客についてより多くの分析情報を得ます。Speech-to-Text と拡張通話モデルは、Google Cloud の強力なソリューションである Contact Center AI に搭載されています。

ワークフロー: Google Cloud プロダクトを使用した Contact Center 音声データの流れ: Cloud Storage から(1)Speech-to-Text API に送信して音声を文字に変換し、Natural Language API に送信してから、(2)Cloud Data Loss Prevention で解析し、(3)BigQuery で個人情報の秘匿化を行います。その後、BigQuery に(4)保存して(5)Visualize Call Data でクエリ実行と可視化を行うまでのデータの流れは双方向になります。
ユースケース
音声操作を有効にする

「音量を上げて」などの音声コマンドや「パリの気温は?」などの音声検索を実装します。これに Text-to-Speech API を組み合わせて、IoT(モノのインターネット)アプリケーションで音声対応のエクスペリエンスを提供します。

Speech-to-Text API を使用した音声操作のワークフローフローの起点は(1)ユーザー デバイスへのユーザーの音声コマンドで、ユーザー デバイスは(0)デバイス固有の安全な ID を使用して Cloud IoT Core と双方向に通信し、さらに Cloud Functions とも双方向に通信して(2)Speech-to-Text API で音声を文字に変換した後(3)AutoML Natural Language でインテントとエンティティを抽出し、Cloud Functions およびユーザー デバイスに戻します。
ユースケース
マルチメディア コンテンツの音声文字変換

音声や動画の音声文字変換を行い、字幕を入れ、視聴者のリーチとエクスペリエンスを向上させます。リアルタイムで字幕をストリーミング コンテンツに追加します。動画の音声文字変換モデルは動画や複数話者のコンテンツのインデックス作成または字幕作成に適しており、YouTube の動画字幕作成機能に似た機械学習技術を使用します。

マルチメディア コンテンツの音声文字変換のワークフロー: 入力音声ストリームは(1)リアルタイムの字幕に変換するために Google Kubernetes Engine から Speech-to-Text API に送信され、(2)音声文字変換の評価のために Deep Learning VM を経て Firestore に送信されて、コンテンツ管理部門に利用されるか(3)放送字幕用デバイスに保存されて利用されます。

すべての機能

すべての機能

グローバルな語彙 Speech-to-Text は 125 以上の言語や言語変種におよぶ広範な言語に対応しており、世界中のユーザーベースをサポートします。
ストリーミング音声認識 アプリケーションのマイクからストリーミングした音声入力や、事前に録音した音声ファイル(インラインや Cloud Storage)から取得した音声入力を API が処理するのに伴って、音声認識の結果をリアルタイムに受け取ることができます。
音声適応 ヒントを提供することで、分野特有の用語やあまり使われない単語を音声文字変換するように音声認識をカスタマイズし、特定の単語やフレーズの音声文字変換の精度を向上させることができます。クラスを使用して音声の数字を住所、年、通貨などに自動的に変換します。
Speech-to-Text On-Prem Google の音声認識技術を独自のプライベート データセンターで直接オンプレミスで活用することで、インフラストラクチャと保護された音声データに対する完全な制御を維持できます。使用を開始する方法については、営業担当者までお問い合わせください。
マルチチャネル認識 Speech-to-Text はマルチチャネルの状況(ビデオ会議など)で個別のチャネルを認識し、音声文字変換にアノテーションを付けて順序を維持できます。
ノイズ耐性 Speech-to-Text は雑音の多い音声も正常に処理できます。別途ノイズ キャンセルを行う必要はありません。
分野固有モデル 音声操作や通話と動画の音声文字変換のために、分野固有の品質要件に合わせて最適化されたトレーニング済みモデルが用意されており、その中から選択できます。たとえば、拡張通話モデルは 8 kHz のサンプリング レートで録音された通話など、テレフォニーから発信された音声向けに調整されています。
コンテンツ フィルタリング 冒とくフィルタは音声データ内の不適切なコンテンツや職業倫理に反するコンテンツを検出し、テキスト結果の冒とく的な語句をフィルタで除外するのに役立ちます。
音声文字変換の評価 自分の音声データをアップロードし、コードなしで音声文字変換します。構成で反復処理することで、品質を評価します。
句読点入力の自動化(ベータ版) Speech-to-Text は音声文字変換テキストに正確に句読点(カンマ、疑問符、ピリオドなど)を付けることができます。
話者ダイアライゼーション(ベータ版) 会話におけるそれぞれの発話が、どちらの話者によるものなのかを自動予測できます。

料金

料金

Speech-to-Text では、60 分の無料枠を超えると、15 秒ごとに音声処理の料金が発生します。