Speech-to-Text
Google による AI の研究とテクノロジーを最大限に活用した API を利用すると、音声を正確にテキストに変換できます。
新規のお客様には、Speech-to-Text で使用できる無料クレジット $300 分を差し上げます。すべてのお客様は音声の文字変換と分析を 1 か月あたり 60 分まで無料で利用できます。クレジットに対する課金はありません。
-
コンテンツを正確な字幕へ音声文字変換
-
音声の機能を活用することでより良いユーザー エクスペリエンスを実現
-
顧客とのインタラクションから得られる分析情報を使用してサービスを向上
-
コンソール内チュートリアルですぐに開始
利点
最先端の精度
Google 最新のディープ ラーニング ニューラル ネットワーク アルゴリズムを利用して、自動音声認識(ASR)を実現します。
モデルのカスタマイズが簡単
Speech-to-Text UI でカスタム リソースのテスト、作成、管理を行います。
柔軟なモデルのデプロイ
クラウドなら API、オンプレミスなら Speech-to-Text On-Prem を使用して、どこにでも必要な場所に ASR をデプロイできます。
デモ
Speech-to-Text を実際に使ってみる
このデモのように、Speech-to-Text API を使用して音声文字変換をアプリケーションに簡単に統合できます。
主な機能
主な機能
音声適応
ヒントを提供することで、あまり使われない分野特有の単語やフレーズに対する音声文字変換の精度を高めることができます。クラスを使用して音声の数字を住所、年、通貨などに自動的に変換できます。
分野固有モデル
音声操作や通話と動画の音声文字変換のために、特定分野の品質要件に合わせて最適化された各種トレーニング済みモデルが用意されており、その中から選択できます。
品質を容易に比較
使いやすいユーザー インターフェースを使用して音声をテストします。さまざまな構成を試して品質と精度を最適化できます。
オンデバイス音声
インターネット接続に関係なく、Google Cloud の音声アルゴリズムを任意のデバイスでローカルに実行します。音声データがデバイスの外部に送信されることはありません。
Speech-to-Text の基盤モデル
数百万時間におよぶ音声データと数十億の文でトレーニングされた Google Cloud の音声の基盤モデルである Chirp を利用した音声モデルで、世界中のユーザーの音声に対応するアプリケーションを構築できます。
ドキュメント
チュートリアルおよびスタートガイド リソース
Speech-to-Text の基本
Speech-to-Text の基本的なコンセプトについて学びます。
クイックスタート: Speech-to-Text UI の使用
プロジェクトと承認を設定し、音声文字変換を作成、改良して、その構成をコンソールで使用する方法について学習します。
クイックスタート: gcloud ツールの使用
コマンドラインから gcloud ツールを使用して、Speech-to-Text に音声文字変換リクエストを送信します。
ベスト プラクティス
Speech-to-Text を使用して音声文字変換をする際のベスト プラクティスを確認します。
ML ON-RAMP
Speech-to-Text のチュートリアルや Codelab などを確認します。
サポートされる言語
Speech-to-Text で利用できる言語に加えて、各言語で使用可能な機能と認識モデルについて学習します。
Speech-to-Text On-Prem
Google の音声認識技術をオンプレミス ソリューションに簡単に統合できる Speech-to-Text On-Prem について学習します。
ユースケース
ユースケース
IVR(インタラクティブ音声レスポンス)とエージェントの会話をコールセンターに追加することにより、カスタマー サービス システムを強化します。会話データを分析し、通話と顧客についてより多くの分析情報を得ます。Speech-to-Text と拡張通話モデルは、Google Cloud の強力なソリューションである Contact Center AI に搭載されています。
「音量を上げて」などの音声コマンドや「パリの気温は?」などの音声検索を実装します。これに Text-to-Speech API を組み合わせて、IoT(モノのインターネット)アプリケーションで音声対応のエクスペリエンスを提供します。
音声や動画の音声文字変換を行い、字幕を入れ、視聴者層を拡大しエクスペリエンスを向上させます。リアルタイムで字幕をストリーミング コンテンツに追加します。動画の音声文字変換モデルは動画や複数話者のコンテンツのインデックス作成または字幕作成に適しており、YouTube の動画字幕作成機能に似た ML 技術を使用します。
すべての機能
すべての機能
グローバルな語彙 | Speech-to-Text は 125 以上の言語や言語変種におよぶ広範な言語に対応しており、世界中のユーザーベースをサポートします。 |
ストリーミング音声認識 | アプリケーションのマイクからストリーミングした音声入力や、事前に録音した音声ファイル(インラインや Cloud Storage)から取得した音声入力を API が処理し、音声認識の結果をリアルタイムに受け取ることができます。 |
音声適応 | ヒントを提供することで、分野特有の用語やあまり使われない単語を音声文字変換するように音声認識をカスタマイズし、特定の単語やフレーズの音声文字変換の精度を向上させることができます。クラスを使用して音声の数字を住所、年、通貨などに自動的に変換します。 |
Speech-to-Text On-Prem | オンプレミスの独自のプライベート データセンターで Google の音声認識技術を利用することで、インフラストラクチャと保護された音声データに対する完全な制御を維持できます。使用を開始する方法については、営業担当者までお問い合わせください。 |
マルチチャネル認識 | Speech-to-Text はマルチチャネルの状況(ビデオ会議など)で個別のチャネルを認識し、文字起こしにアノテーションを付けて順序を維持できます。 |
ノイズ耐性 | Speech-to-Text は雑音の多い音声も正常に処理できます。別途ノイズ キャンセルを行う必要はありません。 |
分野固有モデル | 音声操作や通話と動画の音声文字変換のために、特定分野の品質要件に合わせて最適化された各種トレーニング済みモデルが用意されており、その中から選択できます。たとえば、拡張通話モデルは 8 kHz のサンプリング レートで録音された通話など、電話通信から発信された音声向けに調整されています。 |
コンテンツ フィルタリング | 冒とくフィルタは音声データ内の不適切なコンテンツや職業倫理に反するコンテンツを検出し、テキスト結果の冒とく的な語句をフィルタで除外することができます。 |
音声文字変換の評価 | 自分の音声データをアップロードし、ノーコードで音声文字変換します。構成の調整を繰り返し、品質を評価します。 |
句読点入力の自動化(ベータ版) | Speech-to-Text は音声文字変換テキストに正確に句読点(カンマ、疑問符、ピリオドなど)を付けることができます。 |
話者ダイアライゼーション(ベータ版) | 会話におけるそれぞれの発話がどちらの話者によるものなのかを、自動予測できます。 |
料金
料金
Speech-to-Text は、サービスによって正常に処理された音声の量が 1 秒単位で測定され、月単位で料金が設定されます。