Cloud Speech-to-Text

機械学習によって音声をテキストに変換、短時間音声にも長時間音声にも対応

無料トライアル

このプロダクトのドキュメントを見る。

パワフルな音声認識

Google Cloud Speech-to-Text では、使いやすい API で高度なニューラル ネットワーク モデルを利用し、音声をテキストに変換できます。API は 120 の言語と方言を認識し、グローバルなユーザーベースをサポートします。音声コマンド コントロールの有効化や、コールセンター音声の文字変換などが実現可能です。また、Google の機械学習技術を使用することで、リアルタイム ストリーミング音声も録音された音声も処理できます。

speech-api-lead

音声をすばやくテキストに変換*

言語を選択して [START NOW] をクリックすると、録音が始まります。

* こちらのデモは、Cloud Text-to-Speech API を使用して作成したサンプルのアプリケーション / UI をベースにしています。

機械学習の利用

最新のディープ ラーニングのニューラル ネットワーク アルゴリズムを利用して、音声を高精度で認識します。Google では、Google のサービスで使用されている音声認識技術を常に改善しており、それに伴い Cloud Speech-to-Text の精度も向上し続けています。

120 の言語と方言を認識

Cloud Speech-to-Text は 120 の言語と方言を認識し、グローバルなユーザーベースをサポートします。また、すべての言語で認識結果のテキストから不適切なコンテンツをフィルタリングできます。

話し言葉を自動的に特定

Cloud Speech-to-Text を使って、発話されている言語を特定できます(4 言語まで)。音声検索(「パリの気温は?」など)や音声コマンド(「ボリュームを上げて」など)に使用できます。

音声の長短を問わず、音声文字変換テキストをリアルタイムに返す

Cloud Speech-to-Text は結果のテキストをストリーミングし、認識されたストリーミング音声やユーザーの発言をすぐにテキストとして返せます。また、ファイルに保存された音声から認識されたテキストを返すこともできます。短時間と長時間の音声ともに対応しています。

固有名詞やコンテキスト固有の形式に対応した自動文字変換

Cloud Speech-to-Text は実際に使われる会話に対応できるように調整されており、固有名詞(Sundar Pichai など)や特定の形式を使うべき言葉(日付、電話番号など)を正確に文字変換できます。Google は Oxford English Dictionary 全体の単語数に比べて 10 倍以上の固有名詞に対応しています。

ユースケースに合わせて、事前ビルドされたモデルを選択

Cloud Speech-to-Text には事前ビルドされた音声認識モデルが複数用意されており、ユースケース(音声コマンドなど)に合わせて最適なものをお選びいただけます。たとえば、動画用に事前ビルドされた音声文字変換モデルは動画や複数話者のコンテンツのインデックス作成または字幕作成に適しており、YouTube の字幕機能に似た機械学習技術を使用します。

モデル 説明
command_and_search 音声コマンドや音声検索などの短いクエリに最適です。
phone_call 通話からの音声(通常は 8 kHz のサンプリング レートで録音)に最適です。
video 動画からの音声または複数話者を含む音声に最適です。音声は 16 kHz 以上のサンプリング レートで録音されていることが理想的です。これは、標準レートよりも費用の高いプレミアム モデルです。
default 特定の音声モデルにあてはまらない音声(長時間の音声など)に最適です。16 kHz 以上のサンプリング レートで録音されたハイファイ音声であることが理想的です。

Cloud Speech-to-Text の特長

機械学習を活用して音声をテキストに変換

自動音声認識
ディープ ラーニングのニューラル ネットワーキングを利用した自動音声認識(ASR)を音声検索や文字起こしなどのアプリケーションで活用できます。
グローバルな語彙
莫大な語彙を使用して、120 の言語と方言を認識します。
カスタマイズされた音声認識
出現する可能性の高い語句(プロダクト名など)を最大 5,000 件指定することで、ビジネスの用途に適した音声認識を手動で構成します。さらに音声の数字を住所、年、通貨などに自動的に変換し、状況に応じてそれ以外の変換も行います。
リアルタイム ストリーミングにも録音された音声にも対応
音声は、アプリケーションのマイクからストリーミングすることも、事前に録音した音声ファイルをインラインや Google Cloud Storage から取得することもできます。FLAC、AMR、PCMU、Linear-16 など、複数の音声エンコーディングに対応しています。
言語の自動検出ベータ版
多言語に対応する必要がある場合に、2~4 種類の言語コードを指定して Cloud Speech-to-Text に音声言語を正しく自動識別させ、音声文字変換を行えるようになりました。
ノイズ耐性
雑音の多い音声も正常に処理できます。ノイズ除去の必要はありません。
不適切なコンテンツのフィルタリング
一部の言語では、認識結果のテキストから不適切なコンテンツをフィルタリングできます。
句読点入力の自動化ベータ版
機械学習を利用して、音声文字変換テキストに正確に句読点(カンマ、疑問符、ピリオドなど)を付けることができます。
モデルの選択
事前ビルドされた 4 つのモデル(デフォルト、音声コマンドと検索、電話、動画の音声文字変換)から選択できます。
話者ダイアライゼーションベータ版
会話におけるそれぞれの発話が、どちらの話者によるものなのかを自動予測できるようになりました。
マルチチャンネル認識
複数の参加者がそれぞれ異なるチャンネル(2 チャンネルの電話、4 チャンネルのビデオ会議など)で話している録音音声を Cloud Speech-to-Text でチャンネル別に認識し、音声文字変換にアノテーションを付けて実際の会話と同じ順に表示できます。

Cloud Speech-to-Text API の料金

強力な音声認識

Cloud Speech-to-Text では、60 分の無料枠を超えると、15 秒ごとに音声処理の料金が発生します。詳細については、料金ガイドをご覧ください。

機能 標準モデル(拡張音声電話とビデオ通話を除くすべてのモデル) プレミアム モデル*(拡張音声電話、ビデオ通話)
0~60 分 60 分超~100 万分まで 0~60 分 60 分超~100 万分まで
音声認識(データロギングなし - デフォルト) 無料 $0.006/15 秒** 無料 $0.009/15 秒**
音声認識(データロギングあり) 無料 $0.004/15 秒** 無料 $0.006/15 秒**

この料金は、パーソナル システム(スマートフォン、タブレット、ノートパソコン、デスクトップ パソコンなど)上のアプリケーション用です。Cloud Speech-to-Text API を組み込みデバイス(自動車、テレビ、電化製品、スピーカーなど)で使用する場合は、承認と利用料金について Google までお問い合わせください。

* 現在、アメリカ英語でのみご利用いただけます。

** 各リクエストは 15 秒単位で切り上げられます。たとえば、それぞれに 7 秒の音声が含まれる 3 つのリクエスト(標準モデル)は、45 秒(3×15 秒)の音声として $0.018 が請求されます。15 秒単位での切り上げは、小数点以下の秒数も対象になります。つまり、15.14 秒は 30 秒として請求されます。

負荷分散アイコン

このページで紹介しているプロダクトや機能はベータ版です。プロダクトのリリース段階の詳細については、こちらをご覧ください。

Cloud AI プロダクトはこちらに記載されている各種 SLA ポリシーに準拠しています。これらの SLA ポリシーで保証されているレイテンシや可用性は、その他の Google Cloud サービスの基準とは異なる場合があります。

フィードバックを送信...

ご不明な点がありましたら、Google のサポートページをご覧ください。