Cloud Speech-to-Text

機械学習によって音声をテキストに変換、短時間にも長時間にも対応

無料トライアル

強力な音声認識

Google Cloud Speech-to-Text では、使いやすい API で高度なニューラル ネットワーク モデルを適用し、音声をテキストに変換できます。API は 120 の言語と方言を認識し、グローバルなユーザーベースをサポートします。音声コマンド コントロールの有効化や、コールセンター音声の文字変換などが実現可能です。また、Google の機械学習技術が応用されており、リアルタイム ストリーミング音声も録音された音声も処理できます。

speech-api-lead

音声をすばやくテキストに変換

言語を選択して [START NOW] をクリックすると、録音が開始します。

機械学習の利用

最新のディープ ラーニングのニューラル ネットワーク アルゴリズムを利用して、音声を高精度で認識します。Google では、Google のサービスで使用されている音声認識技術を常に改善しており、それに伴い Cloud Speech-to-Text の精度は向上しています。

120 の言語と方言を認識

Cloud Speech-to-Text は 120 の言語と方言を認識し、グローバルなユーザーベースをサポートします。また、すべての言語で認識結果のテキストから不適切なコンテンツをフィルタリングできます。

話し言葉を自動的に特定

Cloud Speech-to-Text を使って、発話されている言語を特定できます(4 言語まで)。音声検索(「現在のパリの気温は?」など)や音声コマンド(「ボリュームを上げて」など)に使用できます。

短時間および長時間の音声から音声文字変換テキストをリアルタイムに返す

Cloud Speech-to-Text は結果のテキストをストリーミングし、認識されたストリーミング音声やユーザーの発言をすぐにテキストとして返せます。また、ファイルに保存された音声から認識されたテキストを返すこともできます。短時間と長時間の音声ともに対応しています。

固有名詞やコンテキスト固有の書式に対応した自動文字変換

Cloud Speech-to-Text は実際に使われる会話に対応できるように調整されており、固有名詞(Sundar Pichai など)や特定の書式を使うべき言葉(日付、電話番号など)を正確に文字変換できます。Google は Oxford English Dictionary 全体の単語数に比べて 10 倍以上の固有名詞に対応しています。

ユースケースに合わせて、事前ビルドされたモデルを選択

Cloud Speech-to-Text には事前ビルドされた音声認識モデルが複数用意されており、ユースケース(音声コマンドなど)に合わせて最適なものをお選びいただけます。たとえば、動画用に事前ビルドされた音声文字変換モデルは動画や複数話者のコンテンツのインデックス作成または字幕作成に適しており、YouTube の字幕機能に似た機械学習技術を使用します。

モデル 説明
command_and_search 音声コマンドや音声検索などの短いクエリに最適です。
phone_call 通話に由来する音声に最適です(通常は 8 kHz のサンプリング レートで録音されています)。
video 動画に由来する音声または複数話者を含む音声に最適です。音声は 16 kHz 以上のサンプリング レートで録音されていることが理想的です。これは、標準レートよりも費用の高いプレミアム モデルです。
default 特定の音声モデルにあてはまらない音声(長時間の音声など)に最適です。16 kHz 以上のサンプリング レートで録音されたハイファイ音声であることが理想的です。

Cloud Speech-to-Text の特長

機械学習を活用して音声をテキストに変換

自動音声認識
ディープ ラーニングのニューラル ネットワーキングを利用した自動音声認識(ASR)を音声検索や文字起こしなどのアプリケーションで活用できます。
グローバルな語彙
膨大な語彙を使用して、120 の言語と方言を認識します。
語句のヒント
出現する可能性の高い語句を指定することで、特定のコンテキストに合わせて音声認識をカスタマイズできます。特別な語句や名称を語彙に追加する場合や、音声制御を行う場合に便利です。
リアルタイム ストリーミングまたは事前録音の音声に対応
音声は、アプリケーションのマイクからストリーミングすることも、事前に録音した音声ファイルをインラインや Google Cloud Storage から取得することもできます。FLAC、AMR、PCMU、Linear-16 など、複数の音声エンコーディングに対応しています。
言語の自動検出 ベータ版
多言語に対応する必要がある場合に、2~4 種類の言語コードを指定して Cloud Speech-to-Text に音声言語を正しく自動識別させ、音声文字変換を行えるようになりました。
ノイズ低減
雑音の多い音声も正常に処理できます。ノイズ除去の必要はありません。
不適切なコンテンツのフィルタリング
一部の言語では、認識結果のテキストから不適切なコンテンツをフィルタリングできます。
句読点入力の自動化 ベータ版
機械学習を利用して、音声文字変換テキストに正確に句読点(カンマ、疑問符、ピリオドなど)を付けることができます。
モデルの選択 ベータ版
事前ビルドされた 4 つのモデル(デフォルト、音声コマンドと検索、電話、動画の音声文字変換)から選択できます。
話者ダイアライゼーション ベータ版
会話におけるそれぞれの発話が、どちらの話者によるものなのかを自動予測できるようになりました。
マルチチャンネル認識 ベータ版
複数の参加者がそれぞれ異なるチャンネル(2 チャンネルの電話、4 チャンネルのビデオ会議など)で話している録音音声を Cloud Speech-to-Text でチャンネル別に認識し、音声文字変換にアノテーションを付けて実際の会話と同じ順に表示できます。

Cloud Speech-to-Text API の料金

強力な音声認識

Cloud Speech-to-Text では、60 分の無料枠を超えると、15 秒ごとに音声処理の料金が発生します。詳細については、料金ガイドをご覧ください。
機能 0~60 分 60 分超、100 万分まで
音声認識(動画を除くすべてのモデル) 無料 $0.006 米ドル/15 秒*
動画音声認識 $0.006 $0.012 米ドル/15 秒*

この料金は、パーソナル システム(スマートフォンやタブレット、ノート PC、デスクトップ PC など)上のアプリケーション用です。Speech-to-Text API を組み込み機器(自動車、テレビ、アプライアンス、スピーカーなど)で使用する場合には、承認と利用料金について Google までお問い合わせください。

* 各リクエストは 15 秒単位で切り上げられます。たとえば、それぞれに 7 秒の音声が含まれる 3 つのリクエストは、45 秒(3 × 15 秒)の音声として $0.018 が請求されます。15 秒単位での切り上げは、小数点以下の秒数も対象になります。つまり、15.14 秒は 30 秒として請求されます。

このページで紹介しているプロダクトや機能はベータ版です。プロダクトのリリース段階の詳細については、こちらをご覧ください。

フィードバックを送信...