Cloud Speech API

機械学習機能により、音声をテキストに変換

無料トライアル ドキュメントを見る

高度な音声認識

Google Cloud Speech API では、使いやすい API で高度なニューラル ネットワーク モデルを適用し、音声をテキストに変換できます。API は 80 以上の言語と方言を認識し、グローバルなユーザーベースをサポートします。アプリケーションのマイクを通して受信するユーザーの音声をテキストに変換したり、音声によるコマンド制御を可能にしたり、音声ファイルをテキストに変換したり、さまざまな機能を利用できます。Google が自身のサービスで利用している技術を利用して、リクエストでアップロードされた音声を認識し、Google Cloud Storage の音声ストレージに統合できます。

speech-api-lead

機械学習の利用

最新のディープ ラーニングのニューラル ネットワーク アルゴリズムを利用して、ユーザーの音声を高精度で認識します。Google では、Google のサービスで使用されている音声認識技術を常に改善しています。それに合わせて Speech API の精度が向上しています

80 以上の言語

Speech API は、80 以上の言語と方言を認識し、グローバルなユーザーベースに対応します。また、テキストになった結果から不適切なコンテンツをフィルタリングできます。

結果のテキストをリアルタイムで返す

Speech API は結果のテキストをストリーミングできます。認識した結果は部分的に返されます。認識されたテキストは音声の後ですぐに表示されます。音声から認識したテキストをファイルに保存することもできます。

雑音の多い環境でも正確に認識

音声を Speech API に送信する前に、高度な信号処理やノイズ除去を行う必要はありません。このサービスはさまざまな環境に対応し、雑音の多い音声も正常に処理できます。

コンテキストに対応した認識

API の呼び出しで特定の語句やヒントを指定することで、コンテキストに合わせて音声認識を調整できます。端末やアプリで用途を制御する場合に非常に便利な機能です。

どの端末のアプリにも対応

Speech API は、スマートフォン、PC、タブレット、IoT 端末(例: 自動車、テレビ、スピーカー)など、REST または gRPC リクエストを送信できるすべての端末に対応しています。

Speech API の特長

機械学習機能により、音声をテキストに変換

自動音声認識
ディープ ラーニングのニューラル ネットワーキングを利用した自動音声認識(ASR)を音声認識やテキスト起こし機能などのアプリケーションで活用できます。
グローバルな語彙
膨大な語彙を使用して、80 以上の言語とその方言を認識します。
ストリーミングでの認識
ユーザーが話している途中でも、認識結果が部分的に得られれば、すぐに結果を返します。
ヒント
出現する可能性の高い語句を指定することで、特定のコンテキストに合わせて音声認識をカスタマイズできます。特別の語句や名称を語彙に追加する場合や、音声制御を行う場合に便利です。
リアルタイムまたは事前録音での音声サポート
音声は、アプリケーションのマイクで入力することも、事前に録音した音声ファイルから取得することもできます。FLAC、AMR、PCMU、Linear-16 など、複数の音声エンコーディングに対応しています。
ノイズ低減
雑音の多い音声も正常に処理できます。ノイズ除去の必要はありません。
不適切なコンテンツのフィルタリング
一部の言語では、認識結果のテキストから不適切なコンテンツをフィルタリングできます。
統合された API
音声ファイルは、リクエストでアップグレードすることも、Google Cloud Storage に統合することもできます。

Cloud Speech API の料金

高度な音声認識

Cloud Speech API では、60 分の無料期間を超えると、15 秒ごとに音声処理の料金が発生します。詳細については、料金ガイドをご覧ください。

月間使用量 15 秒ごとの料金*
0~60 分 無料
61~1,000,000 分** $0.006

* この料金は、パーソナル システム(スマートフォンやタブレット、ノート PC、デスクトップ PC など)上のアプリケーション用です。Speech API を組み込み機器(自動車、テレビ、アプライアンス、スピーカーなど)で使用する場合には、承認と利用料金について Google までお問い合わせください

** 月あたりの利用は 100 万分までとなります。