容易に使用可能な API を使用して、音声を音声文字変換テキストに変換し、音声認識をアプリケーションに統合します。
1 か月あたり最大 60 分間無料の文字起こしと分析をご利用いただけます。*また新規のお客様には、Speech-to-Text や他の Google Cloud プロダクトをお試しいただける無料クレジット最大 $300 分を差し上げます。
*Speech-to-Text V1 API による音声処理のみに適用されます。
機能
広範な言語サポートにより、グローバルなユーザーベースに対応できます。短い音声データ、長い音声データ、さらにストリーミングの音声データも音声文字変換します。Speech-to-Text は、次世代のユニバーサル音声モデルである Chirp により、より正確で世界中をカバーする翻訳と認識も実現します。Chirp は、100 以上の言語にわたる数百万時間分の音声と 280 億の文章に対する自己教師ありトレーニングを使用して構築されています。
音声操作や通話と動画の音声文字変換のために、特定分野の品質要件に合わせて最適化された各種トレーニング済みモデルが用意されており、その中から選択できます。Speech-to-Text UI を使用して、カスタム リソースを簡単にカスタマイズ、テスト、作成、管理できます。
Speech-to-Text API v2 は、企業や企業のお客様に初期設定でセキュリティと規制に関する要件が追加された状態で提供します。データ所在地により、シンガポールやベルギーなどの Google Cloud リージョンを利用する完全にリージョン化されたサービスを通じて、音声文字変換モデルを呼び出すことができます。認識機能のリソースフルネスにより、認証と認可に専用のサービス アカウントを使用する必要がなくなります。リソースの生成と音声文字変換のログは、Google Cloud コンソールで簡単に利用できます。また、Speech-to-Text API v2 は、すべてのリソースに対する顧客管理の暗号鍵によるエンタープライズ レベルの暗号化と一括音声文字変換を実現します。
Speech-to-Text は、モデル適応を使用して、頻繁に使用される単語の精度を向上させ、音声文字変換に利用できる語彙を増やし、ノイズの多い音声からの音声文字変換を改善します。モデル適応を使用すると、特定の単語やフレーズを、他の候補よりも高い頻度で認識するように Speech-to-Text をカスタマイズできます。たとえば、Speech-to-Text にバイアスをかけて、「whether」よりも高頻度で「weather」と音声文字変換するようにできます。
アプリケーションのマイクからストリーミングした音声入力や、事前に録音した音声ファイル(インラインや Cloud Storage)から取得した音声入力を API が処理し、音声認識の結果をリアルタイムに受け取ることができます。
Speech-to-Text はマルチチャネルの状況(ビデオ会議など)で個別のチャネルを認識し、文字起こしにアノテーションを付けて順序を維持できます。
Speech-to-Text はさまざまな環境の雑音の多い音声も正常に処理できます。別途ノイズ キャンセルを行う必要はありません。
音声操作や通話と動画の音声文字変換のために、特定分野の品質要件に合わせて最適化された各種トレーニング済みモデルが用意されており、その中から選択できます。たとえば、拡張通話モデルは 8 kHz のサンプリング レートで録音された通話など、電話通信から発信された音声向けに調整されています。
冒とくフィルタは音声データ内の不適切なコンテンツや職業倫理に反するコンテンツを検出し、テキスト結果の冒とく的な語句をフィルタで除外することができます。
自分の音声データをアップロードし、ノーコードで音声文字変換します。構成の調整を繰り返し、品質を評価します。
Speech-to-Text では、音声文字変換でカンマ、疑問符、ピリオドなどを使用して句読点を正確に入力します。
会話におけるそれぞれの発話がどちらの話者によるものなのかを自動予測することで、各話者の発言内容を把握できます。
仕組み
Speech-to-Text で音声認識を行う主な方法は、同期、非同期、ストリーミングの 3 つです。各方法により、音声文字変換が後処理で必要か、定期的またはリアルタイムで必要かに基づいて、テキストの結果が返されます。簡略に説明すると、音声データを入力し、テキストベースのレスポンスを受け取ることができます。
デモ
アップロードされたファイルから、またはマイクに直接話しかけて、すばやく音声文字変換を作成できます。
一般的な使用例
音声文字変換を作成する
わずか数ステップで音声文字変換を作成し、Cloud コンソールから Speech-to-Text API を使用する方法について学習します。短い音声、長い音声、ストリーミングの音声を文字に変換することもできます。
音声文字変換を作成する
わずか数ステップで音声文字変換を作成し、Cloud コンソールから Speech-to-Text API を使用する方法について学習します。短い音声、長い音声、ストリーミングの音声を文字に変換することもできます。
Speech-to-Text をアプリに追加する方法
Google Cloud を使用して、アプリケーションで Speech-to-Text を迅速かつ簡単に有効にする方法を説明します。この動画では、ML モデルの豊富な経験がなくても、アプリケーションに AI を追加できる方法について説明します。事前トレーニング済みの Speech-to-Text API を使用すると、アプリケーションで AI を迅速かつ簡単に有効にできます。
Speech-to-Text をアプリに追加する方法
Google Cloud を使用して、アプリケーションで Speech-to-Text を迅速かつ簡単に有効にする方法を説明します。この動画では、ML モデルの豊富な経験がなくても、アプリケーションに AI を追加できる方法について説明します。事前トレーニング済みの Speech-to-Text API を使用すると、アプリケーションで AI を迅速かつ簡単に有効にできます。
Google Cloud APIs を使用した言語、音声、テキスト、翻訳
このコースでは、Speech-to-Text API を使用して音声ファイルをテキスト ファイルに文字変換し、Google Cloud Translation API で翻訳してから、Natural Language AI で合成音声を作成します。
Google Cloud APIs を使用した言語、音声、テキスト、翻訳
このコースでは、Speech-to-Text API を使用して音声ファイルをテキスト ファイルに文字変換し、Google Cloud Translation API で翻訳してから、Natural Language AI で合成音声を作成します。
料金
Speech-to-Text の料金の仕組み | Speech-to-Text の料金は、API バージョン、チャネル、バッチメソッド、Google Cloud サービスの追加費用(ストレージなど)に基づきます。 | |
---|---|---|
API のバージョン | サービスと機能 | 料金 |
Speech-to-Text V1 API | V1 ではマルチリージョンのデータ所在地のみを利用できます。モデルには、ショート、ロング、電話通話、動画があります。V1 には監査ログは含まれていません。新規のお客様には、無料クレジット $300 分と 1 か月あたり 60 分間まで音声の文字変換と分析を無料で利用できます。このクレジットに対する課金はありません。 | $0.024 /分 |
Speech-to-Text V2 API | V2 では、マルチリージョンとシングル リージョンのデータ所在地を利用できます。モデルには、ショート、ロング、電話、動画、Chirp があります。V2 は、監査ログと顧客管理の暗号鍵をサポートしています。 | $0.016 /分 |
Speech-to-Text の料金の詳細をご覧ください。
Speech-to-Text の料金の仕組み
Speech-to-Text の料金は、API バージョン、チャネル、バッチメソッド、Google Cloud サービスの追加費用(ストレージなど)に基づきます。
Speech-to-Text V1 API
V1 ではマルチリージョンのデータ所在地のみを利用できます。モデルには、ショート、ロング、電話通話、動画があります。V1 には監査ログは含まれていません。新規のお客様には、無料クレジット $300 分と 1 か月あたり 60 分間まで音声の文字変換と分析を無料で利用できます。このクレジットに対する課金はありません。
$0.024
/分
Speech-to-Text V2 API
V2 では、マルチリージョンとシングル リージョンのデータ所在地を利用できます。モデルには、ショート、ロング、電話、動画、Chirp があります。V2 は、監査ログと顧客管理の暗号鍵をサポートしています。
$0.016
/分
Speech-to-Text の料金の詳細をご覧ください。