Google Cloud コンソールを使用して音声を文字に変換する
このクイックスタートでは、Cloud Speech-to-Text コンソールについて説明します。このクイックスタートでは、音声文字変換を作成して調整し、独自のアプリケーションの Speech-to-Text API でこの構成を使用する方法を学びます。
Console ではなく REST API を使用してリクエストを送信し、レスポンスを受信する方法については、始める前にページをご覧ください。
始める前に
Speech-to-Text コンソールを使用する前に、Google Cloud Platform Console で API を有効にする必要があります。ここでは、以下の手順について説明します。
- プロジェクトで Speech-to-Text を有効にする。
- Speech-to-Text の課金が有効になっていることを確認する。
Google Cloud プロジェクトを設定する
-
既存のプロジェクトを選択するか、新しいプロジェクトを作成します。プロジェクトの作成方法については、Google Cloud Platform のドキュメントをご覧ください。
新しいプロジェクトを作成する場合、このプロジェクトに請求先アカウントを関連付けるように求められます。既存のプロジェクトを使用する場合は、そのプロジェクトで課金が有効になっていることを確認します。
プロジェクトを選択して請求先アカウントを関連付けると、Speech-to-Text API を有効にできます。ページの上部にある [プロダクトとリソースを検索] バーに「speech」と入力します。
結果のリストから Cloud Speech-to-Text API を選択します。
プロジェクトに関連付けずに Speech-to-Text を試すには、[この API を試す] オプションを選択します。プロジェクトで Speech-to-Text API を有効にするには、[有効にする] をクリックします。
音声文字変換を作成する
Google Cloud コンソールを使用して新しい音声文字変換を作成します。
音声構成
Speech-to-Text の概要を開きます。
[CREATE TRANSCRIPTION] をクリックします。
- コンソールを初めて使用する場合は、構成と音声文字変換を保存する Cloud Storage の場所を選択するよう求められます。
[Create transcription] ページで、ソース音声ファイルをアップロードします。すでに Cloud Storage に保存されているファイルを選択するか、新しいファイルを指定された Cloud Storage の宛先にアップロードできます。
アップロードされた音声ファイルのエンコード タイプを選択します。
サンプリング レートを指定します。
[続行] をクリックします。音声文字変換のオプションが表示されます。
音声文字変換のオプション
ソース音声の言語コードを選択します。これは録音で使用されている言語です。
ファイルで使用する音声文字変換モデルを選択します。デフォルト オプションはあらかじめ選択されています。通常、変更する必要はありませんが、モデルを音声の種類に合わせると、精度が向上することがあります。モデルのコストは異なります。
[続行] をクリックします。[モデル適応] が表示されます。
モデル適応(オプション)
ソース音声にあまり使われない単語、固有名詞、独自用語などが含まれ、認識で問題が発生した場合は、モデル適応が役立ちます。
[Turn on model adaptation] をオンにします。
[One-time adaptation resource] を選択します。
関連するフレーズを追加して、ブースト値を与えます。
左側の列で [Submit] をクリックして、音声文字変換を作成します。
音声文字変換を確認する
音声ファイルのサイズによっては、音声文字変換の作成に数分から数時間かかることがあります。音声文字変換が作成されると、レビュー可能な状態になります。タイムスタンプでテーブルを並べ替えると、最近の音声文字変換を簡単に見つけることができます。
確認する音声文字変換の名前をクリックします。
音声文字変換のテキストと音声ファイルを比較する
変更する場合は、[Reuse configuration] をクリックします。これにより、同じオプションがあらかじめ選択されている状態で音声文字変換の作成フローが開きます。ここで、いくつかの項目の変更、新しい音声文字変換の作成、結果の比較を行うことができます。
次のステップ
- 短い音声ファイルの音声を文字に変換する。
- 長い音声ファイルの音声認識を一括で行う方法を学習する。
- マイクからの入力など、ストリーミングの音声を文字に変換する方法を学習する。
- 特定の言語で Speech-to-Text クライアント ライブラリを使用して、Speech-to-Text を利用する。
- サンプル アプリケーションを実行する。
- ベスト プラクティスのドキュメントで、最高のパフォーマンスと精度を実現するための方法やヒントを確認する。