Google Cloud コンソールを使用して音声を文字に変換する

このクイックスタートでは、Cloud Speech-to-Text コンソールについて説明します。このクイックスタートでは、音声文字変換を作成して調整し、独自のアプリケーションの Speech-to-Text API でこの構成を使用する方法を学びます。

Console ではなく REST API を使用してリクエストを送信し、レスポンスを受信する方法については、始める前にページをご覧ください。

始める前に

Speech-to-Text コンソールを使用する前に、Google Cloud Platform Console で API を有効にする必要があります。ここでは、以下の手順について説明します。

  • プロジェクトで Speech-to-Text を有効にする。
  • Speech-to-Text の課金が有効になっていることを確認する。

Google Cloud プロジェクトを設定する

  1. Google Cloud コンソールにログイン

  2. プロジェクト選択ページに移動

    既存のプロジェクトを選択するか、新しいプロジェクトを作成します。プロジェクトの作成方法については、Google Cloud Platform のドキュメントをご覧ください。

  3. 新しいプロジェクトを作成する場合、このプロジェクトに請求先アカウントを関連付けるように求められます。既存のプロジェクトを使用する場合は、そのプロジェクトで課金が有効になっていることを確認します。

    プロジェクトで課金が有効になっていることを確認する

  4. プロジェクトを選択して請求先アカウントを関連付けると、Speech-to-Text API を有効にできます。ページの上部にある [プロダクトとリソースを検索] バーに「speech」と入力します。

  5. 結果のリストから Cloud Speech-to-Text API を選択します。

  6. プロジェクトに関連付けずに Speech-to-Text を試すには、[この API を試す] オプションを選択します。プロジェクトで Speech-to-Text API を有効にするには、[有効にする] をクリックします。

音声文字変換を作成する

Google Cloud コンソールを使用して新しい音声文字変換を作成します。

音声構成

  1. Speech-to-Text の概要を開きます。

    Speech-to-Text の概要ページのスクリーンショット。

  2. [CREATE TRANSCRIPTION] をクリックします。

    • コンソールを初めて使用する場合は、構成と音声文字変換を保存する Cloud Storage の場所を選択するよう求められます。
      Speech-to-Text の [Create Transcription] ページのスクリーンショット。
  3. [Create transcription] ページで、ソース音声ファイルをアップロードします。すでに Cloud Storage に保存されているファイルを選択するか、新しいファイルを指定された Cloud Storage の宛先にアップロードできます。

  4. アップロードされた音声ファイルのエンコード タイプを選択します。

  5. サンプリング レートを指定します。

  6. [続行] をクリックします。音声文字変換のオプションが表示されます。

音声文字変換のオプション

  1. ソース音声の言語コードを選択します。これは録音で使用されている言語です。

  2. ファイルで使用する音声文字変換モデルを選択します。デフォルト オプションはあらかじめ選択されています。通常、変更する必要はありませんが、モデルを音声の種類に合わせると、精度が向上することがあります。モデルのコストは異なります。

    Speech-to-Text の [Create Transcription] ページのスクリーンショット。

  3. [続行] をクリックします。[モデル適応] が表示されます。

モデル適応(オプション)

ソース音声にあまり使われない単語、固有名詞、独自用語などが含まれ、認識で問題が発生した場合は、モデル適応が役立ちます。

  1. [Turn on model adaptation] をオンにします。

  2. [One-time adaptation resource] を選択します。

  3. 関連するフレーズを追加して、ブースト値を与えます。

    Speech-to-Text の [Create Transcription] ページのスクリーンショット。

  4. 左側の列で [Submit] をクリックして、音声文字変換を作成します。

音声文字変換を確認する

音声ファイルのサイズによっては、音声文字変換の作成に数分から数時間かかることがあります。音声文字変換が作成されると、レビュー可能な状態になります。タイムスタンプでテーブルを並べ替えると、最近の音声文字変換を簡単に見つけることができます。

  1. 確認する音声文字変換の名前をクリックします。

    Speech-to-Text の音声文字変換リストのスクリーンショット。
  2. 音声文字変換のテキストと音声ファイルを比較する

    Speech-to-Text の音声文字変換リストのスクリーンショット。
  3. 変更する場合は、[Reuse configuration] をクリックします。これにより、同じオプションがあらかじめ選択されている状態で音声文字変換の作成フローが開きます。ここで、いくつかの項目の変更、新しい音声文字変換の作成、結果の比較を行うことができます。

次のステップ