gcloud CLI を使用して音声を文字に変換する

このページでは、コマンドラインから gcloud ツールを使用して Speech-to-Text に音声認識リクエストを送信する方法について説明します。

Speech-to-Text を使用すると、Google の音声認識技術をデベロッパーのアプリケーションに簡単に統合できます。音声データを Speech-to-Text API に送信し、音声ファイルの音声が文字に変換されたテキストを取得できます。サービスの詳細については、Speech-to-Text の基本をご覧ください。

始める前に

Speech-to-Text API にリクエストを送信する前に、以下の操作を完了しておく必要があります。詳細については、始める前にのページをご覧ください。

GCP プロジェクトで Speech-to-Text を有効にする。
1. Speech-to-Text の課金が有効になっていることを確認する。
Google Cloud CLI をインストールします。インストール後、次のコマンドを実行して Google Cloud CLI を初期化します。
```
gcloud init
```
外部 ID プロバイダ（IdP）を使用している場合は、まずフェデレーション ID を使用して gcloud CLI にログインする必要があります。
（省略可）音声データを保存する新しい Google Cloud Storage バケットを作成する。

音声文字変換をリクエストする

では、Speech-to-Text を使用して、音声ファイルをテキストに変換してみましょう。次のコードサンプルを使用して、Speech-to-Text API に recognize リクエストを送信します。

コマンドラインシェルを開き、次のコマンドを実行します。

gcloud ml speech recognize gs://cloud-samples-tests/speech/brooklyn.flac \
    --language-code=en-US

このコマンドは、一般公開されている場所でホストされている FLAC に含まれる音声を文字に変換するよう Cloud Speech-to-Text にリクエストします。

リクエストが成功すると、サーバーから JSON 形式のレスポンスが返されます。

{
  "results": [
    {
      "alternatives": [
        {
          "confidence": 0.9840146,
          "transcript": "how old is the Brooklyn Bridge"
        }
      ]
    }
  ]
}

これで、Speech-to-Text への最初のリクエストを送信できました。

エラーが発生する場合や Speech-to-Text からのレスポンスが空である場合は、トラブルシューティングとエラーの軽減の手順を確認してください。

クリーンアップする

このページで使用したリソースについて、 Google Cloud アカウントに課金されないようにするには、次の手順を実施します。

不要になったプロジェクトを Google Cloud console で削除します。

次のステップ

短い音声ファイルの文字変換を行う。
長い音声ファイルの音声認識を一括で行う方法を学習する。
マイクからの入力など、ストリーミングの音声を文字に変換する方法を学習する。
特定の言語で Speech-to-Text クライアントライブラリを使用して、Speech-to-Text を利用する。
サンプルアプリケーションを実行する。
ベストプラクティスのドキュメントで、最高のパフォーマンスと精度を実現するための方法やヒントを確認する。