このページでは、コマンドラインから gcloud
ツールを使用して Cloud Speech-to-Text に音声認識リクエストを送信する方法について説明します。
Cloud Speech-to-Text を使用すると、Google の音声認識技術をデベロッパーのアプリケーションに簡単に統合できます。音声データを Speech-to-Text API に送信し、音声ファイルの音声が文字に変換されたテキストを取得できます。サービスの詳細については、Cloud Speech-to-Text の基本をご覧ください。
始める前に
-
Google アカウントにログインします。
Google アカウントをまだお持ちでない場合は、新しいアカウントを登録します。
- GCP Console プロジェクトをセットアップします。
クリックして、以下を行います。
- プロジェクトを作成または選択します。
- プロジェクトにCloud Speech-to-Text API を有効にします。
- サービス アカウントを作成します。
- JSON として秘密鍵をダウンロードします。
これらのリソースは、GCP Console でいつでも表示および管理できます。
-
環境変数 GOOGLE_APPLICATION_CREDENTIALS をサービス アカウント キーが含まれる JSON ファイルのファイルパスに設定します。この変数は現在のシェル セッションにのみ適用されるため、新しいセッションを開く場合は、変数を再度設定してください。
- Cloud SDK をインストールして初期化します。
音声文字変換をリクエストする
Cloud Speech-to-Text を使用して、音声ファイルをテキストに変換してみましょう。次のサンプルコードを使用して、Speech-to-Text API に recognize
リクエストを送信します。
コマンドライン シェルを開き、次のコマンドを実行します。
gcloud ml speech recognize 'gs://cloud-samples-tests/speech/brooklyn.flac' \ --language-code='en-US'
このコマンドは、一般公開されている場所でホストされている FLAC に含まれる音声を文字に変換するよう、Cloud Speech-to-Text にリクエストします。
リクエストが成功すると、サーバーから JSON 形式のレスポンスが返されます。
{ "results": [ { "alternatives": [ { "confidence": 0.9840146, "transcript": "how old is the Brooklyn Bridge" } ] } ] }
これで、最初のリクエストを Cloud Speech-to-Text に送信できました。
Cloud Speech-to-Text からエラーまたは空のレスポンスが返された場合は、トラブルシューティングとエラーの緩和の手順をご覧ください。
次のステップ
- 短い音声ファイルの文字変換を行う。
- 長い音声ファイルの音声認識を一括で行う方法を学習する。
- マイクからの入力など、ストリーミングの音声を文字に変換する方法を学習する。
- Cloud Speech-to-Text クライアント ライブラリを使用して、選択した言語で Cloud Speech-to-Text の使用を開始する。
- サンプル アプリケーションを実行する。
- ベスト プラクティスのドキュメントで、最高のパフォーマンスと精度を実現するための方法やヒントを確認する。